1 / 48

Bioinformatics

Bioinformatics. ĐẠI HỌC NGUYỄN TẤT THÀNH. NGUYỄN THÁI MINH QUÂN. 1. Các xu hướng phát triển của Tin – Sinh học. Xây dựng cơ sở dữ liệu sinh học Lưu trữ và quản lý nguồn dữ liệu sinh học Phát triển các thuật giải và các phương pháp thống kê Xác định mối quan hệ sinh học giữa các dữ liệu

nhi
Télécharger la présentation

Bioinformatics

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Bioinformatics ĐẠI HỌC NGUYỄN TẤT THÀNH NGUYỄN THÁI MINH QUÂN 1

  2. Các xu hướng phát triển của Tin – Sinh học • Xây dựng cơ sở dữ liệu sinh học • Lưu trữ và quản lý nguồn dữ liệu sinh học • Phát triển các thuật giải và các phương pháp thống kê • Xác định mối quan hệ sinh học giữa các dữ liệu • Sử dụng các công cụ tin sinh học • Phân tích và thông dịch nguồn dữ liệu sinh học

  3. Trình tự DNA là vô nghĩa! gggtctctcttgttagaccagatctgagcctgggagctctctggctaactagggaacccactgcttaagcctcaataaagcttgccttgagtgcttcaagtagtgtgtgcccgtctgttgtgtgactctgatagctagagatcccttcagaccaaatttagtcagtgtgaaaaatctctagcagtggcgcctgaacagggacttgaaagcgaaagagaaaccagagaagctctctcgacgcaggactcggcttgctgaagcgcgcacggcaagaggcgaggggacggcgactggtgagtacgccaaaattttgactagcggaggctagaaggagagagatgggtgcgagagcgtcgatattaagcgggggaggattagatagatgggaaaaaattcggttaaggccagggggaaagaaaaaatatagattaaaacatttagtatgggcaagcagggagctagaacgattcgcagtcaatcctggcctattagaaacatcagaaggttgtagacaaatactgggacaactacaaccagcccttcagacaggatcagaagaacttagatcattatataatacagtagcaaccctctattgtgtgcatcaaaagatagatgtaaaagacaccaaggaagctttagataagatagaggaagagcaaaacaaaagtaagaaaaaagcacagcaagcagcagctgacacaggaaatagcagccaggtcagccaaaattaccccatagtgcagaacatccaggggcaaatggtacatcaggccatatcacctagaactttaaatgcatgggtaaaagtagtagaagagaaggctttcagcccagaagtaatacccatgttttcagcattatcagaaggagccaccccacaagatttaaacaccatgctaaacacagtggggggacatcaagcagccatgcaaatgttaaaagagaccatcaatgaggaagctgcagaatgggatagattgcatccagtgcatgcagggcctcatccaccaggccagatgagagaaccaaggggaagtgacatagcaggaactactagtacccttcaggaacaaatagcatggatgacaaataatccacctatcccagtaggagaaatctataagagatggataatcctgggattaaataaaatagtaaggatgtatagccctaccagcattctggacataaaacaaggaccaaaggaaccctttagagactatgtagaccggttctataagactctaagagccgagcaagcttcacaggaggtaaaaaattggatgacagaaaccttgttggtccaaaatgcgaacccagattgtaagactattttaaaagcattgggaccagcagctacactagaagaaatgatgacagcatgtcagggagtgggaggacccggccataaagcaagagttttggcagaagcaatgagccaagtaacaaattcagctaccataatgatgcagaaaggcaattttaggaaccaaagaaaaattgttaagtgtttcaattgtggcaaagaagggcacatagccaaaaattgcagggcccctaggaaaaggggctgttggaaatgtggaaaggagggacaccaaatgaaagattgtactgagagacaggctaattttttagggaaaatctggccttcccacaggggaaggccagggaattttcctcagaacagactagagccaacagccccaccagccccaccagaagagagcttcaggtttggggaagagacaacaactccctctcagaagcaggagctgatagacaaggaactgtatccttcagcttccctcaaatcactctttggcaacgaccccttgtcacaataaagataggggggcaactaaaggaagctctattagatacaggagcagatgatacagtattagaagaaataaatttgccaggaagatggaaaccaaaaatgatagggggaattggaggttttatcaaagtaagacagtatgatcaaatactcgtagaaatctgtggacataaagctataggtacagtattagtaggacctacacctgtcaacataattggaagaaatctgttgactcagattggttgcactttaaattttcccattagtcctattgaaactgtaccagtaaaattaaagccaggaatggatggcccaaaagttaaacaatggccattgacagaagaaaaaataaaagcattagtagaaatctgtacagaaatggaaaaggaaggaaaaatttcaaaaatcgggcctgaaaatccatataatactccagtatttgccataaagaaaaaagacagtactaaatggagaaaattagtagatttcagagaacttaataagaaaactcaagacttctgggaagttcaattaggaataccacatcccgcagggttaaaaaagaaaaaatcagtaacagtactggatgtgggtgatgcatatttttcagttcccttagataaagaattcaggaagtacactgcatttaccatacctagtataaacaatgagacaccagggattagatatcagtacaatgtgcttccacagggatggaaaggatcaccagcaatattccaaagcagcatgacaaaaatcttagagccttttagaaaacaaaatccagacatagttatctatcaatacatggacgatttgtatgtaggatctgacttagaaatagggcagcatagaacaaaaatagaggaactgagacaacatctgttgaagtggggatttaccacaccagacaaaaaacatcagaaagaacctccattcctttggatgggttatgaactccatcctgataaatggacagtacagcctatagtgctgccagaaaaggacagctggactgtcaatgacatacagaagttagtgggaaaattgaattgggcaagtcagatttacccagggattaaagtaaagcaattatgtagactccttaggggaaccaaggcactaacagaagtaataccactaacaaaagaagcagagctagaactggcagaaaacagggaaattctaaaagaaccagtacatggagtgtattatgacccatcaaaagacttaatagcggaaatacagaagcaggggcaaggtcaatggacatatcaaatttatcaagagccatttaaaaatctgaaaacaggaaaatatgcaagaatgaggggtgcccacactaatgatgtaaaacaattaacagaggcagtgc

  4. Cơ sở dữ liệu sinh học Các bài báo khoa học Phân loại học (taxonomy) Trình tự nucleotide Bộ gen (genome) Trình tự protein Cấu trúc protein 4

  5. Các loại cơ sở dữ liệu sinh học • Cơ sở dữ liệu sơ cấp: • Dữ liệu được cung cấp từ nhà thực nghiệm • Thông tin chỉ được thêm vào, không thêm bớt, hiệu chỉnh • Cơ sở dữ liệu thứ cấp: • Dữ liệu được xử lý • Nội dung được kiểm soát bởi tổ chức CSDL 5

  6. Ví dụ cơ sở dữ liệu sơ cấp NCBI (National Center for Biotechnology Information) EMBL-EBI (European Molecular Biology Laboratory) DDBJ (DNA Data Bank of Japan) 6

  7. http://www.ncbi.nlm.nih.gov/ NCBI 7

  8. NCBI: Outreach and Education 8

  9. NCBI: Databases and Tools 9

  10. NCBI: A science primer Single Nucleotide Polymorphism Expression Sequence Tag 10

  11. NCBI: EST Nguồn: NCBI 11

  12. NCBI: SNP Nguồn: NCBI 12

  13. NCBI: Model Organisms 13

  14. http://www.ebi.ac.uk/ 14

  15. http://www.ddbj.nig.ac.jp/ 15

  16. Ví dụ cơ sở dữ liệu thứ cấp UNI-PROT (UNIted PROTein) PIR (Protein Information Resource) DSSP (Database of Secondary Structure of Protein) 16

  17. UNI-PROT http://www.uniprot.org/ 17

  18. UNI-PROT • Sự kết hợp của 3 cơ sở dữ liệu lớn: • European Bioinformatics Institute (EBI) • Swiss Institute of Bioinformatics (SIB) • Protein Information Resource (PIR) • SWISS-PROT • Ra đời năm 1986 • Sát nhập vào UNI-PROT năm 2003 18

  19. http://pir.georgetown.edu/ 19

  20. http://swift.cmbi.ru.nl/gv/dssp/ 20

  21. Hợp tác quốc tế về trao đổi dữ liệu trình tự nucleotide Entrez NIH NCBI EMBL GenBank • Đăng tải • Cập nhật • Đăng tải • Cập nhật EMBL DDBJ EBI CIB NIG • Đăng tải • Cập nhật SRS getentry 21

  22. Định dạng GenBank Nguồn: NCBI 22

  23. Ý nghĩa các thông số • LOCUS • ID của EMBL • Tên của locus trên gen • ACCESSION NUMBER • ID để xác định tính duy nhất của trình tự • Các trình tự đến từ các CSDL khác nhau có tiền tố khác nhau 23

  24. Ý nghĩa các thông số (tt) • gi • GenInfo Identifiers • Là dãy các con số chỉ một trình tự là khác biệt với các trình tự khác • VERSION • Các phiên bản khác nhau của một trình tự 24

  25. Ý nghĩa các thông số (tt) • KEYWORDS • Từ khóa để tìm kiếm nhanh 1 trình tự • SOURCE/ORGANISM • Nguồn gốc (loài) của trình tự • Được kết nối với ngân hàng phân loại học của NCBI 25

  26. Ý nghĩa các thông số (tt) • REFERENCE … • Trích dẫn bài báo, các công trình nghiên cứu liên quan đến trình tự • Được kết nối với cơ sở dữ liệu PubMed 26

  27. Ý nghĩa các thông số FEATURE • Source • Thông tin chi tiết của trình tự • Gene • Thông tin chi tiết về gen hiện diện trong trình tự và các sản phẩm liên quan của nó 27

  28. Ý nghĩa các thông số FEATURE (tt) • CDS: Coding Definition Sequence • Thông tin vùng mã hóa protein của gen và chi tiết về sản phẩm của nó • Exon • Thông tin chi tiết về các trình tự exon trong gen 28

  29. Mối liên hệ trong GenBank 29

  30. Định dạng FASTA Nguồn: NCBI 30

  31. Định dạng Graphic Nguồn: NCBI 31

  32. Các tiền đề cơ bản so sánh trình tự • Thuyết tiến hóa: • Các trình tự gen tiến hóa từ một tổ tiên chung • Các protein có trình tự giống nhau thường có cấu trúc và chức năng giống nhau. • Dữ liệu lớn trình tự trong các ngân hàng dữ liệu: • Genbank: 82,853,685 trình tự DNA • Swiss-Prot: 362,782 trình tự protein 32

  33. Các tiền đề so sánh trình tự Trình tự A và trình tự B được gọi là các trình tự tương đồng (homologous) So sánh trình tự A và trình tự B phát hiện x + y sự khác nhau (trình tự A có x sự biến đổi từ trình tự tổ tiên, trình tự B có y sự biến đổi từ trình tự tổ tiên). 33

  34. Các tiền đề so sánh trình tự • Sự tiến hóa gen: • Orthologous • a1 (loài1) và a1 (loài 2) • a2 (loài 1) và a2 (loài 2) • Paralogous • gen a1 và gen a2 • Homologous • Orthologous, Paralogous 34

  35. Các vấn đề khi so sánh trình tự 35

  36. Thế nào là so sánh trình tự (sắp gióng cột) So sánh từng ký tự trong trình tự này với các ký tự trong trình tự khác (theo cột). DNA: 4 ký tự, protein: 20 ký tự. Đánh giá kết quả so sánh bằng cách tính tổng số chuyển đổi. Sự chuyển đổi: Đột biến thay thế Đột biến thêm (mất) Phép so sánh trình tự tối ưu: tổng chuyển đổi là thấp nhất. 36

  37. Ví dụ sắp gióng cột trình tự Trình tự 1: A A T T G A T T G C G C A T T T A A A G G G Trình tự 2: A A C T G A C G C A T C T T A A G G G 1 Các cột so sánh Trình tự 1: A ATT G AT T G C GCATT T A A A G G G Trình tự 2: A AC T G AC G C A TCTT A A G G G - - - 15 phép chuyển đổi, 7 gốc bảo tồn 2 Đột biến (thay thế) Trình tự 1: A ATT G AT T G C G C A T T T A A A G G G Trình tự 2: A ACT G A- - -C GC A T C T T A A G G G 6 phép chuyển đổi 16 gốc bảo tồn 3 Thêm (mất) Cột bảo tồn 37

  38. Các ràng buộc của sắp gióng cột 2 trình tự Tất cả các ký tự (nu, aa) trong trình tự 1 và 2 phải có trong sắp gióng cột và đúng trật tự Một ký tự từ 1 được gióng cột với một ký tự của 2 Một ký tự có thể gióng cột với khoảng trống, ký hiệu “-” 2 khoảng trống không được gióng cột với nhau 38

  39. Các loại sắp gióng cột trình tự 2 loại: Sắp gióng cột toàn bộ chiều dài (Global alignment) Sắp gióng cột địa phương (Local alignment) 39

  40. Global alignment • Sắp gióng cột trên toàn bộ chiều dài (bao gồm cả hai đầu của mỗi trình tự). • Áp dụng cho các trình tự có cùng chiều dài, độ giống nhau ở các cột so sánh cao. 40

  41. Local alignment • Sắp gióng cột tìm ra vùng giống nhau nhất trên hai trình tự. • Áp dụng cho các trình tự có chiều dài khác nhau, có các vùng địa phương giống nhau cao. • Xác định các vùng chức năng trong protein, so sánh trình tự DNA dài với một trình tự DNA ngắn, … 41

  42. Dot-plot Dot-plot là công cụ mạnh,đơn giản dùng so sánh trình tự nhằm xác định các vùng giống nhau trong 2 trình tự và những vùng lặp lại trong một trình tự đơn 42

  43. Ma trận điểm thay thế Chứa các giá trị tỉ lệ với xác suất amino acid A đột biến thành amino acid B của tất cả các cặp amino acid qua quá trình tiến hóa Được xây dựng từ số lượng lớn và đa dạng các sắp gióng cột mẫu 43

  44. Ma trận điểm thay thế PAM Xây dựng bởi Dayhoff, Schwarts & Orcutt năm 1978 dựa trên sự tiến hóa của 71 họ protein có độ tương đồng giữa các trình tự lớn hơn 85%. Tần số xuất hiện của mỗi cặp amino acid được xác định từ các kết quả sắp gióng cột những protein có khoảng cách tiến hóa nhỏ 1% (trung bình có một đột biến trên 100 amino acid). Kết hợp tần số xuất hiện này với tần số xuất hiện ngẫu nhiên của amino acid đơn tạo thành ma trận PAM-1. Sau đó ma trận PAM-1 được sử dụng để ngoại suy tạo các ma trận PAM-k. Ví dụ ma trận PAM - 250 = (PAM-1)250 phản ánh tần số xuất hiện đột biến của protein 250% (có 250 đột biến trên 100 amino acid). 44

  45. Ma trận điểm thay thế BLOSUM Xây dựng dựa trên các kết quả sắp gióng cột không gap (khoảng trống) của các đoạn tương đồng (blocks) từ CSDL Blocks Những block cung cấp một ma trận điểm sẽ được định nghĩa dựa trên tần số xuất hiện của các cặp amino acidqab Các trình tự trong một block sẽ được phân nhóm dựa theo % giống nhau. Hai trình tự được sắp trong cùng một nhóm khi có % gốc giống nhau lớn hơn giá trị ngưỡng x%. Tần số xuất hiện chỉ được tính trong các cặp trình tự có % nhỏ hơn x%. Chọn giá trị ngưỡng x% tạo ra ma trận điểm BLOSUM-x với x từ 30-100%. Ví dụ BLOSUM-62 dựa trên các cặp amino acid của những trình tự nhỏ hơn 62% giống nhau. 45

  46. Thuật giải quy hoạch động - DP Ma trận điểm DP: tương tự ma trận Dot – Plot nhưng sử dụng ma trận thay thế để tính điểm và điểm phạt khoảng trống (gap) Ma trận traceback: tìm sắp gióng cột có điểm cao nhất 46

  47. Ví dụ thuật giải quy hoạch động 47

  48. Ma trận traceback Đểtạosắpgióngcộttoànbộ, bắtđầutừ ô cuốicùngbênphảivàtheohướngmũitênđingượclại 48

More Related