1 / 94

DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ

DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ. MARIAN NOVOTNÝ. MOLEKULÁRNÍ TAXONOMIE 2010. PŘEDNÁŠEJÍCÍ. vystudoval odbornou biologii na PřF UK, diplomka v laboratoři doc. Folka doktorát na Uppsalské univerzitě se specializací strukturní bioinformatika (Gerard Kleywegt)

lida
Télécharger la présentation

DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ MARIAN NOVOTNÝ MOLEKULÁRNÍ TAXONOMIE 2010

  2. PŘEDNÁŠEJÍCÍ • vystudoval odbornou biologii na PřF UK, diplomka v laboratoři doc. Folka • doktorát na Uppsalskéuniverzitě se specializací strukturní bioinformatika (Gerard Kleywegt) • Marie Curie Fellow na Evropském Bioinformatickém Institutu (Janet Thornton & Roman Laskowski) • ornitolog amatér Mgr. Marian NOVOTNÝ, PhD.

  3. OSNOVA • co je substrát pro molekulární taxonomii? • kde se shromažďují data? • jak data vyhledávat ?

  4. REKONSTRUKCE EVOLUČNÍ HISTORIE • rekonstrukce na základě srovnávání znaků • v molekulární taxonomii se používají sekvence • sekvence (DNA, RNA, proteiny) se srovnávají tzv. alignmentem http://lgimages.s3.amazonaws.com/data/imagemanager/7793/phylotree1.gif

  5. KDE NAJÍT SEKVENCE?

  6. BIOINFORMATICKÉ DATABÁZE • úložiště dat • (volně) dostupné pro kohokoliv • snadno k nalezení • lednové číslo Nucleid Acid Research (NAR) http://nar.oxfordjournals.org/content/vol38/suppl_1/index.dtl

  7. LEDNOVÉ ČÍSLO NAR Nucleotide Sequence Databases RNA sequence databases Protein sequence databases Structure Databases Genomics Databases (non-vertebrate) Metabolic and Signaling Pathways Human and other Vertebrate Genomes Human Genes and Diseases Microarray Data and other Gene Expression Databases Proteomics Resources Other Molecular Biology Databases Organelle databases Plant databases Immunological databases

  8. VLASTNOSTI DATABÁZE • četnost aktualizace dat • četnost aktualizace software • redundance • anotace dat • anotace databáze

  9. DNA DATABÁZE • GenBank(NCBI) -112 Gb ve 112 mil. sekvencí - anotovaných • EMBL (EBI) - 280 Gb • DDJB (Japonsko)

  10. MÁLO ANOTOVANÁ SEKVENCE

  11. ANOTOVANÁ SEKVENCE

  12. GENOMOVÉ DATABÁZE http://www.ncbi.nlm.nih.gov/sites/entrez?db=genome http://www.ensembl.org/index.html http://vega.sanger.ac.uk/index.html http://genome.ucsc.edu/ http://www.yeastgenome.org/

  13. PROTEINOVÉ DATABÁZE • Uniprot - Swissprot + TrEMBL - 10,5 mil. sek. • Swiss-prot - anotováno, ~510 000 sekvencí • GenPept - překládaný GenBank

  14. UNIPROT + TREMBL AMINO ACID COMPOSITION 2.1 COMPOSITION IN PERCENT FOR THE COMPLETE DATABASE ALA (A) 8.57 GLN (Q) 3.88 LEU (L) 9.81 SER (S) 6.72 ARG (R) 5.47 GLU (E) 6.14 LYS (K) 5.30 THR (T) 5.61 ASN (N) 4.17 GLY (G) 7.08 MET (M) 2.45 TRP (W) 1.31 ASP (D) 5.28 HIS (H) 2.20 PHE (F) 4.03 TYR (Y) 3.06 CYS (C) 1.29 ILE (I) 6.00 PRO (P) 4.74 VAL (V) 6.71 ASX (B) 0.000 GLX (Z) 0.000 XAA (X) 0.06

  15. JAK DATA VYHLEDÁVAT ?

  16. >ASTAKINE MKMRGVSVGVLVVAMMSGLAMAGSCNSQEPDCGPSECCLQGWMR YSTRGCAPLGEAGSSCNVFTQAPVKGFYIGMCPCRAGLVCTRPSATCQLPSQDNTLDSYY EXISTUJÍ PŘÍBUZNÉ SEKVENCE A KDE JE NAJÍT?

  17. HLEDÁNÍ V DATABÁZÍCH - ALGORITMY • tradiční algoritmy (Needleman-Wunsch, Smith-Waterman) pomalé pro prohledávání velkých databází • používány heuristické metody - rychle vede k výsledku, který se blíží optimálnímu řešení (ale nezaručuje jej) -> pro vyšší rychlost je obětována přesnost (rule of thumb) • v případě sekvenčního srovnávání se metoda vzdává jistoty nalezení optimálního alignmentu, aby v krátkém čase provedla srovnání se všemi sekvencemi v databázi (50 - 100x rychlejší) • klasickými heuristickými metodami jsou FASTA a BLAST • obě metody použitelné pro DNA i proteinové sekvence

  18. FASTA • metoda popsaná v 80. letech 20. století (Lipman & Pearson) • rychlá, heuristická metoda (na úkor senzitivity), globální alignment • zjednodušení v první fázi, sekvence rozděleny na krátké úseky • program generuje všechny možné “k-tuples” o délce k z dané sekvence • k = 1-2 pro proteiny, k = 4-6 pro DNA • k-tuples jsou porovnávány s k-tuples sekvencí v databázích

  19. FASTA • hledání SHOD v k-tuples • skórováni shod pomocí skórovací tabulky (Blosum 50) a rozšíření alignmentu (bez mezer) • vysoce skórující shody vybrány • vybere úseky, které budou součástí alignmentu • dynamické programování pro konečný alignment (mezery)

  20. BLAST • BLAST = Basic Local Alignment Search Tool • Altschul et al., 1990 • sekvence rozděleny na slova (words) a slova skórována vůči databázi všech slov • slova skórována skórovací tabulkou (Blosum 62) a jen ty, které dosáhnou předem nadefinovaného minimálního skóre (treshold) jsou dále používány • slova se skóre větším než treshold nemusí nutně obsahovat jen shody ( na rozdíl od Fasty) • v prvním kroku se porovnávají slova bez mezer

  21. BLAST - HSP • HSP - high scoring pair • vyber jen taková “slova”, která dosahují alespoň skóre X (treshold) • PEG versus PQA • PEQ má s Blosum 62 skóre 15, PQA jen 12 • pokud si stanovíme treshold 13, tak budeme dále hledat jen slovo PEQ

  22. BLAST II • takto vybráná slova jsou hledána v databázi modifikovaným Smith-Watermanem (50 x rychlejší) • HSP jsou dále rozšiřovány na obě strany dokud skóre roste • v posledním kroku jsou nejlépe skórující páry (HSP`s) podrobeny dynamickému programování, které produkuje výsledné skóre a alignment • vzhledem k rostoucí velikosti databází je třeba algoritmus neustále modifikovat (dvě shody v okně definované velikosti) • obvykle citlivější než FASTA • implementován jako server na řadě míst (NCBI, EBI)

  23. VERZE BLASTU • blastn - hledá s DNA sekvencí (query) v DNA databázi • blastp - hledá s proteinovou sekvencí v proteinové databázi • blastx - hledá s DNA sekvencí (6 rámců) v proteinové databázi • tblastn - hledá s proteinovou sekvencí v DNA databázi • tblastx - překládaná DNA v překládané DNA databázi • megablast - víc query najednou

  24. BLAST - VÝBĚR • databáze - DNA x protein, anotovaná x kompletní, strukturní, genomové, specializované (protilátky) ... • organismus • datum - sekvence za poslední dva týdny • skórovací tabulka - blosum 62 • velikost slova • low-complexity region filter - často P, D, N, E - false positive • “default”nastavení algoritmu vhodné ve většině případů

  25. BLOSUM • BLOSUM 80 - tabulka vypočítaná na základě alignmentu bloku sekvencí s identitou 80 % • BLOSUM 62 - tabulka vypočítaná na základě alignmentu bloku sekvencí s identitou 62 %

  26. BLOSUM VERSUS PAM PAM 250 PAM 10 BLOSUM 90 BLOSUM 62 VELMI PŘÍBUZNÍ VZDÁLENĚ PŘÍBUZNÍ

  27. VÝZNAMNOST NÁLEZU • optimální alignment lze nalézt pro jakékoliv dvě sekvence • dvě náhodné DNA sekvence = ~ 25% SI • dvě náhodné proteinové sekvence = ~ 5% SI • jak určit, že je alignment statisticky významný ?

  28. PARAMETRY VÝZNAMNOSTI • P-value • E-value • pouze statistická významnost skóre -> biologickou relevanci záhodno ověřovat experimentálně

  29. P-VALUE • P-value - pravděpodobnost, že sekvence budou srovnány s nalezeným nebo vyšším skóre a zároveň nebudou příbuzné (false positive hit) • P-value - pravděpodobnost, že bude skóre x nebo vyššího dosaženo náhodou • pro účely výpočtu lze náhodu simulovat přeskládáváním sekvencí nebo výběrem vzorku z databáze • druhá možnost lépe odpovídá realitě a poskytuje lepší výsledky (především u DNA)

  30. EVD • rozložení skóre lokálních alignmentů nepříbuzných sekvencí neodpovídá normálnímu rozdělení, ale rozdělení podle extrémních hodnot (EVD) • při normálním rozdělení by docházelo k přeceňování významu dosažených skóre Dundas et al. BMC Bioinformatics 2007

  31. P-VALUE • P-value (S>x) = 1-exp (-exp (-λ(x-u))), • u = charakteristická hodnota = Kmn/λ • m,n = délky sekvencí; K = konstanta; λ = “decay factor” • K a λ mohou být kalkulovány z vlastností skórovací tabulky

  32. E-VALUE • E-value = pravděpodobnost, že bude dosaženo skóre x nebo vyššího náhodou v databázi dané velikosti • E-value = P-value x N ; velikost databáze • příklad: databáze o miliónu sekvencí a P-value = 10-6 • cutoff (expect treshold) parametr v BLASTU - udává kolik lze průměrně očekávat false positives v databázi dané velikosti -> způsob jak vyvažovat senzitivitu a selektivitu • nižší hodnota cutoff zvyšuje selektivitu, ale snižuje senzitivitu E-value = 10-6 x106 =1

  33. BLAST / EVOLUČNÍ VZDÁLENOST • říká nám BLAST něco o příbuznosti nalezených sekvencí ? • Je první “hit” evolučně nejpříbuznější query (hledané sekvenci)? • BLAST většinou nalezá příbuzné sekvence • nejpříbuznější sekvence však mohou chybět v databázi • lokální alignment - často skóruje nejlépe vzdálené příbuzné • 7 % sekvencí E.coli mělo nejlépe skórující sekvenci mimo Bacteria

  34. 2JTK

  35. SEQUENCE IDENTITA/HOMOLOGIE NEHOMOLOGNÍ PROTEINY ROST, 1999

  36. SEQUENCE IDENTITA/HOMOLOGIE HOMOLOGNÍ PROTEINY ROST, 1999

  37. SEQUENCE IDENTITA/HOMOLOGIE • sekvenční identita > 35% - pravděpodobně homolog • sekvenční identita = 20-35% (“twilight zone”; Doolittle) - může být homolog • sekvenční identita < 20% - “midnight zone” (Rost) - sekvence zcela nedostatečná k určení homologie

  38. Sander et al., preprint Average sequence identity of random alignments - 5.6 % Average sequence identity of remote homologues - 8.5 %

  39. SSEARCH • pokud máte moře času nebo počítačový klastr nebo jste zoufalí • rigorózní Smith-Waterman - local alignment v databázi

More Related