1 / 42

MOLEKULÁRNÍ TAXONOMIE Rozpis přednášek

MOLEKULÁRNÍ TAXONOMIE Rozpis přednášek. 23.2. - Zahájení kurzu, taxonomie a molekulárně biologické znaky, metody sekvenace DNA 2.3. - Databáze sekvencí a vyhledávání v nich (Marián Novotný) 9.3. - Alignment sekvencí (Marián Novotný)

janna
Télécharger la présentation

MOLEKULÁRNÍ TAXONOMIE Rozpis přednášek

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. MOLEKULÁRNÍ TAXONOMIE Rozpis přednášek • 23.2. - Zahájení kurzu, taxonomie a molekulárně biologické znaky, metody sekvenace DNA • 2.3. - Databáze sekvencí a vyhledávání v nich (Marián Novotný) • 9.3. - Alignment sekvencí (Marián Novotný) • 16.3. - Získávání nesekvenčních molekulárních dat - multilokusové metody (RAPD, RFPL aj.), mikrosatelity, minisatelity, izoenzymová a alozymová analýza, imunologické metody • Praktikum 19.3.: Získávání sekvencí, alignment, odečet výsledků RAPD/RFLP • 23.3. - Evoluce sekvencí, odhad evoluční vzálenosti (distance) • 30.3. - Fylogenetické stromy I. - anatomie stromů, konstrukce stromů z genetických vzdáleností, algoritmy a hledání stromu s nejlepším skóre • 6.4. - Fylogenetické stromy II. Metoda maximální parsimonie, artefakty konstrukce stromů • 13.4. - Fylogenetické stromy III. - Metoda maximum likelihood, Bayéská metoda • 20.4. - Fylogenetické stromy IV. - Multigenové analýzy, určení věrohodnosti větvení stromů, nalezení kořene, testy topologie, datování pomocí molekulárních hodin • Praktikum 23.4.: Konstrukce stromů ze sekvencí DNA a z RAPD/RFLP dat • 27.4. - Identifikace jedinců, určování rodičovství, DNA barkóding • Praktikum 30.4.: Konstrukce stromů ze sekvencí proteinů • 4.5. - Vnitrodruhová fylogeneze, struktura populace a genový tok, fylogeografie, příklady • 11.5. - Speciace a hybridizace, kryptické druhy, příklady – odevzdání nepovinného eseje • Praktikum 15.5.: Různé testy, zpracování dat získaných analýzou mikrosatelitů • 18.5. - Prezentace studentů

  2. SITE HETEROGENEITY r1 r2 r3 r4 r5 r6 P(A|C,t)= eδt P(A|C,t)= erδt Taxon A C C C T G GTaxon B A C T T G A ∞ P(A|C,t)= ∫0 f(r) erδt P(A|C,t)= 1/4 er1δt+ 1/4 er2δt + 1/4 er3δt+ 1/4 er4δt

  3. KONSEZUÁLNÍ STROM Stromy, které obsahují stejnou sadu OTU mohou být, je-li to třeba kombinovány do jednoho. Existuje několik způsobů, jak to udělat.

  4. STRIKTNÍ KONSENZUS Obsahuje ty „bipartitions“, které se vyskytují ve všech stromech B B B A A A E E E C C C D D D B A E C D

  5. STRIKTNÍ KONSENZUS Obsahuje ty „bipartitions“, které se vyskytují ve všech stromech B B A A E E C C D D B A E C D

  6. MAJORITY RULE KONSENZUS Obsahuje „bipartitions“, které se vyskytují ve v nadpoloviční většině stromů. B B B A A A E E E C C C D D D B A E C D

  7. EXTENDED MAJORITY RULE KONSENZUS Postupně přidává další nejčastější „bipartitions“, až je strom zcela rozlišený (obsahuje pouze dichotomie) F F B B A A B B B B B A A A A A E E E E E E E C C C C D D C C C D D F F F D D D B F F F A E C 3/7 D

  8. OTÁZKY, KTERÉ BYCHOM SI MĚLI KLÁST • Podporují moje data (ve většině případů alignment) pevně nebo slabě příbuzenské vztahy na stromu, který jsem získal? • Je můj strom skutečně lepší než nějaký jiný? • Je vůbec strom vhodné vysvětlovat příbuzenské vztahy mezi mými OTU pomocí stromu?

  9. PROČ KLÁST TYTO NEPŘÍJENÉ OTÁZKY? Každá data nám totiž poskytnou strom 1 ACCGAGCAA 2 ACCGAGCAA 3 ACCGAGCAA 4 ACCGAGCAA 3 1 1 ACCGAATGA 2 ACCGAGCAG 3 GTTAGGCAG 4 GTTAGATGA 2 4

  10. DATA MOHOU OBSAHOVAT MNOHO PROBLÉMŮ? • Přesycení (saturace) – příliš mnoho substitucí (a mmnohonásobných!), aby byly patrné příbuzenské vztahy • Nedostatek signálu – některé krátké větve stromu mohou být podpořeny jen několika málo znaky • Data mohou obsahovat zavádějící signál (artefakt).

  11. STATISTICKÁ PODPORA VĚTVENÍ

  12. POSTERIORNÍ PRAVDĚPODOBNOSTI Frekvence s jakou je hypotéza navštívena řetezcem MCMC v rovnovážném stavu Rovnovážný stav T1 T2

  13. POSTERIORNÍ PRAVDĚPODOBNOSTI UZLŮ

  14. RESAMPLING METODY Základní princip • Vytvořit ze vzorku dat (sloupců alignmentu) nový vzorek a podívat se jestli dostaneme stejnou odpověď • Udělat to mnohokrát (100vky opakování) • Naznačit výsledek na původní strom.

  15. BOOTSTRAP • Z původného vzorku vybíráme s vracením • Původní alignmnet: nsloupců • Bootstrappový alignment: nsloupců • Aleněkteré sloupce se tam budou vyskytovat několikrát a některé budou úplně chybět.

  16. BOOTSTRAP Bootstrappované alignmenty Stromy Bootstrapové alignmenty (n opakování) Alignment 515621 123456 A catcga B ccgggt C gcggga D gaacgt 364122 615343 414436 Rekonstruovaný strom

  17. BOOTSTRAP Namapovat hodnoty bootstrapu na původní strom. Bootstrap pro větev (“bipartition”) odpovídá frekvenci, s jakou se daná větev vyskytuje mezi bootstrapovými opakováními 70% je považováno za „dobrý“ bootstrap 65% (weak) 100% (absolutní podpora)

  18. JACKKNIFE • Jiná resampling metoda • Místo vybírání s vracením vybere jen k % sloupců alignmentu bez vracení.

  19. JACKKNIFE 50% jackknife Jackknifované alignmenty Stromy Jackknife alignmenty (n opakování) Alignment 342 123456 A catcga B ccgggt C gcggga D gaacgt 136 514 256 Rekonstruovaný strom Namapování hodnot jackknifu na originální strom provedeme stejně jako v případě bootstrapu

  20. OMEZENÍ NEPARAMETRICKÝCH METOD • Neparametrické bootstrapování a jackknifování, o kterých jsme dosud mluvili je omezeno dostupností použitelných dat. • Rádi bychom více dat! Ale, kde je vzít?

  21. PARAMETRICKÝ BOOTSTRAP • Pomocísimulacenagenerujeme vzorky dat, které odpovídají hypotéze (substitučnímu modelu a stromu s délkami větví), ke které jsme dospěli. • K takové simulaci potřebujeme parametry (model a strom), které jsme získali z empirických dat. • Jak probíhá simulace?

  22. PARAMETRICKÝ BOOTSTRAP GAACCAAT GAATCAAC Simulujemesubstituce podél větví stromu podle substitučního modelu GAATCAGC TAGGCAAT TAAGCAAC Počáteční sekvuence (náhodná, odpovídající frekvenci nukleotidů) TAAGCAAC TAAGCAAC Simulaci opakujeme mnohokrát(100?), zaznamenáme sekvence na koncových uzlech a pokaždé z nich spočítáme strom

  23. TESTY TOPOLOGICKÝCH HYPOTÉZ L1 L0 δ= ln L1-lnL0 Je L1 signifikantně vyšší než L0? Potřebujeme znát rozložení δ….

  24. TESTY TOPOLOGICKÝCH HYPOTÉZ AU test L1L2L3L4L5L6 A catcga B ccgggt C gcggga Vypočteme „site likelihoods“ L1, L2, L3, L4, L5, L6 L1, L2, L3, L4, L5, L6 Provedeme permutaci „site likelihoods“ a vypočteme celkový Likelihood L1= L1*L2* L2* L3*L4* L2L0= L1*L1* L6* L3*L4* L5 Spočítáme δδ= lnL1-lnL0 Opakujeme mnohokrát Procento případů, kdy δ ≤ 0 je hodnota p s jakou můžeme H0 zavrhnout

  25. VÝBĚR MODELU • Odměňuje nárůst likelihoodu, ale trestá za nadbytečné parametry Akaike Information Criterion AICi = -2lnLi + 2pi Abychom nalezli nejlepší rovnováhu mezi funkčností modelu a jeho složitostí musíme minimalizivat AIC Log-likelihood pro model i Počet parametrů pro model i

  26. LIKELIHOOD RATIO TEST V rámci maximum likelihoodu je možné rozhodovat, jestli složitější model dává signifikantně lepší výsledek pomocí likelihood ratio testu (LRT). δ=2(ln L1-lnL0 ) lnL1….věrohodnost stromu podle složitějšího modelu lnL0….věrohodnost stromu podle jednoduššího modelu (nulová hypotéza) Hodnota statistiky δ je vždy větší než 0. Pokud je jednodušší model obsažen ve složitějším modelu, má tato statistika zhruba rozložení χ2 se stupni volnosti odpovídajícími rozdílu v počtu volných parametrů mezi modely. Program Modeltest

  27. GENOVÝ STROM X DRUHOVÝ STROM Mohou se odlišovat, protože historie genu nemusí přesně kopírovat historii druhu. Gen může prodělat horizontální genový přenos.

  28. GENOVÝ STROM X DRUHOVÝ STROM Rozdíl může způsobit také mezidruhový přenos polymorfismu t1 t2 X Y Z X Y Z X Y Z Průměrná doba (T) potřebná k eliminaci polymorfismu prostřednictvím genetického driftu 4Ne T = t1- t2 Ne: efektivní velikost¨populace.

  29. JAK SPOJIT RŮZNÉ SADY DAT? ?

  30. JAK SPOJIT RŮZNÉ SADY DAT? Mnoho stromů Mnoho alignmentů Jeden strom Jeden alignment

  31. SUPER MATICE Gen 1 Gen 2 Gen 3 Gen 4 A B C D E ? Prostě je seřadíme za sebe. A co když někde gen chybí? Pokud množství chybějících genů nepřesahuje rozumnou míru, nevadí.

  32. SUPER MATICE • Také se jim říká ‘konkatenace’ • Předpokládá, že geny sdílejí společnou evoluční minulost (hmmm…) • Je dobré, a schůdné, „dovolit“, aby pro každý gen platily jiné parametry substitučního modelu.

  33. SUPERTREE Mnoho stromů Mnoho alignmentů Jeden strom Uděláme konsenzus, ale co když se jednotlivé stromy trochu liší zastoupením taxonů 33

  34. SUPERTREE Matrix Representation with Parsimony(Baum and Ragan, 1992) • Uděláme ze stromů alignent (‽) • Každá „bipartition“ představuje v alignmentu jeden sloupec

  35. SUPERTREE A C D A * * * *B * * * - C * . . * D * . . . E . . * - F . . * . Z tohoto alignmentu udělej strom podle maximální parsimonie F A B C D E F

  36. SÍŤ Neighbor-net(Bryant and Moulton, 2004) • Je založena na neighbor-joining ale umožňuje spojovat více taxonů

  37. SÍŤ Neighbor-net

  38. ZAKOŘENĚNÍ STROMU

  39. METODA OUTGROUPŮ Všechny zmíněné metody produkují nezakořeněný strom!!!Pro zakořenění se nejčastěji používá metoda „outgroupů“ – organismů/sekvencí nepatřících do skupiny kterou studujeme.

  40. METODA OUTGROUPŮ Outgroup ukáže, kde je kořen vašeho stromu. Outgroup by měl být co možná nejbližší skupině, kterou studujete.

  41. MIDPOINT ROOT Kořen umístí to poloviny nejdelší cesty stromem

  42. SOFTWARE Software • Distační metody – PAUP (spíše DNA), PHYLIP, MEGA, Neighbor-net • Parsimonie– PAUP, PHYLIP, MEGA • Maximum likelihood – PAUP (jen DNA), RAxML, Phyml, IQPNNI, TreePuzzle, PHYLIP • Bayéská metoda –MrBayes Phylobayes

More Related