1 / 47

Einführung in die Phylogenie (lat.: phylum = Stamm)

Einführung in die Phylogenie (lat.: phylum = Stamm). Phylogenetische Bäume. Stammbaum ( Phylogenetic Tree ). Stammbäume versus Klassifikation. Zuerst war die Klassifikation Carl Linnaeus, ca. 1740: Systema Naturae Annahme: Arten verändern sich nicht ( Prä -Darwin)

kendall
Télécharger la présentation

Einführung in die Phylogenie (lat.: phylum = Stamm)

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Einführung in die Phylogenie(lat.: phylum = Stamm)

  2. Phylogenetische Bäume Stammbaum (PhylogeneticTree)

  3. Stammbäume versus Klassifikation • Zuerst war die Klassifikation • Carl Linnaeus, ca. 1740: SystemaNaturae • Annahme: Arten verändern sich nicht (Prä-Darwin) • Einteilung der Lebewesen in • Kingdoms -classes–orders–families–genera-species • SKOFGA (Stamm, Klasse, Ordnung, Familie, Gattung, Art) • Innere Knoten einer Klassifikation sind abstrakt

  4. Treeof Life

  5. Klassifikation • Eukaryoten • Tiere • diverse Zwischenstufen • Chraniata (Schädelknochen) • Vertebraten (Wirbeltier) • Viele Zwischenstufen • Mammals(Säugetiere) • Eutheria(Plazentatiere/Höhere Säuger) • Primaten (Affen) • Catarrhini (Altweltaffen) • Hominidae(Mensch, Schimpanse, Orang-Utan, Gorilla) • Homo (erectus, sapiens ...) • Homo Sapiens

  6. Stammbäume • Charles Darwin: „The origin of species“ (1859) • Arten sind nicht unveränderlich, sondern unterliegen im Laufe der Zeit einem Wandel • „Survivalof the fittest“ • Damals noch unklar, was sich eigentlich wandelt • Stammbäume(Abstammungsbäume) • Ergeben sich aus der Annahme der Evolution • Auch Stammbäume wurden lange aus morphologischen Eigenschaften abgeleitet • Jeder Knoten in einem Stammbaum hat einmal als Art existiert–Knoten im Baum (also Spezies) heißen taxa • Was definiert eine Spezies?

  7. „Homo floresiensis“ (Hobbit?) • Entdeckung 2003 • Lebte vermutlich vor 95000 bis vor 12000 Jahren auf der indonesischen Insel Flores • Körperhöhe nur ca. 100 cm • Gehirnvolumen nur 380 cm3 • Homo erectus: 600-1200, h. sapiens: 1400 • Rückentwicklung? Vorläufer? Quelle: Brown, P. et al. Nature431, 1055-1061 (2004).

  8. Evolutionsgeschichte neu geschrieben • Stammbaum –welche Art geht aus welcher hervor? Evolutionsgeschichte neu geschrieben

  9. Computer-Abstammung

  10. Moderne Stammbaumberechnung • Molecular phylogeny • Mendel + Darwin: Das Erbgut unterliegt dem Wandel • Berechnung von Stammbäumen aus molekularen Daten • Zuckerkandl und Pauling, 1965 • Berechnung aufgrund von DNAoder Proteinsequenzen • Annahme: Evolution verläuftin kleinen Schritten • Wenn sich Sequenzen ähnlichsind, sind die Speziesevolutionär eng verwandt • Denn zufällige Ähnlichkeit istzu unwahrscheinlich

  11. Arten von Stammbäumen • Individuelle Abstammung • Stammbäume, Ahnentafeln • Natürlich kein Baum: Zwei Eltern • Rekombination • Speziesstammbäume • Ein Baum, wenn Spezies nicht verschmelzen können • Sprachen verschmelzen • Gene Trees • Geschichte einesSequenzabschnitts • Nicht leicht zu definieren • Baumförmig, wenn Gene nicht verschmelzen • Aber: 2 Allele jedes Gens vorhanden (Besser: HaplotypTree)

  12. Wozu? • Aufklärung der evolutionären Verhältnisse • Aufklärung von familiären Verhältnissen • Wenn genügend Sequenzen vorhanden • Aufklärung von Infektionswegen • Bei schnell mutierenden Viren (z.B. HIV) • Varianten werden in verschiedenen Personen gefunden • Herausrechnen des Verbreitungsweges anhand der Abstammungsverhältnisse • Phylogenetic Inference • Wenn alle nahe verwandten Spezies ein bestimmtes Gen haben, dann sollte ich das auch haben

  13. Evolutionsmodell • Lebewesen vermehren sich durch Kopieren • Kopieren mit kleinen Fehlern (Mutationen) • Führen (manchmal) zu veränderter „Funktion“ • Selektion – „Survival of the fittest“ • Fatale Mutationen lassen Nachkommen gar nicht erst entstehen • Einschränkungen der Überlebensfähigkeit führen zur schnellen Ausrottung • Speziation • Unterschiedliche Mutationen sind in unterschiedlichen Lebensräumen unterschiedlich vorteilhaft • Anpassungan ökologische Nischen • Führt zur Akkumulation von Änderungen • Schließlich geht die gemeinsame Fortpflanzungsfähigkeit verloren

  14. Artenbildung • Arten entstehen durch Veränderungen aus einer anderen Art

  15. Mutationsfrequenzen • Treten Mutationen in gleicher Frequenz auf? • Sind alle Mutationen gleich wahrscheinlich? • Substitutionsmatrizen • Gibt es Zeiten erhöhter Mutationshäufigkeit? • Sonneneruptionen, … • Gibt es Zeiten erhöhten Selektionsdrucks? • Meteoriteneinschlag, Klimaverschiebungen, … • Gibt es Teilbäume, die schneller mutieren? • Abhängig vom Anpassungsdruck oder der Güte der Reparaturmechanismen • Gibt es Sequenzabschnitte, die unterschiedlich schnell mutieren? • Codingversus non-coding Regions, House-Keeping genes, …

  16. MolecularClock • Häufige Annahme: Molecular Clock • Mutationen setzen sich bzgl. der Zeit immer mit gleicher Häufigkeit durch • Unabhängig von Teilbaum, Zeitpunkt, Ort und Art der Mutation • Anzahl der beobachteten Mutationen proportional zur vergangenen Zeit • Die ist manchmal hilfreich, aber falsch • Unterschiedliche Zeiten erzeugen unterschiedlichen Selektionsdruck • Unterschiedliche Sequenzabschnitte unterliegen unterschiedlichem Selektionsdruck • Unterschiedliche Spezies unterliegen unterschiedlicher Frequenz erfolgreicher Mutationen • …

  17. Daten • Messen kann man nur die DNA existierender Arten • Zwei mögliche Ziele • Rekonstruktion des wahrscheinlichsten Stammbaums der Arten • Rekonstruktion der wahrscheinlichsten Ur-DNA und aller Zwischenstufen • Den tatsächlichen Stammbaum kann man nicht berechnen • Man kennt die ausgestorbenen Arten nicht • Man kann ausgestorbene Mutationen nicht erkennen • Man kann Doppelmutationen nicht erkennen

  18. Bäume • Knoten = Arten • Blätter = Lebende Arten • Kanten • Länge kann (aber muss nicht) mitzeitlicher Entfernung korrelieren • Scaledtrees • Jeder Knoten hat exakt einen Vater • Eine Wurzel • Binäre Bäume • Reihenfolge der Kinder ist egal • Viele Visualisierungsvarianten

  19. Distanzbasierte Phylogenie • An innere Knoten eines Stammbaum kann man den Speziationzeitpunkt schreiben („branchpoints“) • Wenn die Molecular Clock Theory gilt • Ist die Menge an Veränderungen auf einer Kante proportional zu der verstrichenen Zeit • Damit proportional zur Länge der Kante • Damit ist der Editabstand zweier Knoten (=Evolution dazwischen) proportional zur Summe der Editabstände beider Knoten zum kleinsten gemeinsamen Vater

  20. Ultrametriken • Wenn man den Baum und die Zeitpunkte weiß, dann gilt • Alle Zahlen auf einem Pfad von der Wurzel zu einem beliebigen Blatt nehmen strikt ab • Der Zeitpunkt der Aufspaltung ist ein Abstandsmaß für zwei Arten • Für Blätter X, Y sei d(X,Y) das Label des kleinsten gemeinsamen Vorfahren • Im Beispiel: d(A,B)=80, d(B,C)=100, d(A,D)=80 • Das ist eine Metrik • d(X,X)=0, d(X,Y)>0, d(X,Y)=d(Y,X), und d(X,Y)≤d(X,Z)+d(Z,Y) • Es ist sogar eine Ultrametrik(gleich)

  21. Ultrametrische Bäume • DefinitionSei T ein Baum und D eine symmetrische Matrix mit nZeilen und n Spalten. T heißt ultrametrischer Baum für Dwenn gilt: • T hat n Blätter, beschriftet mit den Zeilen von D • Jeder innere Knoten von T hat zwei Kinder und ist mit einem Wert aus D beschriftet • Auf jedem Pfad von der Wurzel zu einem Blatt in T sind die Zahlen strikt abnehmend • Für alle Blätter i,j mit i≠j gilt: der kleinste gemeinsame Vorfahr von i und j ist mit D(i,j) beschriftet • Bemerkung • Jeder Stammbaum ist ultrametrisch für die Abstandsmatrix mit den Aufsplittzeitpunkten als Abstandsmaß

  22. Beispiel

  23. Überlegungen • Das kann auch nicht immer gehen • Matrix hat (n2-n)/2 relevante Zellen • Baum hat nur n-1 innere Knoten • Eine Matrix, zu der man einen ultrametrischen Baum konstruieren kann, muss also Duplikate enthalten • DefinitionEine symmetrische Matrix D mit n Spalten und Zeilen istultrametrisch, wenn für beliebige Zeilen i, j, k gilt, dass das Maximum von D(i,j), D(j,k) und D(i,k) genau zweimal vorkommt • Es gilt also • D(i,j)=D(j,k) und D(i,j)>D(i,k) oder • D(i,j)=D(i,k) und D(i,j)>D(j,k) oder • D(j,k)=D(i,k) und D(j,k)>D(i,j)

  24. Ultrametrik • Definition UltrametrikEine Ultrametrik ist eine Metrik für die gilt:d(a,c) ≤ max( d(a,b), d(b,c) ) • Bemerkung MetrikFür Metriken muss nur gelten:d(a,c) ≤d(a,b)+d(b,c)

  25. Ultrametrik • TheoremEine symmetrische Matrix D hat einen ultrametrischen Baum gdw. D selber ultrametrisch ist • Beweis • Nehmen wir erst an, dass zu D ein ultrametrischer Baum T existiert • Nehmen wir an, dass i, j, k wie folgt liegen (alle anderen Knoten können wir ignorieren) • Dann gilt offensichtlich D(i,k)=D(j,k)=Y und D(i,k)>D(i,j)=X • Dito kann man für die zwei anderen Varianten der möglichen Lage von i, j, k verfahren • Das gilt für alle Tripel von Knoten • Also ist D ultrametrisch

  26. Distanzbasierte Algorithmen • Konstruktion des ultrametrischen Baumes basiert rein auf Distanzmassen • Einen ultrametrischen Baum gibt es nicht für alle Matrizen • Es gibt weniger empfindliche Verfahren • Die Geschichte einzelner „Sites“ wird nicht berücksichtigt • Solche Algorithmen zur Berechnung von Stammbäumen nennt man distanzbasiert

  27. UPGMA -Hierarchisches Clustering • UPGMA • „Unweighted pair group method with arithmetic mean“ • Anderer Name: Hierarchisches Clustering • Sehr einfaches und allgemeines Verfahren, kann bei allen möglichen Problemen angewandt werden • Wenn eine Matrix ultrametrisch ist, dann findet UPGMA den dazugehörenden ultrametrischen Baum • UPGMA nimmt die Molecular Clock an – alle Pfade von einem Blatt zur Wurzel haben am Ende die selbe Länge • Achtung: UPGMA konstruiert immer einen Baum • Auch wenn die Matrix nicht ultrametrisch ist

  28. UPGMA Verfahren • Gegeben: Distanzmatrix D • Erzeuge ein „Baumgerüst“ mit n Blättern • Wähle den kleinsten D(i,j) Wert der Matrix und verbinde die Knoten i und j durch einen neuen Knoten (ij) mit Beschriftung D(i,j) und Kanten zu i und zu j • Anfangs sind i und j Blätter, später können es auch innere Knoten sein • Lösche Zeilen und Spalten i und j aus D • Füge in D eine Zeile und eine Spalte (ij) hinzu mit D(ij,k) = (D(i,k)+D(j,k))/2 • Wiederhole, bis D leer ist

  29. Beispiel: Distanzbaum (I)

  30. Beispiel: Distanzbaum (II)

  31. Anwendungsbeispiel • Sequenzierung der mitochondrialer DNA (16 KB) von 86 geographisch verteilt lebenden Personen • Ergebnis: mitochondriale DNA scheint nach einer molekularen Uhr abzulaufen; Divergenz ist ca. 1,7E-8 pro Base und Jahr

  32. Distanz versus Zeichen • Distanzbasierte Algorithmen abstrahieren von einzelnen Zeichen und basieren auf dem Abstand von Taxa • Character-basierte Verfahren betrachten die Entwicklung jedes einzelnen „Characters“ • Nuklein- oder Aminosäure • Morphologische Eigenschaften • Vorhandensein / Abwesenheit bestimmter Gene/Funktionen • ... • Character sollten in einem Abstammungsverhältnis stehen • Sequenzen müssen homolog sein • Wahl der Character beeinflusst das Ergebnis erheblich • Eine „korrekte“ Wahl gibt es nicht –erheblicher Freiraum

  33. Mögliche Probleme Genetischer Distanz

  34. Beispiel für Zeichen/Character-Matrix

  35. Abgeleiteter Phylogenetischer Baum • Gesucht: Der Baum mit den wenigsten Änderungen

  36. Idee der Perfekten Phylogeny • Für Sequenzen unrealistisch, für komplexe Eigensch. nicht • Definition • Sei D eine binäre Matrix aus n Zeilen (Arten) und m Spalten (Character). D(i,j)=1 gdw Art i Eigenschaft j hat • T ist ein (perfekt-) phylogenetischer Baum für D, wenn gilt • T hat n Blätter, beschriftet mit den Zeilen von D • Jeder Character, der in mindestens einer Art vorhanden ist, steht an genau einer Kante von T • Für jede Art i gilt, dass die Beschriftungen der Kanten auf dem Pfad von der Wurzel zu i genau die Character sind, die i hat • Bemerkungen • Nicht an jeder Kante von T muss ein Character stehen, aber jeder Character muss an genau einer Kante stehen

  37. Beispiel

  38. Zusammenfassung • Phylogenie als Konzept zur Analyse der Evolutionärer Mechanismen • Gilt nur bei einfachen Evolutionsmodellen • Güte hängt von denEigenschaften der Daten ab • Distanzbasierte Methoden • Am ungenauesten, dafür schnell • Brauchen numerische Abstandsmasse • Zeichen-basierte Methoden: Besser, aber aufwendig zu berechnen • Scoring aller möglichen Baum-Topologien

  39. Werkzeuge zur phylogenetischen Sequenzanalyse

  40. Paarweises Alignment • Distanzberechnung basierend auf Alignement • Sequenzabständen • Strukturalignement • Proportionalität zwischen Sequenz- und evolutionärer Abstand • Vergleich der Entwicklung von homologen Genen • Verschiedenen Spezies haben Struktur und Funktionsgleiche Proteine • „Housekeeping“ Proteine • z.B. „alcohol dehydrogenase“ Enzym im Glykolyse-Stoffwechsel

  41. Beispiel • Enzym: Alkoholdehydrogenase (ADH) • An alcohol + NAD+ = an aldehyde or ketone + NADH • Spezies • Human • Chimpanzee • Mouse • Dog • Frog • Zebrafish • Fruit flig • Rice • E. coli • Quelle: KEGG http://www.genome.jp

  42. Proteinsequenzen ADH • KEGG: 330 Gene über mehrere Spezies zu ADH http://www.genome.jp/dbget-bin/www_bget?ko:K00001

  43. Sequenzextraktion >Human MSTAGKVIKCKAAVLWELKKPFSIEEVEVAPPKAHEVRIKMVAVGICGTDDHVVSGTMVTPLPVILGHEAAGIVESVGEGVTTVKPGDKVIPLAIPQCGKCRICKNPESNYCLKNDVSNPQGTLQDGTSRFTCRRKPIHHFLGISTFSQYTVVDENAVAKIDAASPLEKVCLIGCGFSTGYGSAVNVAKVTPGSTCAVFGLGGVGLSAIMGCKAAGAARIIAVDINKDKFAKAKELGATECINPQDYKKPIQEVLKEMTDGGVDFSFEVIGRLDTMMASLLCCHEACGTSVIVGVPPDSQNLSMNPMLLLTGRTWKGAILGGFKSKECVPKLVADFMAKKFSLDALITHVLPFEKINEGFDLLHSGKSIRTILMF >Chimpanzee MSTAGKVIKCKAAVLWEVKKPFSIEDVEVAPPKAYEVRIKMVAVGICRTDDHVVSGNLVTPLPAILHEAAGIVESVGEGVTTVKPGDKVIPLFTPQCGKCRVCKNPESNYCLKNDLGNPRGTLQDGTRRFTCRGKPIHHFLGTSTFSQYTVVDENAVAKIDAASPLEKVCLIGCGFSTGYGSAVNVAKVTPGSTCAVFGLGGVGLSAVMGCKAAGAARIIAVDINKDKFAKAKELGATECINPQDYKKPIQEVLKEMTDGGVDFSFEVIGRLDTMMASLLCCHEACGTSVIVGVPPASQNLSINPMLLLTGRTWKGAVYGGFKSKEGIPKLVADFMAKKFSLDALITHVLPFEKINEGFDLLHSGKSIRTVLTF >Fruit fly MSRKNVLGLINTIVANSCKCPAHSHNYGSAAPTASQTGRMEYAFEMSASTVRFGPGVSAEVGADLRNLGARKVCLVTDKNVVQLPSVKVALDSLARNGINYEVYDETRVEPTDGSMWHAVEFARGKEFDAFLAIGGGSAMDTAKAANLFSSDANAEFLDYVNCPIGRGKEISVKLKPLIAMPTTSGTGSETTGVAIFDYKKLHAKTGISSKFLKPTLAVIDPLHTLSQPQRVMAFAGFDVFCHALESFTAVDYRERGLAPSDPSLRPTYQGRNPVSDVWARFALETIRKNFVNAIYQPDNLEARSQMHLASTMAGVGFGNAGVHLCHGLSYPISGNVRDYKPKGYSADHALIPHGLSVVISAPAVFEFTAPACPDRHLEAAQLLGAEVRGVEKADAGRLLADTVRGFMQRAGIENGLRELGFSSSDIPALVEGTLPQERITKLAPRAQTQENLSQLFEKSMEVY

  44. Multiples Alignement ClustalW

  45. ClustalW Sequenzeingabe

  46. ClustalW Resultat: Alignment

  47. ClustalW Resultat: Phylogenetischer Baum

More Related