1 / 96

Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

Biophysik F1-Praktikum – Kursteil "Molekulare Evolution". Thorsten Burmester Institut für Zoologie Universität Mainz. Ziel des Kurses:. Wie erhalte ich aus meinen (Sequenz-) Daten einen Stammbaum, und was sagt mir dieser?. Sequenz 1: KIADKNFTYRHHNQLV Sequenz 2: KVAEKNMTFRRFNDII

nash-harper
Télécharger la présentation

Biophysik F1-Praktikum – Kursteil "Molekulare Evolution"

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Biophysik F1-Praktikum – Kursteil "Molekulare Evolution" Thorsten Burmester Institut für Zoologie Universität Mainz

  2. Ziel des Kurses: Wie erhalte ich aus meinen (Sequenz-) Daten einen Stammbaum, und was sagt mir dieser? Sequenz 1: KIADKNFTYRHHNQLV Sequenz 2: KVAEKNMTFRRFNDII Sequenz 3: KIADKDFTYRHW-QLV  Sequenz 4: KVADKNFSYRHHNNVV Sequenz 5: KLADKQFTFRHH-QLV

  3. Programm • Grundlagen der Molekularen Evolution • Datenbanken und Datenbankanalysen • Sequenzalignment • Stammbaumerstellung • Statistische Auswertung

  4. Warum molekulare Phylogenie? • Verständnis von phylogenetischen Zusammenhängen: • Organismische Evolution (Systematik) • Evolution von Proteinfamilien (Funktion!) • forensische Medizin (Bsp. HIV) • Epidemiologie • Mathematische Probleme

  5. Warum molekulare Phylogenie? • Rekonstruktion von Verwandtschaftsverhältnissen • Morphologische Daten • Sequenzdaten • Vorteil der Sequenzdaten: • - leichte Zugänglichkeit • - Grosse Datenmenge • - Zumeist frei von Gewichtungen • - können aber dennoch zu falschen Ergebnissen führen!

  6. Voraussetzungen der molekularen Phylogenie 1. Evolution vollzieht sich durch Veränderungen. 2. Verwandte Spezies stammen von einem gemeinsamen Vorfahren ab. 3. Die Speziesbildung vollzog sich durch hierarchische Auftrennung. 4. Deren Verlauf läßt sich durch Stammbäume darstellen. 5. Es gibt nur einen historisch korrekten Stammbaum. 6. Organismen sind historisch. Sowohl die Morphologie als auch die DNA- und Aminosäuresequenzen speichern die Informationen über die Vergangenheit. 7. Die Methoden der molekularen Evolution erlauben die Extraktion der in der DNA bzw. den Proteinen gespeicherten Informationen.

  7. Schwestergruppen t t Was ist ein Stammbaum? • Darstellung der Verwandtschaftsverhältnisse A A B B C C D D E E F F A – F auch "operational taxonomic units" (OTUs)

  8. Außengruppe (outgroup) Polytomie Dichotomie A B C D E Ast (branch) Knotenpunkt (node) Phylogenetische Grundbegriffe A B C D E

  9. Phylogenetische Grundbegriffe Monophylie monophyletische Taxa (AB) (CDEF) (DEF) (EF) ABCDE F

  10. "Reptilien" Phylogenetische Grundbegriffe Paraphylie => nicht alle Nachkommen werden erfasst Eidechsen + Schlangen Schildkröten Krokodile Vögel aufgrund von Plesiomorphien (ursprünglichen Merkmalen)

  11. "Geier" Phylogenetische Grundbegriffe Polyphylie => verschiedenen Ursprungs Storchen-vögel Neuwelt- Geier Altwelt- Geier Raubvögel aufgrund von Homoplasien (Konvergenzen)

  12. ungewurzeletes Phylogramm Regenwurm Tausendfüsser Tintenfisch Schnecke Languste Vogelspinne Heuschrecke => keine Evolutions"richtung"

  13. t Stammbaum Mit Außengruppe gewurzelt = "outgroup" Mensch (Außengruppe) Regenwurm Schnecke Tintenfisch Tausendfüsser Heuschrecke Languste Wurzel ("Root") Vogelspinne

  14. Molekure Phylogenie Vorgehensweise zur Stammbaumerstellung: • Wie ist meine Sequenz zu anderen verwandt? • Auswahl ähnlicher Sequenzen aus Datenbanken • Sequenzalignment • Molekularphylogenetische Analyse • Statistische Überprüfung • B.Wie sind bestimmte Taxa miteinander verwandt? • Auswahl geeigneter Sequenzen • Sequenzierung (Datenbanken, Klonierung, PCR) • Sequenzalignment usw. wie oben

  15. Datenbanksuche: • Welche Sequenz ist meiner Sequenz "ähnlich"? • => Sequenzvergleich: "Alignment" (dt. Alignierung) DPEFKLSYFREDIAINSHHWHWHVIYPVGSNPS--DKKINRKGELFYYMHEQMLARYDAE ::: ::::::::: :: :::::: :: :: : :::::: ::: :: :::: : DPEYKLSYFREDIGINAHHWHWHIVYPATWNPTVMGKEKDRKGELFFYMHQQMCARYDSE

  16. Datenbanksuche z.B. BLAST(Basic Local Alignment Search Tool) => vergleicht zwei Sequenzen miteinander BLASTN: Vergleicht eine Nukleinsäuresequenzmit Nukleinsäuredatenbank => nahe verwandte Sequenzen BLASTP: Vergleicht eine Aminosäuresequenz mit Proteindatenbank. => entfernt verwandte Sequenzen

  17. Datenbanksuche . BLASTX: Vergleicht eine Nukleinsäuresequenz translatiert in allen 6 Leserastern mit Proteindatenbank. => Für welches Protein kodiert meine Sequenz? TBLASTN: Vergleicht eine Aminosäuresequenz mit Nukleinsäure- datenbank, die in allen 6 Leserastern translatiert wird. => findet z.B. nicht annotierte Proteine in DNA-Daten TBLASTX: Vergleicht die Translationsprodukte aller drei Leseraster einer Nukleinsäuresequenz mit den Translationsprodukten aller 6 Leseraster einer Nukleinsäuredatenbank. => z.B. entfernte Verwandtschaft unbek. DNA-Sequenzen

  18. BLAST (Basic Local Alignment Search Tool)

  19. Multiples Sequenz-Alignments SeqA N A FLS SeqB N A FS SeqC N A KYLS SeqD N A YLS Gegeben: SeqA N A - FLS SeqB N A - F - S SeqC N A KYLS SeqD N A - YLS Gesucht:

  20. Sequenzalignments Wie erhält man ein multiples Sequenzalignment? Algorithmus (z.B. ClustalX): 1. paarweiser Vergleichen aller Sequenzen miteinander => Berechnung der Distanzen zw. Sequenzen 2. gruppiert Sequenzen nach Ähnlichkeit (Cluster-Bildung) 3. Erstellung paarweiser Alignments 4. sukzessives Alignment nach Ähnlichkeit, dabei die ähnlichsten Sequenzpaare zuerst

  21. CLUSTALX 1) Sequenzvergleich A B C D Alle Sequenzen werden miteinander verglichen (schnelles "quick and dirty" Alignment) => Berechnen der Distanzen

  22. CLUSTALX 2) Ähnliche Sequenzen werden gruppiert => Cluster-Analyse = Erstellung eines hierarchischen Stammbaums ("guide tree"). A B C D A D B C A - 0.75 0.89 0.27 B - 0.45 0.82 C - 0.77 "guide tree" D -

  23. A D B C A D B C CLUSTALX 3) Alignment von nahe verwandten Sequenzen; die ähnlichsten zuerst.

  24. A D B C A D B C A D B C CLUSTALX 4) Sukzessives globales Alignment Lücken = "gaps"

  25. Alignment Parameter • Substitutionsmatrix (Wahrscheinlichkeit von nt bzw. AS-Austauschen) • "Gap creation" und "Gap length weights" • jeweils für paarweise und Multi-Alignments

  26. Stammbaumerstellung Anzahl der möglichen Stammbäume: Number Number of Number of of OTUs rooted trees unrooted trees 2 1 1 3 3 1 4 15 3 5 105 15 6 954 105 7 10395 954 8 135135 10395 9 2027025 135135 10 34459425 2027025

  27. Stammbaumerstellung • Matrix-orientierte Methoden • UPGMA (Unweighted Pair-Group Method with Arithmetric Means) • Neighbor-joining • Minimal Evolution (least squares) • 2. Charakter-orientierte Methoden • Maximum Parsimony • Maximum Likelihood

  28. Matrix-orientierte Methoden • Aus jedem Datensatz kann im Prinzip eine Distanzmatrix erstellt werden • Zwei Schritte: • Berechnen der paarweisen Abstände • zwischen den einzelnen Sequenzen • 2. Erstellen eines Stammbaums anhand • dieser Abstandsdaten

  29. Sequenzevolution Ursprungssequenz Mutationen Zeit Sequenz A Sequenz B Unterschied = Divergenz = Distanz

  30. Berechnung einer Distanzmatrix Sequenz 1 TATAAGCATGACTAGTAAGC Sequenz 2 TATTAGCATGACTGGTAACC Sequenz 3 TATTGGCATGACTAGCAGGC Sequenz 4 TGTTGCCACGATTAGCTACC Sequenz 5 CGTAGCTATGACCAACGGGC Distanz = Durchschnittliche Änderung pro Position hier: 20 Positionen; => Wieviele beobachtete Änderungen?

  31. Distanzmatrix 1 2 3 4 5 Sequenz 1 0.00 0.15 Sequenz 2 Sequenz 3 Sequenz 4 Sequenz 5 1 2 3 4 5 Sequenz 1 0.00 0.15 0.20 0.45 0.50 Sequenz 2 0.00 0.25 0.40 0.65 Sequenz 3 0.00 0.35 0.40 Sequenz 4 0.00 0.50 Sequenz 5 0.00 Abstand zwischen Sequenz 1 und Sequenz 2, ausgedrückt in durchschnittlichen Änderungen pro Nukleotidposition (unkorrigierte Hamming-Distanz).

  32. tatsächlicher Abstand zweier Sequenzen = Anzahl der Mutationen Abstand gegen Zeit! % Sättigung beobachteter Abstand => Abstand wird unterschätzt! t

  33. Warum? 13 Mutationen => 3 Unterschiede

  34. Korrektur Korrektur der Distanzen tatsächlicher Abstand = Anzahl der Mutationen % beobachteter Abstand t

  35. Korrektur der Distanzen • Frage: Wie korrigieren wir? • Wir wollen die tatsächliche Anzahl der evolutiven Ereignisse rekonstruieren. • Wir brauchen also ein Evolutionsmodell, welches die Wahrscheinlichkeit von multiplen Austauschen, Rückmutationen etc. berücksichtigt.

  36. DNA-Evolutionsmodelle • 1969: Jukes & Cantor (JC) • 1980: Kimura 2-Parameter (K2P) • 1981: Felsenstein 81 (F81) • 1985: Hasegawa, Koshino & Yano (HKY85) • 1990: General Reversible Model (REV) • etc.

  37. Evolutionsmodell Jukes & Cantor Korrigierte Distanz nach Jukes & Cantor: K ist der berechnete Abstand (Anzahl der tatsächlichen Substitutionen), p der beobachtete Abstand zwischen zwei Sequenzen.

  38. Abstandsberechnung - Proteine • Modelle für Proteinevolution meist empirisch. • Nach Kimura 1983: • D = - ln(1 - p - 0.2 x p2) • Beispiel: Beobachtete Distanz = 60% => p = 0.6 => D = - ln(1 – 0.6 – 0.2 x 0.62) = 1.11474 => d.h., im Schnitt hat an jeder Position ~ 1,11 AS-Austausche stattgefunden

  39. Aber: • Modell ist zu einfach! • Denn jeder Aminosäureaustausch wird gleich bewertet. • In der Natur aber nicht so beobachtet. • In der Praxis sind meist bessere Modelle notwendig. • Wir kennen diese Modelle: => PAM, BLOSUM-Matrizen

  40. Aminosäureeigenschaften Sehr klein P aliphatisch C klein S+S G G I A S V C N SH L D T hydrophob Y M K E Q F W H R positiv aromatisch polar geladen

  41. PAM-Distanzmatrix A R N D C Q E G H I L K M F P S T W Y V B Z A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4 C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2 -2 -3 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6 C F Y F -4 7 9

  42. PAMundBLOSUMMatricen Hohe Sequenzähnlichkeit Hohe Sequenzähnlichkeit PAM 1 PAM 120 PAM 250 BLOSUM 80 BLOSUM 62 BLOSUM 30 Geringe Sequenzähnlichkeit Geringe Sequenzähnlichkeit

  43. Distanzmatrix Berechnen des paarweisen Abstands Sequenz 1 0.000 0.236 0.621 0.702 1.510 Sequenz 2 0.000 0.599 0.672 1.482 Sequenz 3 0.000 0.112 1.561 Sequenz 4 0.000 1.425 Sequenz 5 0.000 • Ausgedrückt i.d.R. als Mutationen pro Position • Abstand kann > 1 werden!

  44. Stammbaumerstellung • Wie kommen wir von einer Distanzmatrix zu einem Stammbaum? • => Algorithmus berechnet aus den Distanzen den "besten" Stammbaum. • Sequenzen selbst werden nicht mehr berücksichtigt.

  45. UPGMA Unweighted Pair-Group Method with Arithmetric Means • Additive Methode. OTUs werden durch sequenzielles Clustern nach absteigender Ähnlichkeit gruppiert.

  46. 3 A 3 2.5 A B B 3 3 C 5.5 UPGMA Unweighted Pair-Group Method with Arithmetric Means A B C D OTU A 0 6 10 18 OTU B 0 12 20 OTU C 0 19 OTU D 0 6 A/B C D OTU A/B 0 11 19 OTU C 0 19 OTU D 0

  47. 3 A 2.5 4 B 3 C 5.5 D 9.5 UPGMA A/B/C D Sequenz A/B/C 0 19 Sequenz D 0 • nimmt konstante Evolutionsraten an • Außengruppe wird "automatisch" bestimmt

  48. 3 A 2.5 4 B 3 C 5.5 D 9.5 UPGMA Ausgangsmatrix A B C D OTU A 0 6 10 18 OTU B 0 12 20 OTU C 0 19 OTU D 0 rekonstruierte Matrix A B C D OTU A 0 6 11 19 OTU B 0 11 19 OTU C 0 19 OTU D 0

  49. Neighbor-joining (NJ) • Ähnlicher Algorithmus wie UPGMA • berücksichtigt unterschiedliche Evolutionsraten: • => Astlängenberechnung • Sukzessives Gruppieren der OTUs • Minimierung der Astlängen • => Stammbaum wird aufgelöst • => keine konstante Evolutionsrate angenommen

  50. Neighbor-joining (NJ) S = (dji)/N; 1ijN S = Summe aller Astlängen d = Distanzen zwischen allen OTUs N = Anzahl der OTUs Ziel NJ => Minimierung von S

More Related