1 / 107

A Brief Introduction to Molecular Systematics

A Brief Introduction to Molecular Systematics. David S. Horner Dip. Scienze Biomolecolari e Biotecnologie david.horner@unimi.it. Allineamento. Che Cosa è un allineamento?. E’ una serie di ipotesi di omologia posizionale. SUGAR. SUCRE. SUGAR. X. SUGR. SU C R. E. SUCRE. S U G A R -.

ponce
Télécharger la présentation

A Brief Introduction to Molecular Systematics

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. A Brief Introduction to Molecular Systematics David S. Horner Dip. Scienze Biomolecolari e Biotecnologie david.horner@unimi.it

  2. Allineamento

  3. Che Cosa è un allineamento? E’ una serie di ipotesi di omologia posizionale

  4. SUGAR SUCRE

  5. SUGAR X SUGR SUCR E SUCRE

  6. S U G A R - S U C – R E ---------------------------- S U ? ? R ?

  7. S U G A R - S U C – R E Z U C K E R S A K A R I S O K K E R A Z U C A R A ç U C A R

  8. S U G - A R - S U C – - R E Z U C K E R - S O K K E R - A Z U C - A R - S A K - A R I A ç U C - A R - -------------------- - S U C(K)A R -

  9. Possiamo Valutare un Allineamento G A T T C C G T | | | | | G A A T - C C T +2 +2 -1 +2 -2 +2-1 +2 =6 punti Match = +2 Mismatch = -1 Gap = -2

  10. Models of Amino acid ReplacementExchangeability Parameters

  11. Human: W C T F G T T Mouse: W C A W G T T 11 9 0 1 6 5 5 • Si può calcolare un “punteggio di similarità” tra 2 sequenze, in base al punteggio scelto: score = 37

  12. Saul G. Needleman – Christian D. Wunsch 1970 Allineamento ottimale di due sequenze

  13. La formula Matrice M = (m+1)x(n+1) La posizione m(0,0) è “inizializzata” a zero Poi: m(i,j) è uguale al massimo tra tre possibilità s(xi,yj) è il costo (matrici) della sostituzione dell’i-esima lettera della sequenza X con la j-esima della sequenza Y d è il costo di una cancellazione (inserimento) Alla fine, la casella in basso a destra conterrà il punteggio dell’allineamento

  14. Allineamento “globale” yj allineato con un “gap” Allinea carattere con carattere s(xi,yj) d d xi allineato con un “gap” While building the table, keep track of where optimal score came from, reverse arrows

  15. BLOSUM62 Amino Acid Log-odd Substitution Matrix

  16. “Traceback” • Segui le frecce a partire dal basso a destra • Diagonale: Lettera con lettera • Su: Gap nella sequenza sopra • Sinistra: Gap nella sequenza sotto HEAGAWGHE-E --P-AW-HEAE

  17. Ricerca in Database “Trovami nel database le sequenze che allineate con la mia producono un buon punteggio” Nelle ricerche nei database spesso ci si “accontenta” di trovare similarità locali (domini conservati, siti attivi, ecc.) Il database è enorme: occorrono metodi “veloci” (che non compilino tutta la tabella) per confrontare la nostra sequenza ignota con migliaia di altre sequenze: FASTA, BLAST Punteggi piu alto che atessa indicono omologia

  18. Allineamento Progressivo Inventato da Feng e Doolittle nel 1987. Essenzialmente è un metodo euristico e in quanto tale non garantisce il reperimento dell’allineamento “ottimale”. Richiede n-1+n-2+n-3...n-n+1 allineamenti a coppie di sequenze (pairwise) come punto di partenza - (n(n-1))/2 La sua implementazione più nota è Clustal (Des Higgins)

  19. Allineamenti pairwise Partire da tutti I possibili allineamenti pairwise fra ciascuna coppia di sequenze. Ci sono (n-1)+(n-2)...(n-n+1) possibilità. Calcolare la “distanza” per ogni coppia di sequenze sulla base di questi allineamenti pairwise isolati. Generare una matrice di distanza e un albero filogenetico.

  20. Caso in cui una terza sequenza vada allineata alla prime due: ogni volta che sia necessario introdurre un gap per migliorare l’allineamento, le due entità vengono trattate come sequenze singole. +

  21. H D P -AW-HEAE + H E A GAWGHE-E - - P -AW-HEAE 0.5H 0.5E 0.5A ……. 0.5- 0.5- 0.5P ……. Profile H E AGAWGHE-E - - P-AW-HEAE H D P -8 -16 -24 -16 -24 -32

  22. Progressione L’allineamento multiplo viene progressivamente costruito in questo modo: ogni passaggio è trattato come un allineamento pairwise, a volte ciascun membro del pair (coppia) rappresenta più di una sequenza.

  23. Progressive Alignment-Minimo Locale • Problemi potenziali: • Problema del minimo locale. Se viene introdotto un errore precocemente nel processo di allineamento, non è possibile correggerlo più tardi nel corso della procedura.

  24. Musclewww.drive5.com/muscle

  25. Allineamento di sequenze di DNA codificanti per proteine ATGCCCCTGTTAGGG ATGCTCGTAGGG ATGCCCCT-GTTAGGG ATG---CTCGT-AGGG http://www.cbs.dtu.dk/services/RevTrans/ Non è raccomandabile allineare sequenze nucleotidiche di geni codificanti per proteine.

  26. Allineamento di sequenze di DNA codificanti per proteine MetProLeuLeuGly ATGCCCCTGTTAGGG ATGCTCGTAGGG MetLeuValGly MPLLG M-LVG ATGCCCCTGTTAGGG ATG---CTCGTAGGG Allineare le seq. Proteiche, inserire 3 gap nelle seq. nucleotidiche per ogni gap nel’allineamento proteico

  27. Che Cosa è un allineamento? E’ una serie di ipotesi di omologia posizionale

  28. Allineamenti, omologia posizionale e siti allineati con segnale potenzialmente fuorviante Siamo confidenti che tutti i siti sono allineati correttamente? Possiamo escludere siti che non sono bene allineati

  29. Esclusione di siti non bene allineati Si fa manualmente o con software come Gblocks http://molevol.ibmb.csic.es/Gblocks.html Rimuove i block con livelli basi di conservazione in modo obiettivo

  30. Terze Posizioni di codoni Tendono essere piu saturati in termini di numero di sostituzioni, particolarmente quando le distanze genetiche sono grandi Long Branch Attraction A volte vengono escluse

  31. Metodi Basati Sulle Distanze Genetiche

  32. Cambiamenti multipli a un singolo sito - cambiamenti nascosti Seq 1 AGCGAG Seq 2 GCCGAC Numero di cambiamenti A G T G pos 1 3 G C pos 2 1 A C C pos 3 2

  33. Differences Substitutions

  34. Distanze Misure di quanto differenti sono due sequenze Il numero di eventi evolutivi che sono intervenuti dopo la divergenza fra due sequenze. La distanza più semplice: p-distance = la proporzione di siti che non sono uguali (Queste non sono buone misure dovuto alla saturazione )

  35. Modelli dell’evoluzione molecolare • un “modello del processo”: una descrizione del meccanismo di cambiamenti molecolari. • Due approcci perla costruzione di modelli. • EMPIRICAMENTE, possiamo usare proprietà stimate da confronti fra un numero alto di sequenze osservate. (valori fissi di parametri) • Con un metodo PARAMETRICO, usando valori derivati dai dataset sotto analisi

  36. Modelli dell’evoluzione molecolare L’evoluzione molecolare è modellizzata come un processo probabilistico dipendente dal tempo. (processo stocastico). • Assunzioni “standard”: • Tutti i siti evolvono independentamente • La velocità di sostituzione è costante rispetto al tempo e in organismi diversi. • La composizione (di basi o aa) è costante fra diversi organismi (condizione stazionaria). • Le probabilità di vari tipi di sostituzioni sono uguali per tutti i siti e non cambiano nel tempo.

  37. Correzioni per sostituzioni sovrapposte Jukes and Cantor – tutte le sostituzioni sono “uguali” Kimura 2-parameter – differenza fra transizioni e transversioni

  38. Jukes-Cantor (1969) 1 solo parametro Composizione di basi: [1/4, 1/4, 1/4, 1/4] A Tutti i 12 tassi di sostituzioni “sono” uguali (a) T C G

  39. Il logaritmo naturale viene usato per correggere per sostituzioni sovrapposte • Se 2 sequenze sono 95% identiche, differiscono al 5% o 0.05 (D) dei siti, quindi: • dxy = -3/4 ln (1-4/3 0.05) = 0.0517 • Comunque, Se 2 sequenze sono 50% identiche, differiscono a 50% o 0.5 (D) dei siti, quindi: • dxy = -3/4 ln (1-4/3 0.5) = 0.824

  40. Modello di Kimura a 2 parametri (1980) 2 parametri A Composizione di basi: [1/4, 1/4, 1/4, 1/4] T C Velocità di transizione (a)  Velocità di transversione(b) G

  41. Modello Kimura 2P : • P = transizioni / numero di posizioni • Q = transversioni / numero di posizioni • D = -1/2 ln[ (1 - 2P - Q) * sqrt(1 - 2Q) ] • M. Kimura, J. Mol. Evol. 16; 111-120 (1980).

  42. Felsenstein (1981) 3 parametri liberi composizione di basi diversa: [pA pC pG, pT] A Tutti I 12 tassi di sostituzione “sono” uguali (a) T C G

  43. Hasegawa, Kishino and Yano (1985) composizione di basi diversa: [pA pC pG, pT] 5 parametri liberi A Velocità di transizione (a)  Velocità di transversione(b) T C G

  44. General Time Reversible (1984) 9 parametri liberi/indipendenti composizione di basi diversa: [pA pC pG, pT] A 6 tassi di sostituzione diversi T C G

  45. Metodi di “Distanza” • I metodi di “clustering” usano algoritmi per generare alberi • UPGMA (Unweighted Pair Group Method using Arithmetic Averages): produce un albero additivo, radicato, che si conforma all’orologio molecolare • Neighbor-joining: produce un albero additivo, non radicato • Approci basati su criteri di ottimalità: least-squares, minimum evolution,...

  46. Stimare un albero con le distanze Distanze additive: • Se potessimo calcolare accuratamente il vero numero di eventi evolutivi che sono accaduti dalla divergenza di due sequenze sulla base del numero di divergenze osservate, queste distanze sarebbero additive.

  47. Metodi di clustering • UPGMA distanze additive e ultrametriche=> basato sull’assunzione di un orologio molecolare => molto sensibile a tassi di sostituzioni non uguali. Meglio usare altri algoritmi di clusteringe.g. Neighbor-joining

More Related