A Brief Introduction to Molecular Systematics

A Brief Introduction to Molecular Systematics David S. Horner Dip. Scienze Biomolecolari e Biotecnologie david.horner@unimi.it

Allineamento

Che Cosa è un allineamento? E’ una serie di ipotesi di omologia posizionale

SUGAR SUCRE

SUGAR X SUGR SUCR E SUCRE

S U G A R - S U C – R E ---------------------------- S U ? ? R ?

S U G A R - S U C – R E Z U C K E R S A K A R I S O K K E R A Z U C A R A ç U C A R

S U G - A R - S U C – - R E Z U C K E R - S O K K E R - A Z U C - A R - S A K - A R I A ç U C - A R - -------------------- - S U C(K)A R -

Possiamo Valutare un Allineamento G A T T C C G T | | | | | G A A T - C C T +2 +2 -1 +2 -2 +2-1 +2 =6 punti Match = +2 Mismatch = -1 Gap = -2

Models of Amino acid ReplacementExchangeability Parameters

Human: W C T F G T T Mouse: W C A W G T T 11 9 0 1 6 5 5 • Si può calcolare un “punteggio di similarità” tra 2 sequenze, in base al punteggio scelto: score = 37

Saul G. Needleman – Christian D. Wunsch 1970 Allineamento ottimale di due sequenze

La formula Matrice M = (m+1)x(n+1) La posizione m(0,0) è “inizializzata” a zero Poi: m(i,j) è uguale al massimo tra tre possibilità s(xi,yj) è il costo (matrici) della sostituzione dell’i-esima lettera della sequenza X con la j-esima della sequenza Y d è il costo di una cancellazione (inserimento) Alla fine, la casella in basso a destra conterrà il punteggio dell’allineamento

Allineamento “globale” yj allineato con un “gap” Allinea carattere con carattere s(xi,yj) d d xi allineato con un “gap” While building the table, keep track of where optimal score came from, reverse arrows

BLOSUM62 Amino Acid Log-odd Substitution Matrix

“Traceback” • Segui le frecce a partire dal basso a destra • Diagonale: Lettera con lettera • Su: Gap nella sequenza sopra • Sinistra: Gap nella sequenza sotto HEAGAWGHE-E --P-AW-HEAE

Ricerca in Database “Trovami nel database le sequenze che allineate con la mia producono un buon punteggio” Nelle ricerche nei database spesso ci si “accontenta” di trovare similarità locali (domini conservati, siti attivi, ecc.) Il database è enorme: occorrono metodi “veloci” (che non compilino tutta la tabella) per confrontare la nostra sequenza ignota con migliaia di altre sequenze: FASTA, BLAST Punteggi piu alto che atessa indicono omologia

Allineamento Progressivo Inventato da Feng e Doolittle nel 1987. Essenzialmente è un metodo euristico e in quanto tale non garantisce il reperimento dell’allineamento “ottimale”. Richiede n-1+n-2+n-3...n-n+1 allineamenti a coppie di sequenze (pairwise) come punto di partenza - (n(n-1))/2 La sua implementazione più nota è Clustal (Des Higgins)

Allineamenti pairwise Partire da tutti I possibili allineamenti pairwise fra ciascuna coppia di sequenze. Ci sono (n-1)+(n-2)...(n-n+1) possibilità. Calcolare la “distanza” per ogni coppia di sequenze sulla base di questi allineamenti pairwise isolati. Generare una matrice di distanza e un albero filogenetico.

Caso in cui una terza sequenza vada allineata alla prime due: ogni volta che sia necessario introdurre un gap per migliorare l’allineamento, le due entità vengono trattate come sequenze singole. +

H D P -AW-HEAE + H E A GAWGHE-E - - P -AW-HEAE 0.5H 0.5E 0.5A ……. 0.5- 0.5- 0.5P ……. Profile H E AGAWGHE-E - - P-AW-HEAE H D P -8 -16 -24 -16 -24 -32

Progressione L’allineamento multiplo viene progressivamente costruito in questo modo: ogni passaggio è trattato come un allineamento pairwise, a volte ciascun membro del pair (coppia) rappresenta più di una sequenza.

Progressive Alignment-Minimo Locale • Problemi potenziali: • Problema del minimo locale. Se viene introdotto un errore precocemente nel processo di allineamento, non è possibile correggerlo più tardi nel corso della procedura.

Musclewww.drive5.com/muscle

Allineamento di sequenze di DNA codificanti per proteine ATGCCCCTGTTAGGG ATGCTCGTAGGG ATGCCCCT-GTTAGGG ATG---CTCGT-AGGG http://www.cbs.dtu.dk/services/RevTrans/ Non è raccomandabile allineare sequenze nucleotidiche di geni codificanti per proteine.

Allineamento di sequenze di DNA codificanti per proteine MetProLeuLeuGly ATGCCCCTGTTAGGG ATGCTCGTAGGG MetLeuValGly MPLLG M-LVG ATGCCCCTGTTAGGG ATG---CTCGTAGGG Allineare le seq. Proteiche, inserire 3 gap nelle seq. nucleotidiche per ogni gap nel’allineamento proteico

Che Cosa è un allineamento? E’ una serie di ipotesi di omologia posizionale

Allineamenti, omologia posizionale e siti allineati con segnale potenzialmente fuorviante Siamo confidenti che tutti i siti sono allineati correttamente? Possiamo escludere siti che non sono bene allineati

Esclusione di siti non bene allineati Si fa manualmente o con software come Gblocks http://molevol.ibmb.csic.es/Gblocks.html Rimuove i block con livelli basi di conservazione in modo obiettivo

Terze Posizioni di codoni Tendono essere piu saturati in termini di numero di sostituzioni, particolarmente quando le distanze genetiche sono grandi Long Branch Attraction A volte vengono escluse

Metodi Basati Sulle Distanze Genetiche

Cambiamenti multipli a un singolo sito - cambiamenti nascosti Seq 1 AGCGAG Seq 2 GCCGAC Numero di cambiamenti A G T G pos 1 3 G C pos 2 1 A C C pos 3 2

Differences Substitutions

Distanze Misure di quanto differenti sono due sequenze Il numero di eventi evolutivi che sono intervenuti dopo la divergenza fra due sequenze. La distanza più semplice: p-distance = la proporzione di siti che non sono uguali (Queste non sono buone misure dovuto alla saturazione )

Modelli dell’evoluzione molecolare • un “modello del processo”: una descrizione del meccanismo di cambiamenti molecolari. • Due approcci perla costruzione di modelli. • EMPIRICAMENTE, possiamo usare proprietà stimate da confronti fra un numero alto di sequenze osservate. (valori fissi di parametri) • Con un metodo PARAMETRICO, usando valori derivati dai dataset sotto analisi

Modelli dell’evoluzione molecolare L’evoluzione molecolare è modellizzata come un processo probabilistico dipendente dal tempo. (processo stocastico). • Assunzioni “standard”: • Tutti i siti evolvono independentamente • La velocità di sostituzione è costante rispetto al tempo e in organismi diversi. • La composizione (di basi o aa) è costante fra diversi organismi (condizione stazionaria). • Le probabilità di vari tipi di sostituzioni sono uguali per tutti i siti e non cambiano nel tempo.

Correzioni per sostituzioni sovrapposte Jukes and Cantor – tutte le sostituzioni sono “uguali” Kimura 2-parameter – differenza fra transizioni e transversioni

Jukes-Cantor (1969) 1 solo parametro Composizione di basi: [1/4, 1/4, 1/4, 1/4] A Tutti i 12 tassi di sostituzioni “sono” uguali (a) T C G

Il logaritmo naturale viene usato per correggere per sostituzioni sovrapposte • Se 2 sequenze sono 95% identiche, differiscono al 5% o 0.05 (D) dei siti, quindi: • dxy = -3/4 ln (1-4/3 0.05) = 0.0517 • Comunque, Se 2 sequenze sono 50% identiche, differiscono a 50% o 0.5 (D) dei siti, quindi: • dxy = -3/4 ln (1-4/3 0.5) = 0.824

Modello di Kimura a 2 parametri (1980) 2 parametri A Composizione di basi: [1/4, 1/4, 1/4, 1/4] T C Velocità di transizione (a)  Velocità di transversione(b) G

Modello Kimura 2P : • P = transizioni / numero di posizioni • Q = transversioni / numero di posizioni • D = -1/2 ln[ (1 - 2P - Q) * sqrt(1 - 2Q) ] • M. Kimura, J. Mol. Evol. 16; 111-120 (1980).

Felsenstein (1981) 3 parametri liberi composizione di basi diversa: [pA pC pG, pT] A Tutti I 12 tassi di sostituzione “sono” uguali (a) T C G

Hasegawa, Kishino and Yano (1985) composizione di basi diversa: [pA pC pG, pT] 5 parametri liberi A Velocità di transizione (a)  Velocità di transversione(b) T C G

General Time Reversible (1984) 9 parametri liberi/indipendenti composizione di basi diversa: [pA pC pG, pT] A 6 tassi di sostituzione diversi T C G

Metodi di “Distanza” • I metodi di “clustering” usano algoritmi per generare alberi • UPGMA (Unweighted Pair Group Method using Arithmetic Averages): produce un albero additivo, radicato, che si conforma all’orologio molecolare • Neighbor-joining: produce un albero additivo, non radicato • Approci basati su criteri di ottimalità: least-squares, minimum evolution,...

Stimare un albero con le distanze Distanze additive: • Se potessimo calcolare accuratamente il vero numero di eventi evolutivi che sono accaduti dalla divergenza di due sequenze sulla base del numero di divergenze osservate, queste distanze sarebbero additive.

Metodi di clustering • UPGMA distanze additive e ultrametriche=> basato sull’assunzione di un orologio molecolare => molto sensibile a tassi di sostituzioni non uguali. Meglio usare altri algoritmi di clusteringe.g. Neighbor-joining

A Brief Introduction to Molecular Systematics

A Brief Introduction to Molecular Systematics

Presentation Transcript

Molecular Dynamics Simulation (a brief introduction)

A Brief Introduction to

A Brief Introduction to MySQL

Plant Molecular Systematics (Phylogenetics)

Introduction to Phylogenetic Systematics

A Brief Introduction to Java

Mitochondrial DNA in Molecular Systematics

Plant systematics - introduction

Molecular Systematics: opportunities and controversies

A brief introduction to:

Plant Molecular Systematics

Plant Molecular Systematics

A brief introduction to eramba

Plant Molecular Systematics

A Brief Introduction to Astrodynamics

A brief Introduction to Bioinformatics

A Brief Introduction to

A Brief Introduction to Helicopters

A Brief Introduction to Gravity

A Brief Introduction to iProcurement

A Brief Introduction to Molecular Systematics

Molecular Dynamics Simulation (a brief introduction)