Alineamientos de secuencias

Alineamientos de secuencias

¿Para qué hace falta la compoaración de secuencias? • Bases biológicas: • Muchos genes y proteínas son miembros de familias que tienen funciones biológicas similares o un origen filogenético común. • Se usa para: • Identificar relacciones evolutivas. • Identificar patrones conservados. • en caso de secuencias con funciones desconocidas: encontrar dominios similares en otras proteinas implica una función similar.

Alineamiento de secuencias Claves: • 1- que tipo de alineamiento hay que considerar • 2- que sistema de puntuacion “scoring” hay que usar para clasificar los alineamientos • 3- que algoritmos hay que usar para encontrar la solución óptima (o buena) • 4- métodos estadisiticos necesarios para evaluar la significacion del score de los alineamientos

Tipos de comparación de secuencias • Pairwise Alignments • Alineamientos múltiples • Búsquedas en bases de datos

Pairwise Sequence Alignment • Principios de la comparación por pares de secuencias • alineamientos globales / locales • sistemas de puntuación “scoring” • penalizaciones por GAP • Métodos de pairwise sequence alignment • Basados en deslizamiento de ventanas “window-based” • programación dinámica

Pairwise Sequence Alignment • Alineamientos globales • Alineamientos locales

Alineamiento Global (Needleman & Wunsch) crea alineamientos en toda la longitud de la secuencia. Para secuencias que estan muy relaccionadas

Alineamiento Global Dos secuencias con varias regiones de similaridad 1 AGGATTGGAATGCTCAGAAGCAGCTAAAGCGTGTATGCAGGATTGGAATTAAAGAGGAGGTAGACCG.... 67 |||||||||||||| | | | |||| || | | | || 1 AGGATTGGAATGCTAGGCTTGATTGCCTACCTGTAGCCACATCAGAAGCACTAAAGCGTCAGCGAGACCG 70 Con un alineamiento local solo se obtendrá una similaridad muy baja: fragmento azul

Alineamiento Local 14 TCAGAAGCAGCTAAAGCGT 32 ||||||||| ||||||||| 42 TCAGAAGCA.CTAAAGCGT 59 1 AGGATTGGAATGCT 14 |||||||||||||| 1 AGGATTGGAATGCT 14 39 AGGATTGGAAT 49 ||||||||||| 1 AGGATTGGAAT 11 62 AGACCG 67 |||||| 66 AGACCG 71 Alineamiento local encuentra la region que tiene la mejor similaridad local.

Pairwise Sequence Alignment alfa globina humana beta-globina leghemoglobina Glutonina S-tranferasa nematodos

Parámetros a tener en cuenta en el alineamiento de secuencias • Sistemas de puntuación: • A cada par de símbolos se le asigna un valor numerico • basado en una tabla de comparación de síbolos. • Penalizaciones por Gap: • apertura: Costo de introducir un gap • Extensión: Costo de extender el gap

actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Sistemas de puntuación de secuencias de nucleótidos Sequencia 1 Sequencia 2 A G C T A1 0 0 0 G 0 1 0 0 C 0 0 1 0 T 0 0 0 1 Match: 1 Mismatch: 0 Score = 5

actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact Sistemas de puntuación de secuencias de nucleótidos Sequencia 1 Sequencia 2 Valores negativosque penalizen los mismatches: A T C G A 5 -4 -4 -4 T -4 5 -4 -4 C -4 -4 5 -4 G -4 -4 -4 5 Matches: 5 Mismatches: 19 Score: 5 x 5 + 19 * (-4) = - 51

Sistemas de puntuación de secuencias de proteínas Sequencia 1 Sequencia 2 PTHPLASKTQILPEDLASEDLTI PTHPLAGERAIGLARLAEEDFGM C S T P A G N D. . C 9 S -1 4 T -1 1 5 P -3 -1 -1 7 A 0 1 0 -1 4 G -3 0 -2 -2 0 6 N -3 1 0 -2 -2 0 5 D -3 0 -1 -1 -2 -1 1 6 . . C S T P A G N D. . C 9 S -1 4 T -1 1 5 P -3 -1 -1 7 A 0 1 0 -1 4 G -3 0 -2 -2 0 6 N -3 1 0 -2 -2 0 5 D -3 0 -1 -1 -2 -1 1 6 . . Scoring matrix T:G = -2 T:T = 5 Score = 48 210 valores

Protein Scoring Systems • Amino acidos tienen diferentes propiedades bioquímicas y físicas • que pueden influenciar su capacidad de ser reemplazados en la evolución tiny P aliphatic C small S+S G G I A S V C N SH L D T hydrophobic Y M K E Q F W H R positive aromatic polar charged

Protein Scoring Systems • Las matrices reflejan • Probabilidades de substituciones mutuas • Probabilidad de ocurrencia de un aminoacido • Matrices mas usadas: • PAM • BLOSUM

PAM (Percent Accepted Mutations) matrices • Derived from global alignments of protein families . • Family members share at least 85% identity (Dayhoff et al., 1978). • Construction of phylogenetic tree and ancestral sequences of each protein family • Computation of number of replacements for each pair of amino acids

PAM (Percent Accepted Mutations) matrices • The numbers of replacements were used to compute a so-called • PAM-1 matrix. • PAM 1 significa: 1% de mutaciones aceptadas, es decir se utilizaría esta matriz cuando uno esperara un 1 % de substituciones. PAM matrices para distancias evolucionarias mas grandes se pueden extrapolar a partir de esta matriz. • PAM250 = 250 mutaciones por cada 100 residuos. • A mayor número mayor distancia evolutiva. PAM250 es muy común. a esta distancia evolutiva, 48% de los triptófanos, 41% de las cisteinas y 20% de las histidinas permanecen inalteradas pero solo 7% de las serinas

C W W -8 17 PAM 250 El valor de un par de aa idénticos representa la probabilidad de que este aa permanezca inalterado (e.g. triptófano) A R N D C Q E G H I L K M F P S T W Y V B Z A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4 C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2 -2 -3 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6

BLOSUM (Blocks Substitution Matrix) • Derivada de alineamientos de dominios pertenecientes aproteinas alejadas en la evolucion (Henikoff & Henikoff,1992). • Contaron la presencia de cada • par de aa en cada columna de cada • bloque de alineamientos. • Los números obtenidos del • análisis de todos los bloques se usaron • para calcular las matrices • de tipo BLOSUM. A A C E C A A C E C A - C = 4 A - E = 2 C - E = 2 A - A = 1 C - C = 1

BLOSUM (Blocks Substitution Matrix) • Las secuencias se clusterizan dentro de un bloque de acuerdo a su grado de identidad. Clusters are counted as a single sequence. • Las matrices BLOSUM difieren en el porcentaje de identidad de secuencias usado para hacer el clustering • El número de la matriz (e.g. 62 en BLOSUM62) se refiere al porcentaje máximo de identidad entre las secuencias utilizado para crear la matriz • Mayores número significan distancias evolutivas menores.

Matrices de substitución: Log-odds Ratio Dado un par de secuencias alineadas queremos asignar una score que mida el grado de posibilidad „likelihood“, de que las secuencias estan relaccionadas x,y = amino acids (A,C......Y) P = likelyhood i = 1....n (longitud de la secuencia n) q = probabilidad P(x,y|R) =qxqy Random model (unrelated) : i i i i P(x,y|M) =pxy Match model (related) : i i i pxy pxy P(x,y|M)P(x,y|R)  i i i i related unrelated i = = Odds ratio : qxqy qxqy i i i i i i i pab  where :s(a,b) = log S = s(xi,yi) Log-odds ratio : qaqb i s(a,b)is the log likelyhood ratio of the residue pair (a,b) occurring as an aligned pair, as opposed to an unaligned pair.

Como escoger la matriz adecuada • Generally, BLOSUM matrices perform better than PAM matrices for local similarity searches (Henikoff & Henikoff, 1993). • When comparing closelyrelatedproteins one should use lowerPAMor higher BLOSUM matrices, for distantlyrelatedproteins higher PAM or lower BLOSUM matrices. • For database searching the commonly used matrix is BLOSUM62.

Como puntuar inserciones y delecciones A T G T A A T G C A T A T G T G G A A T G A A T G T - - A A T G C A T A T G T G G A A T G A insertion / deletion La creación de un gap se penaliza con un score negativo.

Gap Penalties • Un alineamiento optimo • maximiza el numero de matches • minimiza el número de gaps • Permitir la inserción arbitraria de muchos gaps puede dar lugar a scores altos entre secuencias no homologas. • La penalización de los gaps fuerza a los alineamientos a alcanzar los criterios optimos

Gap Penalties Linear gap penalty score: (g) = - gd Affine gap penalty score: (g) = -d - (g -1)e (g) = gap penalty score of a gap of lenght g d = gap opening penalty e = gap extension penalty g = gap lenght

A T G T T A T A C T A T G T G C G T A T A Scoring Insertions and Deletions match = 1 mismatch = 0 Total Score: 4 Total Score: 8 - 3.2 = 4.8 A T G T - - - T A T A C Gap parameters: d = 3 (gap opening) e = 0.1 (gap extension) g = 3 (gap lenght) (g) = -d - (g -1)e (g) = -3 - (3 -1) 0.1 = -3.2 T A T G T G C G T A T A insertion / deletion

Pairwise Sequence Alignment A T T C A C A T A T A C A T T A C G T A C Sequence 2 Sequence 1

Dotplot: A dotplot da una visión general del alineamiento A  T  T  C A  C A  T  A  T A C A T T A C G T A C Sequence 2 Sequence 1

Dotplot: Cada diagonal en elgráfico corresponde a un posible alineamiento sin gap entre las dos secuencias A   T   T   C  A   C  A   T   A    T A C A T T A C G T A C Sequence 2 Sequence 1 T A C A T T A C G T A C A T A C A C T T A One possible alignment:

Window-based Approaches • Word Size • Window / Stringency

Word Size Algorithm T A C G G T A T G A C A G T A T C Word Size = 3 C T A T G A C A T A C G G T A T G T A C G G T A T G A C A G T A T C T A C G G T A T G A C A G T A T C T A C G G T A T G A C A G T A T C 

Window / Stringency Window = 5 / Stringency = 4 T A C G G T A T G T C A G T A T C C T A T G A CA T A C G G T A T G T A C G G T A T G T C A G T A T C  T A C G G T A T G T C A G T A T C  T A C G G T A T G T C A G T A T C 

Considerations • The window/stringency method is more sensitive than the wordsize • method (ambiguities are permitted). • The smaller the window, the larger the weight of statistical • (unspecific) matches. • With large windows the sensitivity for short sequences is reduced. • Insertions/deletions are not treated explicitly.

Insertions / Deletions in a Dotplot T A C T G T C A T T A C T G T T C A T Sequence 2 Sequence 1 T A C T G-T C A T | | | | | | | | | T A C T G T T C A T

Dotplot (Window = 130 / Stringency = 9) Hemoglobin-chain Hemoglobin -chain

Dotplot (Window = 18 / Stringency = 10) Hemoglobin-chain Hemoglobin -chain

Pairwise Sequence Alignment • Principles of pairwise sequence comparison • global / local alignments • scoring systems • gap penalties • Methods of pairwise sequence alignment • window-based approaches • dynamic programming approaches • Needleman and Wunsch • Smith and Waterman

Dynamic Programming Procedimiento automático que encuentra el mejor alineamiento con un score óptimo dependiendo de los parámetros elegidos. Soluciones recursivas. Los problemas pequeños se solucionan primero y las soluciones se usan para resolver problemas mayores despues. Las soluciones intermedias se almacenan en matrices tabulares.

Principios básicos de la programación dinámica • Initialization of alignment matrix: the scoring model • - Stepwise calculation of score values • (creation of an alignment path matrix) • - Backtracking (evaluation of the optimal path)

Initialization of Matrix (BLOSUM 50) H E A G A W G H E E P -2 -1 -1 -2 -1 -4 -2 -2 -1 -1 A -2 -1 5 0 5 -3 0 -2 -1 -1 W -3 -3 -3 -3 -3 15 -3 -3 -3 -3 H10 0 -2 -2 -2 -3 -2 10 0 0 E 0 6 -1 -3 -1 -3 -3 0 66 A -2 -1 5 0 5 -3 0 -2 -1 -1 E 0 6 -1 -3 -1 -3 -3 0 66

Needleman and Wunsch(global alignment) Sequence 1: H E A G A W G H E E Sequence 2: P A W H E A E Scoring parameters: BLOSUM50 matrix Gap penalty: Linear gap penalty of 8

Creation of an alignment path matrix Idea:Crear un alineamiento global optimo usando soluciones precias para alineamientos optimos de subsecuencias más pequeñas. • Construct matrix Findexed by i and j (one index for each sequence) • F(i,j) es el score para el mejor alineamiento entre el segmento inicial x1...ide x hasta xiy el segmento inicial y1...jde y hasta yj • construir F(i,j) de forma recursiva empezando con F(0,0) = 0 H - E - A P G - G - H H E E - A A A W W Optimal global alignment:

Creation of an alignment path matrix F(i, j) =F(i-1, j-1) + s(xi ,yj) F(i, j) = max F(i, j) = F(i-1, j) - d F(i, j) = F(i, j-1) - d F(i-1, j-1)F(i, j-1) F(i-1,j)F(i, j) HEAGAWGHE-E --P-AW-HEAE s(xi ,yj) -d -d

Creation of an alignment path matrix • If F(i-1,j-1), F(i-1,j) and F(i,j-1) are known we can calculate F(i,j) • Three possibilities: • xiand yj are aligned, F(i,j) = F(i-1,j-1) + s(xi ,yj) • xi is aligned to a gap, F(i,j) = F(i-1,j) - d • yjis aligned to a gap, F(i,j) = F(i,j-1) - d • The best score up to (i,j) will be the largest of the three options

Creation of an alignment path matrix H E A G A W G H E E 0 P A W H E A E -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 -8 -16 -24 -32 -40 -48 -56 Boundary conditions F(i, 0) = -id F(j, 0) = -jd

F(i, j) = F(i-1, j-1) + s(xi ,yj) F(i, j) = max F(i, j) = F(i-1, j) - d F(i, j) = F(i, j-1) - d F(0,0) + s(xi ,yj) = 0 -2 = -2 F(1,1) = max F(0,1) - d = -8 -8= -16 = -2 F(1,0) - d = -8 -8= -16 F(1,0) + s(xi ,yj) = -8 -1 = -9 F(2,1) = max F(1,1) - d = -2 -8 = -10 = -9 F(2,0) - d = -16 -8= -24 -2 -1 = -3 F(2,2) = max -10 -8 = -18 = -3 -9 -8 = -17 -8 -2 = -10 F(1,2) = max -16 -8 = -24 = -10 -2 -8 = -10 Stepwise calculation of score values H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 A -16 W -24 H -32 E -40 A -48 E -56 P-H=-2 E-P=-1 H-A=-2 E-A=-1 -2 -9 -10 -3

E E Backtracking H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1 0 -8 -16 -17 -25 -20 -5 -13 -3 3 -5 1 H - E - A P G - G - H H E E - A A A W W Optimal global alignment:

Alineamientos de secuencias

Alineamientos de secuencias

Presentation Transcript

DIAGRAMAS DE SECUENCIAS

Secuencias r pidas

Algoritmos para la Comparaci n de Secuencias de ADN

Alineamiento de secuencias múltiples

Ejemplos de secuencias

CAMBIOS Y SECUENCIAS

Un marco macro de secuencias inteligibles

SECUENCIAS DE ESTUDIO

La planificación: importancia de las secuencias didácticas

Modelos de máxima verosimilitud para secuencias de ADN

ALINEAMIENTOS SIMPLE Y MÚLTIPLE

Diagrama de clases y diagrama de secuencias

Comparación de secuencias (Sequence comparison)

Ejercicios de alineamiento de secuencias: CLUSTALW insertar secuencias de FASTA

IV Alineamiento múltiple de secuencias

Alineamiento de Secuencias Biológicas

SECUENCIAS DIDÁCTICAS

Alineamiento de secuencias Búsqueda de secuencias en bases de datos

Secuencias Didácticas

Grabación de secuencias y voz

III Alineamiento de Secuencias

Diagrama de secuencias