Alinhamento de Seqüências

Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Alinhamento de Seqüências Samuel Mazzinghy Alvarenga

DNA Proteína Estrutura Função Análise de Seqüências

Possíveis Estratégias • Isolamento do gene e análise do seu produto no laboratório • Comparação de seqüências com bancos de dados de seqüências e identificação de genes por homologia

Alinhamento de seqüências Um dos objetivos do alinhamento é determinar quando duas seqüências são suficientemente similares que justifiquem uma inferência de homologia. A partir de um alinhamento podemos inferir se duas seqüências biológicas estão evolutivamente relacionadas ou não

Similaridade x Homologia Por similaridade entende-se como uma quantidade que expressa esse conceito intuitivo. Homologia, por outro lado, refere-se ao fato de dois genes partilharem ou não uma história evolutiva comum.

Estratégia geral Após o seqüênciamento é possível reconhecer uma semelhança entre a nova seqüência e uma seqüência sobre a qual já existe alguma informação O uso de algoritmos permite comparar uma seqüência ‘objeto’ com um banco de dados de seqüências;

Estratégia geral A comparação é feita alinhando-se a seqüência ‘objeto’ a seqüências ‘alvo’ de um banco de dados; A cada comparação é dado um valor, que é a medida de similaridade entre um par de seqüências; A discriminação entre pares reais e artificiais é feita através de uma estimativa da probabilidade que o pareamento tenha ocorrido ao acaso.

Ou seja : O valor do alinhamento é a soma dos valores correspondentes a todos os caracteres alinhados, mais os valores correspondentes aos espaçamentos Função de Mérito No contexto da Bioinformática o objetivo é obter o alinhamento com o maior significado biológico O valor atribuído a cada alinhamento é calculado utilizando a seguinte expressão: sendo s(s1(i),s2(i)) o valor associado ao alinhamento dos caracteres i das seqüências s1 e s2, e sendo G(g) o valor associado aos espaçamentos existentes

Pontuação do alinhamento A qualidade de cada par de seqüências alinhadas é representado por um valor - o score. • Score é o valor associado a um alinhamento, baseado em punições, relacionadas a gaps e a substituições, e em premiações, relacionadas a identidades. • Os valores das punições e premiações são obtidos através das matrizes de valores.

Estatística do alinhamento A significância estatística de um alinhamento é calculado pelo E-value E-value: Número de alinhamentos diferentes com scores equivalentes ou melhores que S que é esperado que ocorra numa busca num banco de dados por acaso. Quanto menor o E-value, mais significativo é o score. m = Tamanho do banco de dados n = Tamanho da query (sua pesquisa) s = Score

Matrizes de Valores • Matriz unitária - usada para dar valores à pares de nucleotídeos. • Matrizes de substituição - usadas para darem valores à substituições de pares de aminoácidos.

| | : | | | | : | | | | | | | | | | C L R I F N V F S G M Q W M A H T K R M S Score IDENTIDADE 16/21 = 76,19% SIMILARIDADE 18/21 = 85,71% IDENTIDADE : Resíduos iguais SIMILARIDADE : Resíduos iguais + resíduos parecidos Score, Identidade e Similaridade C L K I A N V F G G P Q W M A C T K R M S 9 4 2 4 -2 6 4 6 0 6 -2 5 11 5 4 -3 5 5 5 5 4 = 83

S-----LNSGYHFC SYQEGFL-S-FHFC Espaçamentos - GAPS SLNSGYHFC SYQEGFLSFHFC GAP

Penalidades Penalties Gap = -5 Gap extension = -2 Gap extension S-----LNSGYHFC : SYQEGFL-S-FHFC +4 -5 -2 -2 -2 -2 +4 -5 +4 -5 +3 +8 +6 +9 = 15

Métodos de Alinhamento Globais - Similaridade considerada ao longo de toda a extensão da seqüência - É apropriado para comparar seqüências cujas semelhanças sejam esperadas em toda a sua extensão - O alinhamento maximiza as regiões de semelhança e minimiza os espaçamentos Locais - As regiões de similaridade constituem uma fração da extensão da seqüência - É muito útil para fazer pesquisas em base de dados - É muito útil em situações onde não existe qualquer conhecimento sobre a semelhança entre as seqüências a comparar

Alinhamento Global x Local Alinhamento Global --T—-CC-C-AGT—-TATGT-CAGGGGACACG—A-GCATGCAGA-GAC | || | || | | | ||| || | | |||| | AATTGCCGCC-GTCGT-T-TTCAG----CA-GTTATG—T-CAGAT--C Alinhamento Local tccCAGTTATGTCAGgggacacgagcatgcagagac |||||||||||| aattgccgccgtcgttttcagCAGTTATGTCAGatc

Considere duas seqüências de tamanho n Pergunta: • Quantos possíveis alinhamentos existem entre as duas cadeias de caracteres? Resposta: • Se não for permitido espaçamentos, então existe apenas um alinhamento possível • Se forem permitidos espaçamentos, é necessário enumerar todos os alinhamentos entre todas as subseqüências das duas cadeias de caracteres

Pretende-se obter o melhor de todos Existem possíveis alinhamentos globais

duas seqüências de tamanho 1000 têm ~10600 alinhamentos possíveis Então... Para n = 20, temos cerca de 120 bilhões de alinhamentos possíveis Na prática pretendemos alinhar seqüências muito, mas muito mais longas Algumas proteínas têm mais de 1000 aminoácidos Os genes podem ter vários milhares de pares de bases

WEAGAWGHE-E P-A--W-HEAE WEAGAWGHE-E --P-AW-HEAE Exemplo S1 = WEAGAWGHEE S2 = PAWHEAE Desigualdade (mismatch) Igualdade (match) Espaçamento (gap) Qual o melhor ???

Ferramenta matemática Alinhamento de Par de Seqüências Programação Dinâmica Busca de solução de problemas de otimização por meio de uma seqüência de subproblemas semelhantes

Programação Dinâmica (DP) Algoritmo que permite obter alinhamentos ótimos utilizando funções de mérito aditivas Tradução : O valor do alinhamento é a soma dos valores correspondentes a todos os caracteres alinhados, mais os valores correspondentes aos espaçamentos Estes algoritmos garantem como solução o melhor alinhamento ou o melhor conjunto de alinhamentos

Programação Dinâmica (DP) Utiliza a informação conseguida anteriormente para obter a nova informação Novo melhor alinhamento = melhor alinhamento anterior + melhor local Melhor alinhamento anterior Seqüência A Seqüência B

Programação Dinâmica (DP) Problema:Alinhamento_par_seqüência Entrada:Duas seqüências x,y Matriz de mérito s(x,y) Valor do espaçamento d Saída:O melhor alinhamento

EXEMPLO: Duas seqüências de aminoácidos x: HEAGAWGHEE y: PAWHEAE d = -8 (gap, penalidade, espaçamento) s(xi,yj) = BLOSUM50

Alinhamento Global: Algoritmo Needleman-Wunsh (1970) Idéia: Construir um alinhamento ótimo utilizando soluções ótimas obtidas anteriormente para subseqüências menores • Constrói uma matriz F com índices i e j, um para cada Seqüência • O valor F(i,j) representa o melhor obtido pela função de mérito para o alinhamento de x1...i com y1...j • Constrói F(i,j) de uma forma recursiva

Matriz F i j

Esquema do Algoritmo Iniciar primeira linha e coluna da matriz : F(1,0) = -1x8 = -8 ; F(2,0) = -2x8 = -16 ... F(10,0) = -10x8 = -80 H E A G A W G H E E F(0,0) = 0, F(i,0) = -id, F(0,j) = -jd 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 A -16 W -24 H -32 F(0,1) = -1x8 = -8 F(0,2) = -2X8 = -16 ... F(0,7) = -7x8 = -56 E -40 A -48 E -56

F(i - 1, j - 1) + s(xi, yi) F(i - 1, j) + d F(i, j - 1) + d F(i, j) = máx. Ou seja : Valor da célula diagonal + valor da pontuação F(i-1,j-1) F(i,j-1) Valor da célula acima + valor do gap s(xi,yj) -d -d Valor da célula ao lado + valor do gap F(i-1,j) F(i,j) Esquema do Algoritmo Preencher o resto da matriz de cima para baixo, e esquerda para a direita usando a seguinte relação de recorrência:

Em caso de valores iguais, obedecer a prioridade> > Esquema do Algoritmo Colocar uma seta apontando a célula de maior score (valor de máx.) Exemplo: H E A G A W G H E E F(1,1) Acima = -8 -8 = -16 Diagonal = 0 -2 = -2 Ao lado = -8 -8 = -16 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -41 -49 -57 -65 -73 A -16 W -24 F(4,1) Acima = -32 -8 = -40 Diagonal = -24 -2 = -26 Ao lado = -17 -8 = -25 H -32 E -40 A -48 E -56

Esquema do Algoritmo F(m, n) tem a pontuação de alinhamento ótima H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -41 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 Melhor score para o alinhamento H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1

Esquema do Algoritmo Refazer o caminho de volta desde F(m, n) até F(0, 0) para recuperar o alinhamento. H E A G A W G H E E = Ambas 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -41 -49 -57 -65 -73 = gap em cima A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 = gap embaixo W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 Alinhamento: E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 H E A G A W G H E E - A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2 E A W H E - - P - - A E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1

Score do alinhamento final WEAGAWGHE-E --P-AW-HEAE -8 -8 -1 -8+5 +15-8+10 +6-8+6 = 1

Alinhamento Local Útil para comparar seqüências de proteínas que partilham um motivo (padrão conservado) ou domínio (unidade independente enrolada) mas que diferem no restante da seqüência Útil para comparar seqüências de DNA que partilham um motivo (padrão conservado) mas que diferem no restante da seqüência Mais preciso para comparar seqüências que divergiram muito

Alinhamento Local

Alinhamento Local Muito parecido com o alinhamento global • Duas diferenças: • F(i,j) tem valor 0 se as outras opções têm valor menor que 0 • Corresponde a iniciar um novo alinhamento • A primeira coluna e a primeira linha é preenchida com 0s • Um alinhamento pode ser terminar em qualquer lugar na matriz • Procurar o valor mais alto de F(i,j) ao longo de toda a matriz • Começar a refazer o caminho de volta a partir desse ponto

0 F(i - 1, j - 1) + s(xi, yi) F(i - 1, j) + d F(i, j - 1) + d F(i, j) = máx. Alinhamento Local Algoritmo de Smith-Waterman, 1981

Exemplo: F(3,2) Acima = 0 -8 = -8 0 Diagonal = 0 +5 = 5 Ao lado = 0 -8 = -8 0 F(5,7) Acima = 5 -8 = -3 0 Diagonal = 13 -1 = 12 Ao lado = 18 -8 = 10 Esquema do Algoritmo Colocar uma seta apontando a célula de maior score (valor de máx.) H E A G A W G H E E 0 0 0 0 0 0 0 0 0 0 0 P 0 0 0 0 0 0 0 0 0 0 0 A 0 0 0 5 0 5 0 0 0 0 0 W 0 0 0 0 2 0 20 12 4 0 0 H 0 10 2 0 0 0 12 18 22 14 6 E 0 2 16 8 0 0 4 10 18 28 20 A 0 0 8 21 13 5 0 4 10 20 27 E 0 0 6 13 18 12 4 0 4 16 26

Esquema do Algoritmo Começa do maior score e faz o caminho de volta até o primeiro 0 H E A G A W G H E E = Ambas 0 0 0 0 0 0 0 0 0 0 0 P 0 0 0 0 0 0 0 0 0 0 0 = gap em cima A 0 0 0 5 0 5 0 0 0 0 0 = gap embaixo W 0 0 0 0 2 0 20 12 4 0 0 H 0 10 2 0 0 0 12 18 22 14 6 Alinhamento: AWGHE AW-HE E 0 2 16 8 0 0 4 10 18 28 20 A 0 0 8 21 13 5 0 4 10 20 27 E 0 0 6 13 18 12 4 0 4 16 26

Alinhamento Heurístico Os algoritmos de programação dinâmica descritos encontram uma solução ótima Esses algoritmos são desenvolvidos para encontram o melhor score Entretanto, eles não são métodos de alinhamento rápidos • Base de dados de proteínas atual: 100 milhões de resíduos aproximadamente • seqüência de tamanho 1000 => matriz com 1011 células • 106 células por segundo => 3 horas

Alinhamento Heurístico Alinhamento ótimo: produz o melhor resultado computacionalmente possível Alinhamento heurístico: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz A abordagem heurística sacrifica a sensibilidade • Os algoritmos podem perder o alinhamento de melhor score Algoritmos mais conhecidos: - BLAST (Basic Local Alignment Search Tool) - FASTA

BLAST (Altschul et al, 1990) Dizem que o trabalho original onde a ferramenta foi publicada é o mais citado da história das ciências biológicas

BLAST Conjunto de programas utilizados para execução de buscas por similaridades estatisticamente significantes em bancos de dados de seqüências É a ferramenta de alinhamento mais conhecida e utilizada no mundo É um algoritmo de alinhamento simples, heurístico e local

Formato da Seqüência de Entrada Banco de dados Formato da seqüência que é comparado Programa BLAST adequado Nucleotídeos Nucleotídeos Nucleotídeos BLASTn Proteínas Proteínas Proteínas BLASTp Nucleotídeos Proteínas Proteínas BLASTx Proteínas Nucleotídeos Proteínas TBLASTn Nucleotídeos Nucleotídeos Proteínas TBLASTx BLAST Consiste em diferentes subprogramas

BLAST Outros programas : PSI-BLAST (Position-Specific Iterated) Executa um BLAST normal, depois realiza um alinhamento multiplo e constrói uma “Specific Scoring Matrix”, que é utilizada para uma segunda busca do BLAST. Se novos matches são encontrados, uma nova matriz é feita e o processo repetido Permite comparar proteínas fracamente relacionadas, mas com regiões bem conservadas. Para cada posição da seqüência usada como query, um valor é associado para cada resíduo. Quanto mais conservado o resíduo, maior o score.

PSI-BLAST (Position-Specific Iterated) • Compara a query com um banco de proteínas. • É construído um alinhamento múltiplo, e a partir deste um perfil(seqüência + matriz de pontuação). • O perfil é comparado com o banco de proteínas em busca de alinhamentos locais. • PSI-BLAST estima a significância estatística dos alinhamentos encontrados. • Finalmente, PSI-BLAST retorna ao passo 2por um número arbitrário de vezes, até convergir.

PHI-BLAST (Pattern Hit Initiated) Busca matches de padrões dentro da seqüência (algumas vezes motifs, mas nem sempre) que são utilizados para iniciar os alinhamentos. Obs: o padrão tem que acontecer dentro da seqüência de busca PHI-BLAST espera como input uma seqüência de proteína e um padrão (pattern) contido nessa seqüência. PHI-BLAST procurara por outras seqüências de proteína que também contêm o padrão da entrada e têm a similaridade significativa à query na vizinhança das ocorrências do teste padrão.

PHI-BLAST (Pattern Hit Initiated) O significado estatístico é relatado usando E-values como nos outros formulários do BLAST, mas o método estatístico para computar os E-values é diferente. PHI-BLAST é integrado com o PSI-BLAST, de modo que os resultados de uma pergunta de PHI-BLAST possam ser usados iniciar um ou mais rounds de procuras no PSI-BLAST.

PHI-BLAST (Pattern Hit Initiated)

Alinhamento de Seqüências

Alinhamento de Seqüências

Presentation Transcript

UniCEUB - Centro Universit rio de Bras lia Faculdade de Ci ncias Sociais Aplicadas Curso de Comunica o Social Professor

Pr ticas baseadas em evid ncias cient ficas no parto e nascimento: experi ncia na Maternidade Risoleta Tolentino Neves

Introdu o

A GEST O DE RECURSOS HUMANOS PERSPECTIVAS E TEND NCIAS

Subst ncias i nicas

Tend ê ncias do GNL no cenário internacional

Principais algoritmos de alinhamento de sequências genéticas

Desenvolvimento dos programas de estudo

Papiloscopia

DEZ ANOS DE EVOLU O DE ASPILS: EXPERI NCIAS E DESAFIOS DE POL TICA O CASO DE CONFEC ES DE CAMPINA GRANDE Paulo Fe

VELHAS E NOVAS VIOL NCIAS CONTRA A MULHER

Universidade federal do rio grande - furg curso de p s-gradua o lato sensu em ci ncias cont beis xiii conven o de cont

POL TICAS SUPRANACIONAIS DE INFORMA O: Resultados e Perspectivas das Confer ncias Mundiais

REQUIMTE - Departamento de Qu mica, Faculdade de Ci ncias e Tecnologia, Universidade Nova de Lisboa, 2829-516 Caparica,

Universidade Federal de Alfenas UNIFAL-MG Faculdade de Ci ncias Farmac uticas

Ana Clara Mour o Moura Depto Cartografia Instituto de Geoci ncias Universidade Federal de Minas Gerais

CONTROLE EXTERNO e AG NCIAS REGULADORAS DE SERVI OS P BLICOS

Capitulo IX Bem-Aventurados os Que São Brandos e Pacificos

ENQUADRAMENTO TEÓRICO ALINHAMENTO ESTRATÉGICO DE GESTÃO DE PESSOAS

Juliane Sempionatto

Alinhamento Múltiplo de SeqUências Utilizando Algoritmos Genéticos

Métodos de alinhamento de sequências biológicas mcarazzo@lge.ibi.unicamp.br