Análise Computacional de Seqüências Nucleotídicas e Protéicas

Análise Computacional de Seqüências Nucleotídicas e Protéicas BLAST Antonio Basílio de Miranda 24/11/2004 Adaptado por Marcos Catanho 10/05/2005

As Origens... • Rigorous Dynamic Programming: • Needleman & Wunsch (1970) • Smith & Waterman (1981) • Heuristics: • Lipman & Pearson (1985,1988) • Altschul et al. (1990,1997)

BLAST - Basic Local Alignment Search Tool • Provavelmente a ferramenta computacional mais utilizada em biologia molecular e bioinformática • Busca seqüências armazenadas nos bancos de dados pela similaridade entre a estrutura primária da seqüência query e as seqüências armazenadas no banco • Propriedades biológicas descritas para seqüências armazenadas podem ser transferidas para a seqüência query desde que suas estruturas primárias sejam semelhantes • O maior problema é definir um cut-off, um limite abaixo do qual as similaridades encontradas entre a query e os hits não sejam mais significativos

BLAST • É um método heurístico para alinhamentos locais • Projetado especialmente para buscas em bancos de dados • Idéia básica: bons alinhamentos irão conter pequenos trechos de combinações iguais

BLAST • Existem vários “sabores” e tipos de BLAST: • Nucleotídeo • Proteína • Traduzido • Genomas

BLAST • Nucleotídeo: • Nucleotídeo-nucleotídeo (blastn) • Megablast • Megablast descontínuo • Busca por hits curtos e quase perfeitos • Busca em cromatogramas

BLAST • Proteína: • Proteína-proteína (blastp) • Busca através da obtenção de perfis (PHI-BLAST e PSI-BLAST) • Busca por hits curtos e quase perfeitos • Busca em bancos de dados de domínios conservados (Smart, PFam e COG) (rps-blast) • Busca pela arquitetura de domínios (cdart)

PHI-BLAST e PSI-BLAST • PHI-BLAST: Em quais outras seqüências protéicas há ocorrência do padrão P e ao mesmo tempo estas seqüências são similares à query P na vizinhança do padrão? • PSI-BLAST: Construção de uma matriz de valores posição-específica (Position Specific Scoring Matrix, PSSM)

BLAST • Traduzido: • query traduzida x banco de dados de proteínas (blastx) • query de proteína x banco de dados traduzido (tblastn) • query traduzida x banco de dados traduzido (tblastx)

BLAST • Genomas: • Galinha, vaca, porco, cachorro, ovelha, gato • Amostras ambientais • Homem, camundongo, rato • Fugu rubripes, zebrafish • Insetos, nematódeos, plantas, fungos, malária • Genomas microbianos, outros genomas eucarióticos

BLAST - algoritmo • 1. Filtrar as regiões de baixa complexidade • 2. Fragmentar a seqüência query e as seqüências depositadas no banco de dados, criando “palavras“ (de comprimento 3 para proteínas e 11 para DNA) através do uso de uma janela deslizante MEFPGLGSLGTSEPLPQFVDPALVSS MEF EFP FPG PGL GLG

BLAST - algoritmo • 3. Utilizando uma matriz de substituição (PAM, BLOSUM), encontrar todas as “palavras” de tamanho W que obtenham, no mínimo, um no. de pontos (score) T quando comparadas com a seqüência query, criando uma lista de “palavras” de alta pontuação

(Parênteses – matrizes de substituição) • É uma matriz representando todas as possíveis trocas entre aminoácidos, onde um valor é atribuído a cada uma destas trocas • Esses valores são proporcionais à probabilidade de ocorrência de cada troca, tomando-se como base um determinado modelo evolutivo

(Parênteses – matrizes de substituição)

(Parênteses – matrizes de substituição) • PAM family: • Baseiam-se em alinhamentos globais de proteínas muito próximas • PAM1 é a matriz calculada a partir da comparação de seqüências com não mais do que 1% de divergência • As demais matrizes PAM são extrapolações da PAM1 • BLOSUM family: • Baseiam-se em alinhamentos locais de proteínas • BLOSUM 62 é a matriz calculada a partir da comparação de seqüências com não menos do que 62% de divergência • Todas as matrizes BLOSUM baseiam-se em alinhamentos observados; não há extrapolações

BLAST - algoritmo • 4. Procurar em cada seqüência depositada no banco de dados por uma ou mais ocorrências de cada “palavra” de alta pontuação. Cada uma destas ocorrências (hit) será uma “semente” para um alinhamento sem gaps • 5. Estender os hits em ambas as direções, na tentativa de gerar alinhamentos com score acima de um limiar S

BLAST - algoritmo • 5.1. BLAST original: extensão dos hits à esquerda e à direita da “semente”, sem gaps. Esta extensão irá continuar enquanto o score aumentar ou pelo menos continuar o mesmo. O alinhamento obtido é chamado HSP (High Scoring Pair) • 5.2. Atualmente: hits ao longo da mesma diagonal (Dot plot) com uma distância A entre os dois são reunidos e a extensão se dá com a seqüência maior obtida

(Parênteses – Dot Plots - matrizes de homologia)

BLAST - algoritmo • 6. Reter somente os HSPs com score acima do limiar S • 7. Determinar a significância estatística de cada alinhamento remanescente (p-value e E-value) • 8. Mostrar os alinhamentos locais (de acordo com Smith-Waterman)

Resultado (BLASTN)

Resultado (campo de busca)

Resultado (opções)

Resultado (formato)

Resultado (BLASTN) • O output é dividido em cinco partes: • 1. Header contendo a versão do BLAST, data da compilação, referência, RID, etc. • 2. Representação gráfica dos alinhamentos • 3. Sumário com uma descrição em uma linha de cada hit • 4. Os alinhamentos com seus respectivos parâmetros calculados • 5. Rodapé com a descrição detalhada dos parâmetros de busca empregados, o banco de dados, etc.

Resultado (header)

Resultado (graphical overview)

Resultado (one-line descriptions)

Resultado (links) • G: Gene • U: UniGene • E: GEO Profile (dados de expressão gênica e hibridização genômica obtidos por tecnologia high-throughput)

Resultado (alignments)

HSPs

Resultado (footer)

CDART

Análise Computacional de Seqüências Nucleotídicas e Protéicas

Análise Computacional de Seqüências Nucleotídicas e Protéicas

Presentation Transcript

SISTEMA COMPUTACIONAL PARA A NÁLISIS DE REGISTROS DE POZOS CON LA AUTOMATIZACIÓN DE INGRESO DE DATOS Y GRAFICACIÓN DE RE

Faculdade de Ciências Médicas de Minas Gerais - Belo Horizonte - FCMMG

Análise do ambiente interno

Ensaios clínicos / Profiláticos Randomizados: Desenho,Viéses e Análise.

DEA-Data Envelopment Analysis

Taller para Áreas Jurídicas sobre el Impuesto a la Renta EMPRESAS

TALLER DE LITIGACION Facultad de Ciencias Jurídicas Trelew, 2010

Manejo Zootécnico – Biotério Laboratório Análise Neuro Comportamental (LANEC) PUC-Rio.

ANÁLISE DE MODO DE FALHA POTENCIAL

Professor Mário Dantas

Visão Computacional Calibração de Câmeras

Prof. André Marcato

6 Metodologia para a Análise da Estratégia da Concorrência

PROT Ų MŪŠIS

Marie-Claude.Blatter@isb-sib.ch Swiss-Prot group, Geneva SIB Swiss Institute of Bioinformatics

Introducción a la Radiología-Imágenes Médicas .

MANEJO Y CONTROL DE RESIDUOS PELIGROSOS BIOLÓGICO INFECCIOSOS (RPBI)

RAD PROT PT 2 Radiobiology and Cells WEEK 7 – 9 RT 244 2006

Medicina Alternativa

BSc. Jun Sotelo Romero Unidad de Bioinformática y Biología Computacional LID-UPCH

Análise Estatística

Análise e Elaboração de Projetos