1 / 21

ALLINEAMENTO DI SEQUENZE

ALLINEAMENTO DI SEQUENZE Procedura per comparare due o piu’ sequenze, volta a stabilire un insieme di relazioni biunivoche tra coppie di residui delle sequenze considerate che massimizzino la similarita’ tra le sequenze stesse

paige
Télécharger la présentation

ALLINEAMENTO DI SEQUENZE

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ALLINEAMENTO DI SEQUENZE Procedura per comparare due o piu’ sequenze, volta a stabilire un insieme di relazioni biunivoche tra coppie di residui delle sequenze considerate che massimizzino la similarita’ tra le sequenze stesse L’allineamento tra due sequenze biologiche è utile per scoprire informazione funzionale, strutturale ed evolutiva

  2. 4 caratteri uguali 1 inserzione/delezione Cosa vuol dire allineare due sequenze (proteine o acidi nucleici)? Scrivere due sequenze orizzontalmente in modo da avere il maggior numero di simboli identici o simili in registro verticale anche introducendo intervalli (gaps – inserzioni/delezioni – indels) • seq1: TCATG • seq2: CATTG TCAT-G .CATTG

  3. ALLINEAMENTO DI SEQUENZE A COPPIE AGTTTGAATGTTTTGTGTGAAAGGAGTATACCATGAGATGAGATGACCACCAATCATTTC ||||||||||||||||||| |||||||| ||| | |||||| ||||||||||||||||| AGTTTGAATGTTTTGTGTGTGAGGAGTATTCCAAGGGATGAGTTGACCACCAATCATTTC MULTIPLO KFKHHLKEHLRIHSGEKPFECPNCKKRFSHSGSYSSHMSSKKCISLILVNGRNRALLKTl KYKHHLKEHLRIHSGEKPYECPNCKKRFSHSGSYSSHISSKKCIGLISVNGRMRNNIKT- KFKHHLKEHVRIHSGEKPFGCDNCGKRFSHSGSFSSHMTSKKCISMGLKLNNNRALLKRl KFKHHLKEHIRIHSGEKPFECQQCHKRFSHSGSYSSHMSSKKCV---------------- KYKHHLKEHLRIHSGEKPYECPNCKKRFSHSGSYSSHISSKKCISLIPVNGRPRTGLKTs

  4. Allineamento GLOBALE o LOCALE GLOBALE: considera la similarita’ tra due sequenze in tutta la loro lunghezza LOCALE: considera solo specifiche REGIONI simili tra alcune parti delle sequenze in analisi Globale LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK ||.  | |  |  .|     .|  ||  || | ||    TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHKAG Locale    LTGARDWEDIPLWTDWDIEQESDFKTRAFGTANCHK              ||||||||.||||             TGIPLWTDWDLEQESDNSCNTDHYTREWGTMNAHK ALLINEAMENTO GLOBALE ALLINEAMENTO LOCALE

  5. ALGORITMI PER L’ALLINEAMENTO DI SEQUENZEAlgoritmo di Needleman & Wunsch allineamento globaleAlgoritmo di Smith & Waterman allineamento locale

  6. MISURE DI IDENTITA’ E DI SIMILARITA’ Il modo piu’ semplice per definire le relazioni di similarita’ tra nucleotidi e’ basato solo su IDENTITA’ e DIVERSITA’. La piu’ semplice matrice di similarita’ per i nucleotidi e’ la “UNITARY SCORING MATRIX”, matrice che assegna punteggio 1 a coppie di residui identici e 0 ai mismatches. A C G T --------- A | 1 0 0 0 C | 0 1 0 0 G | 0 0 1 0 T | 0 0 0 1 Possono esserci altri criteri per dare un peso diverso da zero a matches tra residui non identici (ad.es. pesare in modo diverso transizioni e transversioni)

  7. MISURE DI IDENTITA’ E DI SIMILARITA’ • E’ possibile misurare la similarita’ tra aminoacidi tenendo conto delle loro proprieta’ chimico-fisiche • ad. es. l’ acido glutammico e’ piu’ simile all’acido aspartico che alla fenilalanina • Un altro modo per misurare la similarita’ tra aminoacidi e’ fondato sulle frequenze osservate di specifiche sostituzioni aminoacidiche in opportuni gruppi di allineamenti. • La similarita’ tra due specifici aminoacidi, diciamo A e G, e’ proporzionale alla frequenza con cui si osserva la sostituzione A->G. • Le MATRICI DI SOSTITUZIONE piu’ conosciute ed utilizzate sono le matrici PAM (o Dayhoff Mutation Data (MD) Matrices) e le matrici BLOSUM.

  8. AKRANR KAAANK -1 + (-1) + (-2) + 5 + 7 + 3 = 11 Matrici di sostituzione • Le matrici di sostituzione si basano su evidenze biologiche • Le differenze che si osservano tra sequenze omologhe negli allineamenti sono riconducibili ad eventi di mutazione • Alcune di queste mutazioni hanno effetti trascurabili sulla struttura/funzione della proteina

  9. Ricerca di omologia Percentuale di omologia RICERCA DI SIMILARITÀ SIMILARITA’ ? OMOLOGIA OMOLOGIA proprieta’ di caratteri (sequenze) dovuta alla loro derivazione dallo stesso antenato comune SIMILARITA’ “grado” di somiglianza tra 2 sequenze La similarita’ osservata tra due sequenze PUO’ indicare che esse siano omologhe, cioe’ evolutivamente correlate La similarita’ e’ una proprieta’ quantitativa, si puo’ misurare L’omologia e’ una proprieta’ qualitativa, non si puo’ misurare. La similarita’ tra sequenze si osserva, l’omologia tra sequenze si puo’ ipotizzare in base alla similarita’ osservata. Percentuale di similarita’ Ricerca di similarita’

  10. OMOLOGIA E OMOPLASIA Omologia similarita’ dovuta a derivazione dallo stesso antenato comune Omoplasia similarita’ dovuta a convergenza, stessa pressione selettiva su due linee evolutive puo’ condurre a caratteri simili ORTOLOGIA E PARALOGIA OMOLOGIA ANTENATO COMUNE ORTOLOGIA PARALOGIA PROCESSO DI SPECIAZIONE DUPLICAZIONE GENICA Descrivo le relazioni tra geni di una famiglia intraorganismo (paralogia) o tra diversi organismi (ortologia)

  11. BLAST • Basic Local Alignment Search Tool • (Altschul 1990) • L’ algoritmo di BLASTe’ euristico e opera: • Tagliando le sequenze da comparare in piccoli pezzi (parole) • Ignorando tutte le coppie di parole (sequenza query/database) la cui comparazione da’ un punteggio inferiore ad un limite fissato • Cercando di estendere tutte le hits rimanenti sino a che l’allineamento locale raggiunge un certo punteggio Dati una SEQUENZA QUERY ed un DATABASE DI SEQUENZE, BLAST ricerca nel database “parole” di lunghezza almeno “W” con un punteggio di similarita’ di almeno “T” una volta allineate con la sequenza “query” (HSP, High Scoring Pairs). Le “parole” selezionate vengono estese, se possibile, fino a raggiungere un punteggio superiore a “S” oppure un “E-value” inferiore al limite specificato.

  12. Significatività di un allineamento La SIGNIFICATIVITA’ di ciascun allineamento viene definita da:- P valuee’ la probabilita’ di ottenere un allineamento con punteggio uguale o migliore di quello osservatoSi calcola mettendo in relazione il punteggio osservato (S) con la distribuzione attesa di HSP quando si comparano sequenze random della stessa lunghezza e composizione di quella in analisi (query sequence)Piu’ il P value e’ vicino a 0 piu’ e’ significativo (2x10-245 e’ meglio do 0.001 !!!)- E value e’ il numero atteso di allineamenti con punteggio uguale o migliore di quello osservato(Piu’ e’ basso piu’ e’ buono!) Sequenze allineate Osservazione ATTGCCCACGTTCGCGATCG ATAGGGCACTTT-GCGATGA ** * *** ** ***** OMOLOGIA? Ipotesi alternative CASO?

  13. Ripetere (es. 10.000 volte) salvando tutti i punteggi Sequenze randomizzate Allineamento (matrice Blosum62, gap=-11) Score = 9 C D V Y - C Seq1 Seq2 Seq1 Seq2 C V E Y L C Score 9 -3 -2 7 -11 9 Significatività di un allineamento Sequenze originali Allineamento (matrice Blosum62, gap=-11) Score = 20 Seq1 V D C - C Y Seq2 V E C L C Y Score 4 2 9-11 9 7 Seq1 Seq2 V D C C Y V E C L C Y C D V Y C C V Y L E C Distribuzione score casuali Frequenza Score allineamento (20) Score

  14. Usare BLAST OPZIONI Sequenza query nucleotidica proteica (sequenza in formato FASTA, GenBank Accession numbers o GI numbers) Database database di seq. nucleotidiche database di seq. proteiche Programma Standard BLAST (blastn) Standard protein BLAST (blastp) translated blast (blastx, tblastn, tblastx) MEGABLAST PSI-BLAST PHI-BLAST … Blast selection table http://www.ncbi.nlm.nih.gov/BLAST/producttable.shtml

  15. Usare BLAST database di seq. nucleotidiche nr All GenBank+EMBL+DDBJ+PDB sequences (but no EST, STS, GSS, or phase 0, 1 or 2 HTGS sequences). No longer "non- redundant". est Database of GenBank+EMBL+DDBJ sequences from EST division. est_human est_mouse htgs Unfinished High Throughput Genomic Sequences yeast Saccharomyces cerevisiae genomic nucleotide sequences mito Database of mitochondrial sequences vector Vector subset of GenBank(R), NCBI, in month All new or revised GenBank+EMBL+DDBJ+PDB sequences alu Select Alu repeats from REPBASE, suitable for masking Alu repeats from query sequences. dbsts Database of GenBank+EMBL+DDBJ sequences from STS division. chromosome Searches Complete Genomes, Complete Chromosome, or contigs form the NCBI Reference Sequence project.

  16. Usare BLAST PROGRAMMI Blastn Nucleotidequery - Nucleotide db Blastp Protein query - Protein db Translating BLASTattraverso la traduzione concettuale della query sequence o dei database permette di comparare una sequenza nucleotidica con database di proteine o viceversa. Translated query - Protein dbblastx Protein query - Translated db tblastn Translated query - Translated db tblastx MEGABLAST usa un algoritmo greedy (ingordo) veloce ed ottimizzato per comparare sequenze che differiscono poco Search for short nearly exact matches blastn con parametri scelti in modo da ottimizzare la ricerca di matches quasi esatti e brevi. Questi si trovano spesso per caso, percio’ utilizza alto E-value, piccola dimensione della parola e filtering PSI-BLAST Find members of a protein family or build a custom position- specific score matrix PHI-BLAST Find proteins similar to the query around a given pattern

More Related