Bioinformatica

Bioinformatica Giulio Pavesi Dip. Scienze Biomolecolari e Biotecnologie Università di Milano giulio.pavesi@unimi.it

Riassunto puntata in laboratorio • Per “mappare” sequenze sul genoma abbiamo usato uno strumento chiamato “Blat” • “Blat” allinea sequenze di nucleotidi con sequenze di nucleotidi, ma anche sequenze di amino acidi con traduzioni (in tutti i 6 modi possibili) delle sequenze genomiche • Blat trova non solo regioni in cui riesce a mappare completamente il trascritto/proteina, ma anche quelle in cui li mappa parzialmente con una percentuale di identità “significativamente” alta

I geni “HH” SHH UOMO SHH TOPO DHH UOMO DHH TOPO IHH UOMO IHH TOPO HH DROSOPHILA

Sugar Suiker Sucre Zucker Zuckre Sokker Zucchero Açucar Azucar Sakari Sukkar Europa, circa 700 dC

L’evoluzione delle parole • Tutte le parole delle lingue moderne che indicano lo “zucchero” discendono da una parola antenata comune • Tutte dalla stessa (“sukkar” - parola usata dagli arabi), alcune da un’antenata più vicina nel tempo (“zuckre” in Francia) • Ma... dopotutto...

L’evoluzione molecolare • Ipotesi: tutte le specie esistenti discendono da specie “antenate” • Nel corso dell’evoluzione, da una specie possono nascere una o più specie diverse (speciazione) • Allora, dovremmo essere in grado di trovare “tracce” dell’evoluzione... nel DNA! • Se una specie discende da un’altra, allora il suo DNA è simile a quello della specie “antenata”, con - ovviamente - delle variazioni • Più la speciazione è vicina nel tempo, più il DNA (in sequenza) è “simile” • Più due specie hanno DNA simile, più la loro storia evolutiva è simile, e la relativa speciazione vicina nel tempo • Applicando questo principio, è allora possibile...

L’albero della vita

Il - “vero” - albero della vita Quale sequenza (o gene) si potrebbe usare per confrontare tra loro TUTTE le specie?

L’evoluzione molecolare • Geni: una specie eredita (con variazioni) il DNA (e i geni) di una specie antenata • Geni: in generale corrispondono alle regioni del DNA più conservate dall’evoluzione • Quindi: specie “vicine” (che hanno “antenati” vicini) hanno DNA e soprattutto geni più “simili” • Visto che possiamo rappresentare i geni con regioni del DNA (o con le proteine che esse codificano), allora specie “vicine” avrranno regioni del DNA più simili, o proteine più simili • .... ma, come lavora l’evoluzione sul DNA di un organismo? Cosa intendiamo con “simili”?

L’evoluzione delle parole • Immaginiamo di non conoscere le parole “antenate” dello zucchero, e di doverci chiedere se due parole moderne in due lingue differenti sono “simili” tra loro SUGAR SUGR SUCR SUCRE

Allineamento • L’”allineamento” è un modo di rappresentare schematicamente i legami evolutivi tra due o più parole (o sequenze), indicando sostituzioni, inserzioni e cancellazioni S U G A R - S U C - R E Inserzioni (cancellazioni) Sostituzione (mutazione)

S U G - A R - S U C – - R E Z U C K E R - S O K K E R - AZ U C -A R - S A K - A R I Aç U C - A R - -------------------- - S U C(K)A R - Allineamento (multiplo)

Allineamenti • Quando abbiamo a che fare con sequenze biologiche, possiamo allineare sia sequenze nucleotidiche che sequenze proteiche (o la traduzione in aa di una sequenza nucleotidica) • Con l’allineamento cerchiamo di evidenziare i legami evolutivi tra due o più sequenze (se ci sono!) • Quando si allineano proteine, occorre considerare il fatto che alcuni aa sono chimicamente/fisicamente più simili di altri (la loro catena laterale è simile) e quindi portano a sostituzioni (teoricamente) meno “dannose” per la struttura/funzione della proteina • In pratica, quello che si misura è la similarità tra due o più sequenze quanto due o più sequenze sono “conservate” (dall’evoluzione)

SHH uomo vs SHH topo SSH_UOMO -MLLLARCLLLVLVSSLLVCSGLACGPGRGFGKRRHPKKLTPLAYKQFIPNVAEKTLGAS SSH_TOPO MLLLLARCFLVILASSLLVCPGLACGPGRGFGKRRHPKKLTPLAYKQFIPNVAEKTLGAS :******:*::*.******.*************************************** SSH_UOMO GRYEGKISRNSERFKELTPNYNPDIIFKDEENTGADRLMTQRCKDKLNALAISVMNQWPG SSH_TOPO GRYEGKITRNSERFKELTPNYNPDIIFKDEENTGADRLMTQRCKDKLNALAISVMNQWPG *******:**************************************************** SSH_UOMO VKLRVTEGWDEDGHHSEESLHYEGRAVDITTSDRDRSKYGMLARLAVEAGFDWVYYESKA SSH_TOPO VKLRVTEGWDEDGHHSEESLHYEGRAVDITTSDRDRSKYGMLARLAVEAGFDWVYYESKA ************************************************************ SSH_UOMO HIHCSVKAENSVAAKSGGCFPGSATVHLEQGGTKLVKDLSPGDRVLAADDQGRLLYSDFL SSH_TOPO HIHCSVKAENSVAAKSGGCFPGSATVHLEQGGTKLVKDLRPGDRVLAADDQGRLLYSDFL *************************************** ******************** SSH_UOMO TFLDRDDGAKKVFYVIETREPRERLLLTAAHLLFVAPHNDSATGEPEASSGSGPPSGGAL SSH_TOPO TFLDRDEGAKKVFYVIETLEPRERLLLTAAHLLFVAPHND-----------SGPTPG--- ******:*********** ********************* ***..* SSH_UOMO GPRALFASRVRPGQRVYVVAERDGDRRLLPAAVHSVTLSEEAAGAYAPLTAQGTILINRV SSH_TOPO -PSALFASRVRPGQRVYVVAERGGDRRLLPAAVHSVTLREEEAGAYAPLTAHGTILINRV * *******************.*************** ** *********:******** SSH_UOMO LASCYAVIEEHSWAHRAFAPFRLAHALLAALAPARTDRGGDSGGGDRGGGGGRVALTAPG SSH_TOPO LASCYAVIEEHSWAHRAFAPFRLAHALLAALAPARTD----------GGGGGSIP-AAQS ************************************* ***** :. :* . SSH_UOMO AADAPGAGATAGIHWYSQLLYQIGTWLLDSEALHPLGMAVKSS SSH_TOPO ATEARGAEPTAGIHWYSQLLYHIGTWLLDSETMHPLGMAVKSS *::* ** .************:*********::**********

SHH uomo vs SHH drosophila CLUSTAL W (1.81) multiple sequence alignment NP_000184 -----------------------------------------------------MLLLARC CG4637-RA MDNHSSVPWASAASVTCLSLDAKCHSSSSSSSSKSAASSISAIPQEETQTMRHIAHTQRC : ** NP_000184 L--------LLVLVSSLLVCSGLACGPGRGFGKRRHPKKLTPLAYKQFIPNVAEKTLGAS CG4637-RA LSRLTSLVALLLIVLPMVFSPAHSCGPGRGLG-RHRARNLYPLVLKQTIPNLSEYTNSAS * **::* .::.... :******:* *::.::* **. ** ***::* * .** NP_000184 GRYEGKISRNSERFKELTPNYNPDIIFKDEENTGADRLMTQRCKDKLNALAISVMNQWPG CG4637-RA GPLEGVIRRDSPKFKDLVPNYNRDILFRDEEGTGADRLMSKRCKEKLNVLAYSVMNEWPG * ** * *:* :**:*.**** **:*:***.*******::***:***.** ****:*** NP_000184 VKLRVTEGWDEDGHHSEESLHYEGRAVDITTSDRDRSKYGMLARLAVEAGFDWVYYESKA CG4637-RA IRLLVTESWDEDYHHGQESLHYEGRAVTIATSDRDQSKYGMLARLAVEAGFDWVSYVSRR ::* ***.**** **.:********** *:*****:****************** * *: NP_000184 HIHCSVKAENSVAAKSGGCFPGSATVHLEQGGTKLVKDLSPGDRVLAADDQGRLLYSDFL CG4637-RA HIYCSVKSDSSISSHVHGCFTPESTALLESGVRKPLGELSIGDRVLSMTANGQAVYSEVI **:****::.*:::: ***. .:*. **.* * : :** *****: :*: :**:.: NP_000184 TFLDRDDGAKKVFYVIETREPRERLLLTAAHLLFVAPHNDSATGEPEASSGSGPPSGGAL CG4637-RA LFMDRN---------LEQMQNFVQLHTDGGAVLTVTPAHLVSVWQPESQK---------- *:**: :* : :* .. :* *:* : :. :**:..

Confrontare le sequenze • L’allineamento “classico” misura il numero di variazioni tra una sequenza e l’altra - simulando un distanza “evolutiva” • Problema: come fare a far capire a un programma per computer quali sono gli aa conservati e quali le sostituzioni, e così via, tra tutti i modi possibili in cui due (o più) sequenze possono essere allineate? • Non tutte le variazioni sono equivalenti: alcune sono quasi “impercettibili”, altre sono più“dannose” • Esempio: sostituire una glicina con un triptofano è molto più“dannoso” che sostituirla con un’alanina

Misurare la similarità • Quando sostituisco un nucleotide all’interno di una regione codificante, l’effetto dipende dalla sua posizione all’interno del codone • CUU(Leu/L)LeucineCUC(Leu/L)LeucineCUA(Leu/L)LeucineCUG(Leu/L)Leucine • In questo caso, cambiando il terzo nucleotide, non cambia nulla (mutazioni “silenti”)

Misurare la similarità • Quando sostituisco un nucleotide all’interno di una regione codificante, l’effetto dipende dalla sua posizione all’interno del codone • AUU(Ile/I) IsoleucineAUC(Ile/I) IsoleucineAUA(Ile/I) IsoleucineAUG(Met/M) Methionine,Start • In questo caso, cambiando il primo nucleotide, ottengo amminoacidi non troppo differenti dalla leucina... il codice genetico sembra essere “robusto”, ma..

Mutazioni catastrofiche La mutazione di un nucleotide nel sesto codone dell’emoglobina-beta (una delle sequenze che vanno a costituire l’emoglobina), causa la sostituzione dell’amminoacido codificato, problemi nella struttura dell’ emoglobina stessa, e il cambiamento di forma dei globuli rossi, risultando nell’anemia falciforme

Mutazioni “pesate” • Quindi, quando allineo due sequenze di amminoacidi, mi devo chiedere: quanto è potenzialmente “catastrofico” per la struttura/funzione sostituire un amminoacido con un altro? • Cambiare l’amminoacido “sbagliato” può portare a una “loss of function” del gene • ... chi può dirlo? Difficile predire gli effetti che può avere una sostituzione sulla struttura/funzione..

Similarità tra amminoacidi

Mutazioni pesate • Approccio “empirico”: ho a mia disposizione tante sequenze ortologhe o paraloghe, altamente simili, e il rispettivo allineamento (facile da costruire - vedi es. SHH uomo contro SHH topo) • Allora, vedo quante volte ciascun amminoacido è sostituito da un altro: • se sono poche (rispetto alla media), allora la reputo una sostituzione dannosa • se sono tante (sempre rispetto alla media), allora la reputo una sostituzione “accettabile” • Lo stesso discorso vale anche per “quanto è frequente trovare un dato amminoacido conservato”

Mutazioni pesate • Matrici di sostituzione: assegnano un punteggio ad ogni coppia di amminoacidi: • Positivo: sostituzione evolutivamente “accettata” • Negativo: sostituzione evolutivamente “evitata” • Diverse matrici: quelle usate sono generalmente le “PAM” o le “BLOSUM” • PAM + numero: “Point accepted mutations” • PAM100: punteggio assegnato a mutazioni “accettate” dall’evoluzione in proteine a 100 passi evolutivi di distanza • BLOSUM + numero:“Blocks substitution matrix” • BLOSUM62: punteggio assegnato a mutazioni trovate in allineamenti di proteine con il 62% di identità

Un “block” conservato Si guarda quante volte un aa non muta, e quante volte è sostituito da un altro aa Questi parametri vengono convertiti in “punteggi” positivi o negativi per ogni coppia

Esempio: PAM 250

BLOSUM 62

Allineamenti • Quindi: stabilisco un punteggio di “similarità” per ogni possibile nucleotide/amminoacido conservato o mutato • Stabilisco una “penalità” (punteggio negativo) dovuta all’inserimento o alla cancellazione di lettere (detti “gap”) • I programmi che calcolano gli allineamenti tra sequenze cercano tra tutti quelli possibili l’allineamento che rende massimo il punteggio di similarità • Il punteggio dell’allineamento è dato dalla somma dei punteggi (positivi o negativi) di ogni colonna (anche per i gap) e può essere a sua volta positivo o negativo

Similarità e funzione • Ricordandomi quanto appena discusso, se trovo due sequenze sufficientemente simili (a livello di gene/DNA, RNA o di proteina codificata) posso supporre che le proteine codificate abbiano strutture sufficientemente simili da avere in pratica la stessa funzione

Sequenze simili • Il principio fondamentale è “sequenze identiche hanno la stessa funzione; più due sequenze sono simili, più è probabile che abbiano la stessa funzione” • Geni con sequenza simile codificano proteine con sequenza simile • Proteine con sequenza simile assumono struttura simile • Quindi, se struttura  funzione, allora sequenze simili  funzione simile!

Sequenze simili • ... quanto può variare la sequenza di una proteina (e del gene corrispondente) per mantenere una funzione (quindi - anche una struttura) simile? • Risposta: proteine identiche per il 25% degli amminoacidi, possono formare strutture molto simili e avere funzione simile • (il che però non implica che il 25% di identità sia comunque garanzia di stessa struttura e stessa funzione) • Domini funzionali  più conservati • Parti “strutturali”  meno conservate (es: il “core” idrofobico, l’importante è che “fuori” non cambi nulla)

Sequenze e strutture • Nonostante il numero di sequenze sia nell’ordine dei milioni, i “fold” che si trovano in natura sono molti meno • Invece di fare “folding prediction” (dalla sequenza cerco di predire la struttura) spesso si fa “fold recognition” (cerco di assegnare alla sequenza che sto studiando una struttura già nota) • Se non riesco a trovare similarità sufficiente per tutta una sequenza, posso cercare per lo meno i “domini conservati” di cui conosco struttura e funzione

Bioinformatica

Bioinformatica

Presentation Transcript

Liefde, Licht en Bioinformatica

Bioinformatica Linguaggio Perl (2)

Bioinformatica I

Bioinformatica BioPerl

Bioinformatica Entrez Utilities

Laboratorio Bioinformatica

Bioinformatica

Bioinformatica Linguaggio Perl (1)

LA LAUREA MAGISTRALE IN BIOINFORMATICA

Bioinformatica

Bioinformatica

ANALISI BIOINFORMATICA DELLE PROTEINE

Bioinformatica Microarray

Software per la Bioinformatica

Bioinformatica

Bioinformatica Pictar – miRanda - TargetScan – miRiam

Bioinformatica Classificazione

Bioinformatica

Bioinformatica

Metodi Numerici per la Bioinformatica

Tecniche di Intelligenza Artificiale in Bioinformatica

Welkom bij Bioinformatica!