1 / 60

Analisi della struttura dell’RNA

Bioinformatica Corso di Laurea Specialistica in Informatica Analisi della struttura dell’RNA 27/04/2011. Analisi della struttura dell’RNA. La struttura dell’RNA Struttura dell’RNA mediante analisi comparativa Predizione della struttura secondaria: L’algoritmo di Nussinov

rossa
Télécharger la présentation

Analisi della struttura dell’RNA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. BioinformaticaCorso di Laurea Specialistica in InformaticaAnalisi della struttura dell’RNA27/04/2011

  2. Analisi della struttura dell’RNA • La struttura dell’RNA • Struttura dell’RNA mediante analisi comparativa • Predizione della struttura secondaria: L’algoritmo di Nussinov • Predizione della struttura secondaria: Minimizzazione dell’energia • Un tool per la predizione della struttura secondaria: Mfold

  3. L'RNA • L’RNA (Acido Ribonucleico) è un polimero organico costituito da ribonucleotidi. • E’ sintetizzato da enzimi detti RNA polimerasi, solitamente sulla base di uno stampo di DNA. • Esistono diversi tipi di RNA, ognuno dei quali svolge una determinata funzione. • L’mRNA (RNA Messaggero) trasporta l’informazione per la sintesi delle proteine dal nucleo al citoplasma. L’informazione principale sta nella sua sequenza, ma studi recenti hanno rivelato l’importanza della sua struttura nella regolazione dell’espressione genica.

  4. tRNA • I tRNA (RNA Transfer) sono in grado di riconoscere i codoni nelle sequenze di mRNA e di trasportare gli aminoacidi corrispondenti nei ribosomi, durante la sintesi proteica. • La loro struttura secondaria è ben determinata ed è fondamentale per la loro funzione.

  5. rRNA e ribozimi • L’rRNA (RNA Ribosomiale) è un costituente dei ribosomi ed ha funzione catalitica assieme alle proteine ribosomiali. • Gli RNA con funzione di catalizzatore sono generalmente chiamati Ribozimi (RNA-Enzimi) e tale funzione gli viene conferita dalla loro struttura tridimensionale. • Quindi questo tipo di RNA sono simili alle proteine, in quanto devono assumere una struttura particolare per poter svolgere la loro funzione. • Data la loro capacità di immagazzinare informazione e di partecipare alle reazioni chimiche, gli RNA sono considerati tra le molecole più antiche, ancor più di DNA e proteine.

  6. Il Backbone dell’RNA • La catena di RNA ha un backbone (scheletro) formato da gruppi zucchero-fosfato aventi come catene laterali le basi Adenina (A), Guanina (G), Citosina (C) e Uracile (U). • Le catene di RNA hanno lunghezza che varia solitamente tra le 100 e le 10000 basi, molto inferiore quindi a quella del DNA. • Esistono RNA a doppio e a singolo filamento; questi ultimi sono particolarmente interessanti, data la loro capacità di assumere strutture tridimensionali anche molto complesse.

  7. L’appaiamento delle basi • Appaiamenti canonici di Watson-Crick • Legami idrogeno A=U e GC • Wobbles • Legami idrogeno G=U (virtualmente stabili come A=U)

  8. I Wobble G=U • I legami G=U introducono una deformazione nella struttura dell’RNA. Tale deformazione produce un adattamento della struttura che promuove l’attività catalitica. • Esperimenti effettuati su molecole di tRNA, mostrano come i legami G=U siano indispensabili per lo svolgimento della funzione. • Infatti, la “correzione” di tali appaiamenti ad appaiamenti canonici di W/C, inattiva il tRNA impedendogli di funzionare correttamente. • Le coppie G=U sono meno stabili delle coppie canoniche e questo rende le molecole più reattive.

  9. La struttura secondaria dell’RNA • Si definisce struttura secondaria di una molecola di RNA il preciso ripiegamento bidimensionale adottato in seguito alla formazione di legami idrogeno tra coppie di basi complementari. • La struttura secondaria dell’RNA è considerata come una combinazione di diversi elementi strutturali, ciascuno dei quali contribuisce in modo indipendente all’energia libera della struttura complessiva. • La struttura secondaria di una molecola di RNA è definita come l’insieme di appaiamenti di basi, sij, tra i nucleotidi i e j, sempre con i<j. • Per una coppia di basi (i,j) si ha sempre j-i>3, ovvero ci sono sempre tre basi tra una coppia di basi appaiate. Questo perché lo scheletro dell’RNA non può ripiegarsi e tornare indietro in meno di 3 basi.

  10. La struttura secondaria dell’RNA

  11. La struttura secondaria dell’RNA • Due coppie di basi (i,j) e (h,k) con i<h possono essere: • Annidate, se i<h<k<j • Non correlate, se i<j<h<k • Collegate, se i<h<j<k • Due coppie di basi collegate formano uno collegamento incrociato detto pseudoknot: k h j i

  12. La struttura secondaria dell’RNA • Una struttura secondaria di RNA è un insieme di coppie di basi annidate o non correlate, privo quindi di basi collegate (pseudoknot). • Quindi una struttura secondaria di RNA può essere rappresentata mediante un grafo lineare senza intersezioni tra archi: • Ovviamente non tutti gli insiemi di coppie di basi rappresentano una struttura secondaria valida dal punto di vista dei vincoli chimico-fisici.

  13. Elementi strutturali • Oltre alle regioni duplex (a doppio filamento) dette stem, gli elementi base della struttura di un RNA sono: • Regioni a singolo filamento • Hairpins (forcine) • Bulge loops (protuberanze) • Mismatch • Internal loops • Giunzioni

  14. Le regioni “single-stranded” • Le regioni a singolo filamento consistono di nucleotidi non appaiati, alle estremità 5’ o 3’ della molecola o tra regioni “duplex” della struttura secondaria.

  15. Hairpins • Una forcina consiste in un duplex collegato da un loop. • Gli hairpin sono spesso siti di legame per le proteine e sono coinvolti nelle strutture terziarie di RNA. • La dimensione minima di un loop è di 3 basi, ma i loop di 4 o 5 nucleotidi sono i più stabili. • E’ possibile avere loop anche molto grandi.

  16. Bulge loops • Una protuberanza consiste di nucleotidi non appaiati su un filamento di un duplex nel quale il filamento opposto ha tutti i nucleotidi appaiati. • I bulge loops creano delle pieghe nella struttura della doppia elica del duplex, che dipendono dal tipo di nucleotidi coinvolti e da quelli nelle immediate vicinanze. • La distorsione introdotta dalle protuberanze può estendersi alle regioni duplex vicine.

  17. Mismatches • I mismatch consistono di due nucleotidi che non possono formare un legame canonico ma che instaurano un qualche tipo di legame o formano un loop di due nucleotidi (si “respingono”). • I wobble G=U possono essere classificati come dei “mismatch”. Tuttavia le deformazioni introdotte da tali legami non formano pieghe significative nello scheletro.

  18. Internal loops • I loop interni contengono 3 o più nucleotidi che non sono in grado di formare legami di W/C e contengono almeno un nucleotide spaiato su ciascun filamento. • I loop possono chiudersi instaurando legami non canonici o restare aperti, permettendo la formazione di interazioni terziarie con altre parti della molecola. • I loop possono essere simmetrici o asimmetrici; questi ultimi sono termodinamicamente meno stabili.

  19. Giunzioni • Le giunzioni contengono 3 o più regioni duplex con un numero variabile di nucleotidi spaiati che congiungono le eliche. • I nucleotidi spaiati nelle giunzioni controllano i legami tra le eliche e determinano la struttura tridimensionale della molecola.

  20. Rappresentazione a parentesi • La struttura secondaria di RNA può essere rappresentata attraverso stringhe nell’alfabeto {(, ., )}: • Nel caso evidenziato si avrà: UCCUAACAAGAGGA ((((......))))

  21. Rappresentazione a parentesi • Sia dato: UCCUAACAAGAGGA ((((......)))) • Ogni parentesi aperta corrisponde ad una parentesi chiusa, secondo una logica a “stack”. Le parentesi più interne si chiudono prima di quelle più esterne. • La parentesi relativa alla quarta base U si chiude con la parentesi relativa alla quart’ultima base C, e così via. • I punti indicano nucleotidi non appaiati.

  22. Analisi della struttura dell’RNA • La struttura dell’RNA • Struttura dell’RNA mediante analisi comparativa • Predizione della struttura secondaria: L’algoritmo di Nussinov • Predizione della struttura secondaria: Minimizzazione dell’energia • Un tool per la predizione della struttura secondaria: Mfold

  23. L’Evoluzione dell’RNA è vincolata dalla struttura • Molti RNA omologhi possiedono strutture simili senza tuttavia condividere una similarità di sequenza significativa. • Cambiamenti nella sequenza sono spesso tollerati purché delle mutazioni compensatorie mantengano la complementarietà delle basi appaiate. • La struttura rappresentata in figura è il consenso di un sito di legame per una proteina del fago R17. • Nella struttura rappresentata in figura, solo 4 nucleotidi sono specificati e 2 di essi sono degenerati (R = Purina, Y = Pirimidina).

  24. L’Evoluzione dell’RNA è vincolata dalla struttura (2) • Se volessimo ricercare tale regione in sequenze nucleotidiche, non avrebbe senso utilizzare un metodo di allineamento di sequenze standard. • Se cercassimo infatti la sequenza NNNNNNNRNNANYANNNNNNN nel genoma del fago MS2 (correlato ad R17) troveremmo ben 38 corrispondenze! • Tuttavia, aggiungendo informazioni sulle coppie appaiate nella struttura secondaria, troveremmo un solo match, nella regione di legame autentica.

  25. Ricavare la struttura dal confronto di sequenze • In un allineamento multiplo di RNA strutturalmente corretto, le coppie di basi conservate sono spesso rivelate dalla presenza di mutazioni compensatorie correlate frequenti. • E’ pertanto possibile predire in maniera abbastanza affidabile la struttura secondaria mediante analisi comparativa di sequenze correlate. • Le due posizioni evidenziate covariano mantenendo la complementarietà. Questa covariazione implica una coppia di basi.

  26. Raffinamenti iterativi • Ricavare la struttura corretta attraverso analisi comparativa richiede un allineamento multiplo strutturalmente corretto. • Ma ricavare un allineamento multiplo strutturalmente corretto richiede la conoscenza della struttura corretta! • La struttura viene dunque determinata mediante un processo di raffinamento iterativo. • Inizialmente viene eseguito un allineamento di sequenze senza informazioni strutturali e tale allineamento viene utilizzato per ricavare una struttura. • Tale struttura viene dunque utilizzata per riallineare le sequenze e ricavare una nuova struttura. • Il processo viene iterato finché la struttura si stabilizza.

  27. Analisi della struttura dell’RNA • La struttura dell’RNA • Struttura dell’RNA mediante analisi comparativa • Predizione della struttura secondaria: L’algoritmo di Nussinov • Predizione della struttura secondaria: Minimizzazione dell’energia • Un tool per la predizione della struttura secondaria: Mfold

  28. Predizione della struttura secondaria dell’RNA • A partire da una certa sequenza di RNA, si possono ricavare molte strutture secondarie plausibili, ed il numero di possibili strutture cresce esponenzialmente con la lunghezza della sequenza. • Una sequenza di sole 200 basi ha circa 1050 possibili strutture! • Occorre dunque distinguere tra strutture biologicamente corrette e strutture non corrette: • Attraverso una funzione di scoring che assegni alle strutture corrette il punteggio più alto; • Attraverso un algoritmo che permetta di valutare gli score di tutte le strutture possibili.

  29. L’algoritmo di Nussinov per la massimizzazione delle coppie di basi • L’algoritmo di Nussinov è un algoritmo di programmazione dinamica che determina la struttura con il maggior numero di basi appaiate. • Si tratta di un criterio troppo semplicistico in quanto non è detto che la struttura reale sia quella con il maggior numero di basi appaiate, tuttavia questo algoritmo è alla base di altri algoritmi più sofisticati di minimizzazione energetica e basati su probabilità. • L’algoritmo di Nussinov è ricorsivo; esso calcola la struttura migliore della sequenza in input a partire dalle strutture migliori di piccole sottosequenze.

  30. L’algoritmo di Nussinov • L’idea chiave dell’algoritmo è basata sull’osservazione che ci sono solo 4 possibili modi di ottenere la migliore struttura per la sequenza i, j a partire dalle migliori strutture delle sottosequenze più piccole: • Aggiungi la posizione non appaiata i alla struttura migliore per la sottosequenza i+1, j; • Aggiungi la posizione non appaiata j alla struttura migliore per la sottosequenza i, j-1; • Aggiungi la coppia i,j alla struttura migliore per la sottosequenza i+1, j-1; • Combina due sottostrutture ottimali i, k e k+1, j.

  31. L’algoritmo di Nussinov (2) • Sia data una sequenza x di lunghezza L x1, x2, …, xL. • Si definisce la funzione di scoring (i,j) tale che (i,j)=1 se xi e xj sono basi complementari e (i,j)=0 altrimenti. • Si calcolano ricorsivamente gli score (i,j), che rappresentano il numero massimo di coppie di basi possibili per la sottosequenza xi, …, xj.

  32. L’algoritmo di Nussinov (3) • Passo iniziale: • Passo ricorsivo (a partire dalle sottosequenze di lunghezza 2 fino ad L):

  33. L’algoritmo di Nussinov: Esempio (1) • Applichiamo l’algoritmo di Nussinov alla sequenza GGGAAAUCC. • Consideriamo una matrice LxL, in questo caso 9x9:

  34. L’algoritmo di Nussinov: Esempio (2)

  35. L’algoritmo di Nussinov: Esempio (3)

  36. L’algoritmo di Nussinov: Esempio (4)

  37. L’algoritmo di Nussinov: Esempio (5) • Gli score per sottosequenze di lunghezza 2:

  38. L’algoritmo di Nussinov: Esempio (6)

  39. L’algoritmo di Nussinov: Esempio (7)

  40. L’algoritmo di Nussinov: Esempio (8) • Il valore in posizione (1,L), in questo caso (1,9)=3 è lo score massimo, ovvero il numero di coppie di basi nella struttura col maggior numero di basi appaiate. • Ci sono spesso diverse strutture con lo stesso numero di basi appaiate. • Per trovarle eseguiamo il traceback a partire dalla entry (1,L).

  41. L’algoritmo di Nussinov: Traceback (1) • Ricorsione – Ripeti finchè lo stack non è vuoto: • pop (i,j) (Estrai dalla pila) • if i>=j continue; • else if (i+1,j)= (i,j) push(i+1,j) • else if (i,j-1)= (i,j) push(i,j-1); • else if (i+1,j-1)+i,j= (i,j): • record i,j base pair; • push (i+1,j-1); • else for k=i+1 to j-1: • if (i,k)+ (k+1,j)= (i,j): • push (k+1,j); • push (i,k); • break. • Inizializzazione: • Push (1,L) onto stack (pila);

  42. L’algoritmo di Nussinov: Traceback (2) • pop (i,j) (Estrai dalla pila) • if i>=j continue; • else if (i+1,j)= (i,j) push(i+1,j) • else if (i,j-1)= (i,j) push(i,j-1); • else if (i+1,j-1)+i,j= (i,j): • record i,j base pair; • push (i+1,j-1); • else for k=i+1 to j-1: • if (i,k)+ (k+1,j)= (i,j): • push (k+1,j); • push (i,k); • break. • Inizializzazione: • Push (1,L) onto stack (pila);

  43. L’algoritmo di Nussinov: Traceback (3) • pop (i,j) (Estrai dalla pila) • if i>=j continue; • else if (i+1,j)= (i,j) push(i+1,j) • else if (i,j-1)= (i,j) push(i,j-1); • else if (i+1,j-1)+i,j= (i,j): • record i,j base pair; • push (i+1,j-1); • else for k=i+1 to j-1: • if (i,k)+ (k+1,j)= (i,j): • push (k+1,j); • push (i,k); • break. • Inizializzazione: • Push (1,L) onto stack (pila); (i,j)=(1,9)=3

  44. L’algoritmo di Nussinov: Traceback (4) • pop (i,j) (Estrai dalla pila) • if i>=j continue; • else if (i+1,j)= (i,j) push(i+1,j) • else if (i,j-1)= (i,j) push(i,j-1); • else if (i+1,j-1)+i,j= (i,j): • record i,j base pair; • push (i+1,j-1); • else for k=i+1 to j-1: • if (i,k)+ (k+1,j)= (i,j): • push (k+1,j); • push (i,k); • break. • Inizializzazione: • Push (1,L) onto stack (pila); (i,j)=(2,9)=3 2::G-C::9

  45. L’algoritmo di Nussinov: Traceback (5) • pop (i,j) (Estrai dalla pila) • if i>=j continue; • else if (i+1,j)= (i,j) push(i+1,j) • else if (i,j-1)= (i,j) push(i,j-1); • else if (i+1,j-1)+i,j= (i,j): • record i,j base pair; • push (i+1,j-1); • else for k=i+1 to j-1: • if (i,k)+ (k+1,j)= (i,j): • push (k+1,j); • push (i,k); • break. • Inizializzazione: • Push (1,L) onto stack (pila); (i,j)=(3,8)=2 3::G-C::8 2::G-C::9

  46. L’algoritmo di Nussinov: Traceback (6) • pop (i,j) (Estrai dalla pila) • if i>=j continue; • else if (i+1,j)= (i,j) push(i+1,j) • else if (i,j-1)= (i,j) push(i,j-1); • else if (i+1,j-1)+i,j= (i,j): • record i,j base pair; • push (i+1,j-1); • else for k=i+1 to j-1: • if (i,k)+ (k+1,j)= (i,j): • push (k+1,j); • push (i,k); • break. • Inizializzazione: • Push (1,L) onto stack (pila); (i,j)=(4,7)=1 4::A-U::7 3::G-C::8 2::G-C::9

  47. L’algoritmo di Nussinov: Traceback (7) • pop (i,j) (Estrai dalla pila) • if i>=j continue; • else if (i+1,j)= (i,j) push(i+1,j) • else if (i,j-1)= (i,j) push(i,j-1); • else if (i+1,j-1)+i,j= (i,j): • record i,j base pair; • push (i+1,j-1); • else for k=i+1 to j-1: • if (i,k)+ (k+1,j)= (i,j): • push (k+1,j); • push (i,k); • break. • Inizializzazione: • Push (1,L) onto stack (pila); (i,j)=(5,6)=0 4::A-U::7 3::G-C::8 2::G-C::9

  48. L’algoritmo di Nussinov: Traceback (8) • pop (i,j) (Estrai dalla pila) • if i>=j continue; • else if (i+1,j)= (i,j) push(i+1,j) • else if (i,j-1)= (i,j) push(i,j-1); • else if (i+1,j-1)+i,j= (i,j): • record i,j base pair; • push (i+1,j-1); • else for k=i+1 to j-1: • if (i,k)+ (k+1,j)= (i,j): • push (k+1,j); • push (i,k); • break. • Inizializzazione: • Push (1,L) onto stack (pila); (i,j)=(6,6)=0 4::A-U::7 3::G-C::8 2::G-C::9

  49. L’algoritmo di Nussinov: Traceback (9) • pop (i,j) (Estrai dalla pila) • if i>=j continue; • else if (i+1,j)= (i,j) push(i+1,j) • else if (i,j-1)= (i,j) push(i,j-1); • else if (i+1,j-1)+i,j= (i,j): • record i,j base pair; • push (i+1,j-1); • else for k=i+1 to j-1: • if (i,k)+ (k+1,j)= (i,j): • push (k+1,j); • push (i,k); • break. • Inizializzazione: • Push (1,L) onto stack (pila); 5::A A::6 4::A-U::7 3::G-C::8 2::G-C::9 1::G

  50. Analisi della struttura dell’RNA • La struttura dell’RNA • Struttura dell’RNA mediante analisi comparativa • Predizione della struttura secondaria: L’algoritmo di Nussinov • Predizione della struttura secondaria: Minimizzazione dell’energia • Un tool per la predizione della struttura secondaria: Mfold

More Related