730 likes | 897 Vues
Dalla sequenza alla struttura. Mauro Fasano Dipartimento di Biologia Strutturale e Funzionale Centro di Neuroscienze Università dell’Insubria – Busto Arsizio mauro.fasano@uninsubria.it http://fisio.dipbsf.uninsubria.it/cns/fasano. Dalla sequenza alla struttura. VLSEGEWQLVLV. O 2.
E N D
Dalla sequenza alla struttura Mauro Fasano Dipartimento di Biologia Strutturale e Funzionale Centro di Neuroscienze Università dell’Insubria – Busto Arsizio mauro.fasano@uninsubria.it http://fisio.dipbsf.uninsubria.it/cns/fasano
Dalla sequenza alla struttura VLSEGEWQLVLV . . . O2 SequenzaStrutturaFunzione
Che informazioni offre la struttura? • Conformazione dei siti attivi e di legame • Orientazione dei residui conservati • Interpretazione di meccanismi • Visualizzazione di cavità • Calcolo di potenziale elettrostatico • …
Esempio • FtsZ – divisione cellulare in procarioti, mitocondri e cloroplasti. • Tubulina – componente strutturale dei microtubuli – comunicazione intracellulare e divisione cellulare. • FtsZ e Tubulina hanno bassa similarità di sequenza e non sembrerebbero omologhe.
Burns, R., Nature 391:121-123 Picture from E. Nogales
FtsZ e tubulina sono omologhe? • Proteine che hanno conservato la struttura tridimensionale possono derivare da un progenitore comune anche se la divergenza della sequenza non permette più di riconoscere l’omologia.
Un altro esempio • α-lattalbumina e lisozima possiedono: • Stesso fold • Moderata similarità • Diversa funzione
Metodi sperimentali: • Diffrazione dei raggi x • Risonanza magnetica nucleare
Cristallografia a raggi X • Ottenere cristalli della proteina • 0.3-1.0 mm • Le singole molecole sono ordinate in modo periodico, ripetitivo. • La struttura è determinata dai dati di diffrazione.
Cristallografia a raggi X • Le proteine devono cristallizzare • Grande quantità • Solubili • Accesso a radiazione adatta • Tempo di calcolo per risolvere la struttura
Risonanza Magnetica Nucleare (NMR) • Proteine in soluzione • Limite di dimensione ~ 40 kDa • Proteine stabili a lungo • Marcatura con 15N, 13C, 2H. • Strumentazione molto costosa • Tempo per assegnare le risonanze
HEADER BINDING PROTEIN 01-JUN-95 1HXN 1HXN 2 COMPND MOL_ID: 1; 1HXN 3 COMPND 2 MOLECULE: HEMOPEXIN; 1HXN 4 COMPND 3 CHAIN: NULL; 1HXN 5 COMPND 4 DOMAIN: C-TERMINAL DOMAIN; 1HXN 6 COMPND 5 SYNONYM: HPX; 1HXN 7 COMPND 6 HETEROGEN: PO4 1HXN 8 SOURCE MOL_ID: 1; 1HXN 9 SOURCE 2 ORGANISM_SCIENTIFIC: ORYCTOLAGUS CUNICULUS; 1HXN 10 SOURCE 3 ORGANISM_COMMON: RABBIT; 1HXN 11 SOURCE 4 TISSUE: SERUM 1HXN 12 KEYWDS HEME 1HXN 13 EXPDTA X-RAY DIFFRACTION 1HXN 14 AUTHOR H.R.FABER,E.N.BAKER 1HXN 15 REVDAT 1 15-OCT-95 1HXN 0 1HXN 16 JRNL AUTH H.R.FABER,C.R.GROOM,H.BAKER,W.MORGAN,A.SMITH, 1HXN 17 JRNL AUTH 2 E.N.BAKER 1HXN 18 JRNL TITL 1.8 ANGSTROMS CRYSTAL STRUCTURE OF THE C-TERMINAL 1HXN 19 JRNL TITL 2 DOMAIN OF RABBIT SERUM HEMOPEXIN 1HXN 20 JRNL REF TO BE PUBLISHED 1HXN 21 JRNL REFN 0353 1HXN 22 REMARK 1 1HXN 23
ATOM 1 CA GLU 225 -0.900 -1.002 39.233 1.00 70.00 1HXN 170 ATOM 2 C GLU 225 -0.185 0.146 39.970 1.00 70.00 1HXN 171 ATOM 3 O GLU 225 -0.514 1.329 39.758 1.00 70.00 1HXN 172 ATOM 4 N SER 226 0.788 -0.203 40.823 1.00 70.00 1HXN 173 ATOM 5 CA SER 226 1.534 0.805 41.594 1.00 70.00 1HXN 174 ATOM 6 C SER 226 2.231 1.806 40.681 1.00 68.89 1HXN 175 ATOM 7 O SER 226 1.883 1.952 39.514 1.00 70.00 1HXN 176 ATOM 8 CB SER 226 2.572 0.130 42.515 1.00 70.00 1HXN 177 ATOM 9 OG SER 226 3.237 -0.941 41.848 1.00 70.00 1HXN 178 ATOM 10 N THR 227 3.242 2.478 41.223 1.00 65.51 1HXN 179 ATOM 11 CA THR 227 3.989 3.417 40.410 1.00 70.00 1HXN 180 ATOM 12 C THR 227 4.274 2.705 39.080 1.00 56.25 1HXN 181 ATOM 13 O THR 227 4.179 3.296 38.022 1.00 44.63 1HXN 182 ATOM 14 CB THR 227 5.354 3.797 41.074 1.00 70.00 1HXN 183 ATOM 15 OG1 THR 227 5.114 4.682 42.172 1.00 70.00 1HXN 184 ATOM 16 CG2 THR 227 6.256 4.492 40.065 1.00 70.00 1HXN 185
http://www.expasy.ch/spdbv Esegui
Classificazione delle proteine: • SCOP (Structural Classification of Proteins, scop.mrc-lmb.cam.ac.uk/scop/, Murzin et. al.): 548 folds (major structural similarity in terms of secondary structures e.g. globin-like, Rossman fold); 1296 families (clear evolutionary relationship or homology e.g. globins, Ras) • CATH (Class, Architecture, Topology, Homologous Superfamily, www.biochem.ucl.ac.uk/bsm/cath/, Orengo et. al): 35 architectures (gross arrangment of secondary structures e.g. non-bundle, sandwich); 580 topologies (connectivity of secondary structures e.g. globin-like, Rossman fold); 1846 families (clear homology, same function)
Metodi predittivi • Comparative modeling > 30% similitudine • Threading/Fold recognition 0 – 30% similitudine • Ab initio nessun omologo
Qualità del modello comparativo Identità di sequenza: 60-100% Confrontabile con NMR media risoluzione Specificità di substrato 30-60% Molecular replacement in cristallografia Partenza per site-directed mutagenesis <30% Gravi errori
M A A G Y A Y G V L S - A T G F D - - V I D - A S G F E - - V V E - A K A Y L - - V L S Building by homology (Homology modelling) Allineamento con proteine a struttura nota Modello strutturale
M A A G Y A V L S Fold recognition (Threading) Sequenza: + Motivi strutturali noti Modello strutturale
M A A G Y A V L S Ab initio Sequenza Modello strutturale
Building by homology Un numero grandissimo di polipeptidi si struttura in un numero finito (e relativamente piccolo) di folds Almeno una proteina su due di quelle presenti nel database ha un omologo (identità > 30%) che quasi sempre ha lo stesso fold.
Costruire il modello comparativo 1) Cercare il massimo numero di omologhi che possiedano una entry nel PDB. Strumenti che utilizzano PSSM sono più sensibili. In questo caso vengono utilizzate sequenze senza struttura per costruire la PSSM. 2) Costruire un accurato allineamento multiplo tra la sequenza da modellare e tutte le entries che verranno utilizzate come templato.
Trovare strutture di proteine la cui sequenza è simile allineamento Modello strutturale Verifica OK!
Costruire il modello stesso Determinare la struttura secondaria in base all’allineamento Costruire le regioni conservate. Per ciascuna regione possiamo prendere le coordinate del frammento con la maggior similarità di sequenza. Costruire le regioni variabili, solitamente loops.
Costruzione dei loops: Usando raccolte di loops osservati in strutture note, in base alla loro lunghezza ed alla loro sequenza Costruendo la conformazione del loop ab initio. Vengono generate numerose conformazioni casuali e si calcola l’energia in un opportuno campo di forze.
Alcuni siti web di homology modeling COMPOSER – felix.bioccam.ac.uk/soft-base.html MODELLER – guitar.rockefeller.edu/modeller/modeller.html WHAT IF – www.sander.embl-heidelberg.de/whatif/ SWISS-MODEL – www.expasy.ch/SWISS-MODEL.html
Swiss-Model http://www.expasy.ch/swissmod/SWISS-MODEL.html
Modeller http://guitar.rockefeller.edu/modeller/about_modeller.shtml Advanced program for homology modeling Based on distance constraints Implemented in several popular modelling packages such as InsightII The source is available for unix platforms at the above URL
Threading (fold recognition) La sequenza di input viene confrontata con una libreria di folds noti Si calcola un punteggio che esprima la compatibilità tra la sequenza e ciascun fold considerato Punteggi statisticamente significativi indicano che la sequenza ha una certa probabilità di assumere la stessa struttura 3D del fold considerato
Input: Sequenza Donatore H Accettore H Gly Idrofobico Collezione di folds di proteine note
Input: Sequenza Donatore H Accettore H Gly Idrofobico Collezione di folds di proteine note
Donatore H Accettore H Gly Idrofobico S=-2 S=5 S=20 Z=5 Z= -1 Z=1.5