L’analisi comparativa rappresenta l’approccio bioinformatico

L’analisi comparativa rappresenta l’approccio bioinformatico più rilevante per la caratterizzazione funzionale delle sequenze nucleotidiche e proteiche. I siti funzionalmente più rilevanti, mostreranno, infatti, un elevato grado di conservazione in tutte le sequenze considerate. Per effettuare analisi comparative è necessario selezionare un certo numero di sequenze ed effettuare un allineamento multiplo.

L’allineamento multiplo viene rappresentato sotto forma di una tabella costituita da righe, corrispondenti alle sequenze omologhe considerate, e da colonne, corrispondenti a ciascun sito dell’allineamento. Con omologia posizionale si intende che tutti i residui siano evolutivamente correlati. Esso viene realizzato con algoritmi che effettuano allineamento globale che quindi considerano l’intera lunghezza delle sequenze in esame. Il tempo impegato però diventa eccessivamente lungo cresce in modo esponenziale rispetto al numero di sequenze da allineare.

Metodo allineamento progressivo: si basa sull’ipotesi che le sequenze • che devono essere allineate siano filogeneticamente correlate. • Allineamento tra tutte le possibili coppie: N sequenze si dovranno • Effettuare N*(N-1)/2 allineamenti a coppie. • 2. I punteggi di similarità calcolati tra tutte le diverse coppie possono • Essere utilizzati per costruire un albero o dendrogramma. • 3. L’albero ottenuto viene utilizzato come guida per l’allineamento • progressivo, che verrà formato formando via via dei cluster di seq. • allineate. Un cluster potrà poi essere allineato ad una sequenza o ad • un altro cluster. • 4. Una volta che due o più sequenze vengono allineate in un cluster, • L’allineamento rimane fissato. Per cui si può incorrere in problemi • di minimo locale.

La bonta dell’allineamento dipende dall’algoritmo ma anche dalla scelta delle sequenze. L’allineamento risulta problematico anche quando le sequenze sono di diversa lunghezza. ClustalW che ha la peculiarità di allineare una nuova sequenza ad un allineamento precedente. Identità amminoacidica superiore 50% Identità nnucleotidica superiore 70% Soluzione ottima

Quando no ricorrano tali condizioni, l’allineamento richiede una • ulteriore fase di aggiustamento, che tenga conto di informazioni • addizionali quali: • Conservazioni di siti funzionali e catalitici noti a priori • Predizioni di struttura secondaria • Predizioni di struttura terziaria

>sp|P01922|HBA_HUMAN Hemoglobin alpha chain (Human) VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGK KVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPA VHASLDKFLASVSTVLTSKYR >sp|P02023|HBB_HUMAN Hemoglobin beta chain (Human) VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKV KAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGK EFTPPVQAAYQKVVAGVANALAHKYH >sp|P01958|HBA_HORSE Hemoglobin alpha chains (Horse) VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFDLSHGSAQVKAHGK KVGDALTLAVGHLDDLPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPA VHASLDKFLSSVSTVLTSKYR >sp|P02062|HBB_HORSE Hemoglobin beta chain (Horse) VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKV KAHGKKVLHSFGEGVHHLDNLKGTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGK DFTPELQASYQKVVAGVANALAHKYH >sp|P02179|MYG_BALAC Myoglobin (Minke whale) VLSDAEWHLVLNIWAKVEADVAGHGQDILIRLFKGHPETLEKFDKFKHLKTEAEMKASED LKKHGNTVLTALGGILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISDAIIHVLHSRHP AEFGADAQAAMNKALELFRKDIAAKYKELGFQG

P01922 HBA-Human P02023 HBB-Human P01958 HBA-Horse P02062 HBB-Horse P02179 MYG-Whale

- Predizione Struttura Secondaria -Modeling per Omologia -Modeling per Threading -Modeling Ab Initio

Predizione Struttura Secondaria I metodi usati sono tre e si basano sulle informazione raccolte dalle proteine la cui struttura terziaria è già risolta. -Statistico di Chou e Fasman: i 20 aa mostrano preferenze significative per particolari strutture secondarie (A,R,Q,E,M,L,K eliche) (C,I,F,T,W,Y,V foglietti) GOR attendibilità del 56% -Stereochimico di Lim: tiene conto delle proprietà idrofobiche, idrofiliche ed elettrostatiche considerando il loro ruolo nel folding (alternanza di idrofilici e idrofobici, foglietti) utile per predire eliche anfipatiche e transmembrana. SOSUI, TMPRED, ecc. -Neural Network: tiene conto di entrambe le precedenti e del processo evolutivo a partire dall’allineamento multiplo. PHD 70%

Predizioni di struttura secondaria CHOU & FASMAN

Algoritmi predizione struttura secondaria

153320+1062164 sequenze proteiche conosciute SwissProt +Trembl 26059 strutture conosciute Tecniche lunghe per determinare la struttura delle proteine (NMR, Cristallografia) Incapacità di prevedere il folding di una proteina Questo ha portato alla necessità di sviluppare una nuova metodologia.

Rost B. Twilight zone of protein sequence alignments. Protein Eng 1999 Feb;12(2):85-94Sequence alignments unambiguously distinguish between protein pairs of similar and non-similar structure when the pairwise sequence identity is high (>40% for long alignments). The signal gets blurred in the twilight zone of 20-35% sequence identity. Here, more than a million sequence alignments were analysed between protein pairs of known structures to re-define a line distinguishing between true and false positives for low levels of similarity. Four results stood out. (i) The transition from the safe zone of sequence alignment into the twilight zone is described by an explosion of false negatives. More than 95% of all pairs detected in the twilight zone had different structures. More precisely, above a cut-off roughly corresponding to 30% sequence identity, 90% of the pairs were homologous; below 25% less than 10% were. (ii) Whether or not sequence homology implied structural identity depended crucially on the alignment length. For example, if 10 residues were similar in an alignment of length 16 (>60%), structural similarity could not be inferred. (iii) The 'more similar than identical' rule (discarding all pairs for which percentage similarity was lower than percentage identity) reduced false positives significantly. (iv) Using intermediate sequences for finding links between more distant families was almost as successful: pairs were predicted to be homologous when the respective sequence families had proteins in common. All findings are applicable to automatic database searches.

Step 1: determinare proteine correlate a quella sotto studio Step2: Identificare regioni strutturalmente conservate (SCR) e strutturalmente variabili (SVR) Step3: costruire le SCR e le SVR usando le coordinate della struttura stampo Step 4:Modellare le catene laterali Step5: Rifinire la struttura ottenuta con minimizzazione e dinamica molecolare

Step 1 Capire a quale famiglia appartiene la mia proteina Comparare la sequenza con le migliaia contenute nei database. BLAST FASTA Tecnica dell’allineamento di sequenza importante per: -identificare le regioni conservate nella sequenza -trovare corrispondenze tra gli aa della proteina strutturata e quelli della sconosciuta> in modo da trasferire le coordinate da quella strutturata a quella non.

Le proteine cambiano molto rapidamente la loro sequenza. Difficile indicare il grado di similarità necessario per dimostrare in modo non ambiguo che due proteine sono OMOLOGHE. Doolittle dichiara: 1. Se due squenze sono più lunghe di 100 aa e l’identità è maggiore del 25% esse sono plausibilmente correlate 2. Se l’identità è tra il 15-25 % potrebbero essere correlate 3. Se l’identità è sotto il 15% probabilmente non sono correlate

Se ci troviamo nella situazione intermedia dobbiamo fare altre valutazioni Confronto della predizione di struttura secondaria Residui idrofobici interni conservati Ponti a disolfuro conservati Pattern funzionali conservati

Quando l’identità di sequenza fra proteine si trova sotto il 25% un altro metodo di procedere è quello via THREADING In questo caso si cerca di adattare un profilo 1D ad uno 3D. Informazioni a partire dalla nostra sequenza primaria di accessibilità e struttura secondaria. Da queste informazioni si procede grazie all’utilizzo di un’ algoritmo (MaxHom) ad individuare lo stesso tipo di profilo in una proteina di cui si conosca già la struttura. http://bioinf.cs.ucl.ac.uk/psipred/psiform.html

GenThreader necessita come input le predizioni di BLAST e PSIPRED

L’utlimo approccio utilizzabile è il Modeilin AB INITIO Si basa sull’energia e parte esclusivamente dalla sequenza primaria. Sfrutta una lista di criteri geometrici tali da campionare tutte le possibili conformazioni e trovare quelle con minimo di energia. SCEF (Self Consistent Electrostatic-Field) ed il Metodo Monte Carlo si basano sull’osservazione delle forze che entrano in gioco nel determinare il folding di proteine (X e NMR), in questo modo tenendo conto del principio di Boltzman, si può usare un metodo statistico per ottenere le strutture 3D

Scelta del genoma

ORF Finder

ESEMPIO Escherichia Coli 5231428 bp NP_752656

NP_752656 Formato FASTA è il codice di interscambio universale tra software > NP_752656 MKLQNSFRDYTAESALFVRRALVAFLGILLLTGVLIANLYNLQIVRFTDYQTRSNENRIK LVPIAPSRGIIYDRNGIPLALNRTIYQIEMMPEKVDNVQQTLDALRSVVDLTDDDIAAFR KERARSHRFTSIPVKTNLTEVQVARFAVNQYRFPGVEVKGYKRRYYPYGSALTHVIGYVS KINDKDVERLNNDGKLANYAATHDIGKLGIERYYEDVLHGQTGYEEVEVNNRGRVIRQLK EVPPQAGHDIYLTLDLKLQQYIETLLAGSRAAVVVTDPRTGGVLALVSTPSYDPNLFVDG ISSKDYSALLNDPNTPLVNRATQGVYPPASTVKPYVAVSALSAGVITRNTTLFDPGWWQL PGSEKRYRDWKKWGHGRLNVTRSLEESADTFFYQVAYDMGIDRLSEWMGKFGYGHYTGID LAEERSGNMPTREWKQKRFKKPWYQGDTIPVGIGQGYWTATPIQMSKALMILINDGIVKV PHLLMSTAEDGKQVPWVQPHEPPVGDIHSGYWELAKDGMYGVANRPNGTAHKYFASAPYK IAAKSGTAQVFGLKANETYNAHKIAERLRDHKLMTAFAPYNNPQVAVAMILENGGAGPAV GTLMRQILDHIMLGDNNTDLPAENPAVAAAEDH

Penicillin binding protein Staphylococcus Aureus 1MWX 1MWS Allineamento multiplo

Localizzazione cellulare della proteina Predizione strutture secondaria GORIV Predizione profilo idrofobico-idrofilico Ricerca motivi strutturali MotifScan

Predizione localizzazione cellulare PSORT

Predizione proteine di membrana SOSUI This amino acid sequence is of a MEMBRANE PROTEIN which have 1 transmembrane helix. No. N terminal transmembrane region C terminal type length 1 20 RALVAFLGILLLTGVLIANLYNL 42 PRIMARY 23

Predizione Struttura secondaria GORIV

Profilo idropatia ProtScale

Ricerca motivi in banca dati PROSITE MotifScan

L’analisi comparativa rappresenta l’approccio bioinformatico

L’analisi comparativa rappresenta l’approccio bioinformatico

Presentation Transcript

C L I L

Problem Solving: analisi comparativa di diversi registri linguistici

F A L L R A L L Y

Metodi statistici per l analisi delle politiche pubbliche

L evoluzione dell approccio alla cronicit nella Medicina Generale pordenonese

l-L

L approccio metacognitivo ai disturbi dell apprendimento aspetti emotivo motivazionali

L analisi del contenuto

L analisi delle reti sociali

L ANALISI DELLA CONCENTRAZIONE

L approccio CMD

L analisi preventiva per l efficienza della vostra azienda

L APPROCCIO LESSICALE

´ l l

L l

L AB = L

L l

L OIS l AME

L O L

A L L

L L

The L L Factor!