1 / 23

Sequenze e Banche Dati Biologiche

Sequenze e Banche Dati Biologiche. Sequenze. Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili via Internet I database principali sono curati da organizzazioni internazionali

Télécharger la présentation

Sequenze e Banche Dati Biologiche

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sequenze e Banche Dati Biologiche

  2. Sequenze • Le sequenze “pubbliche” sono innanzitutto depositate dai gruppi di ricerca in database pubblici accessibili via Internet • I database principali sono curati da organizzazioni internazionali • The National Center for Biotechnology Information (NCBI) http://www.ncbi.nlm.nih.gov/ • European Bioinformatics Institute (EBI) http://www.ebi.ac.uk/

  3. NCBI • National Center for Biotechnology Information : creato come parte della National Library of Medicine nel 1988 • GenBank (1992) – banca dati nucleotidica • Free MEDLINE (PubMed, 1997) • Altri database: Protein, dbEST, dbGSS, dbSTS, MMDB, OMIM, UniGene, GeneMap, Taxonomy, CGAP, SAGE, LocusLink, RefSeq • Programmi di analisi bioinformatica utilizzabili on-line o scaricabili

  4. Che tipi di sequenze? • Sequenze genomiche (DNA) • Interi genomi • Interi cromosomi • “Frammenti” (es. singolo gene), scaffold e contig • Sequenze di mRNA • Complete o parziali (le EST!) • Sequenze di RNA non codificanti • Sequenze proteiche

  5. NCBI : non Solo Sequenze... Ogni collegamento indica che esistono link che vanno dalle entry di un database alle entry di un altro

  6. Quante sequenze conosciamo? As of 15 February 2012, GenBank release 188.0 has 137,384,889,783 bases, from 149,819,246 reported sequences.

  7. Non Solo Sequenze...

  8. Sequenze • Nelle banche dati si trovano le sequenze stesse, più annotazioni • Le annotazioni (quando disponibili) elencano tutto ciò che si conosce della sequenza stessa • Spesso, è utile consultare le annotazioni su un dato gene/proteina, senza “utilizzare” la sequenza stessa • Oppure, si possono scaricare le sequenze per analizzarle

  9. Esempi di Annotazioni • Genoma (DNA) • Localizzazione dei geni (start-end) nei genomi • Localizzazione dei trascritti • Divisione in introni-esoni • Proteina prodotta dal gene • Funzione della proteina • mRNA • Proteina codificata e sua funzione • Inizio e fine della traduzione • Proteina • Da quale mRNA/gene è codificata • Qual è la funzione

  10. Un database è suddiviso in entry Una entry è suddivisa in campi Esempio: il catalogo di una biblioteca: ogni cartellino è un’entry divisa in numero di catalogo tipo pubblicazione (libro, giornale, ecc.) autore titolo, editore anno di pubblicazione luogo di pubblicazione, ecc. Catalogo: LIB001 Tipo : LIBRO Titolo : Il codice da Vinci Autore: Brown, Dan Editore : Mondadori Anno: 2003 ecc. ecc. Database (o banca dati)

  11. Ogni sequenza è contenuta in un’entry L’entry è annotata con Numero di catalogo (univoco, lo stesso in tutto il mondo) Tipo sequenza (DNA, RNA, proteina) Organismo di provenienza “Titolo” della sequenza (prodotto del gene, nome della proteina) e altre informazioni (se e quando disponibili) Database Biologici Catalogo: NM_000546 Tipo : mRNA Organismo : Homo sapiens Titolo: tp53 gene, mRNA Proteina : tumor protein 53 Anno sequenziamento: 2003 Localizzazione: chr 17

  12. E’ possibile fare ricerche per parole chiave, magari limitate a uno dei “campi” del “cartellino” Esempi: cercami la sequenza con numero di catalogo NM_000546 cercami la sequenza del trascritto del gene tp53 cercami tutte le sequenze di Homo sapiens cercami tutte le sequenze localizzate sul cromosoma 17. Database Biologici Catalogo: NM_000546 Tipo : mRNA Organismo : Homo sapiens Titolo: tp53 gene, mRNA Proteina : tumor protein 53 Anno sequenziamento: 2003 Localizzazione: chr 17

  13. Le “Sequenze di Riferimento” • Quindi: se un gene produce tanti trascritti, e io ho bisogno dell’mRNA di un dato gene, me li devo scaricare tutti? • Spesso inutile, se le differenze sono minime oppure se non sono particolarmente interessato a splicing & co • RefSeq (Reference Sequence – Sequenze di Riferimento): per ciascun gene è stato selezionato un trascritto “rappresentativo” “tipico” di quel gene • Idem per le proteine codificate: sono quelle codificate dal trascritto RefSeq • I trascritti RefSeq sono “catalogati” con un codice che inizia per NM_ seguito da 6 numeri (es: NM_000546) • Le proteine prodotte da RefSeq sono catalogate con codice NP_XXXXXX • ATTENZIONE: i RefSeq spesso non tengono conto degli splicing alternativi • Naturalmente ogni altra sequenza depositata in banca dati ha un identificativo univoco, non solo quelle RefSeq, costituito da una o due lettere seguito da una sequenza di numeri (es. AK312116)

  14. Le Annotazioni sui Genomi • Spulciarsi qualche milione di paia di basi (con migliaia e migliaia di annotazioni) in modo testuale è un incubo... • Per osservare le annotazioni su una sequenza genomica, si utilizzano i “browser genomici” che permettono di “visualizzare” le annotazioni, “zoomando” su determinate regioni fino a livello di singole paia di basi • Per sequenze più piccole (mRNA, ad esempio) è sufficiente esaminare l’entry corrispondente

  15. Le Annotazioni sulle Sequenze • Le annotazioni su una sequenza sono riportate in “coordinate” sulla sequenza stessa • Genoma: coordinate genomiche • Cromosoma e posizione all’interno del cromosoma • Altre sequenze: sono numerate a partire da 1 • Esempio: mRNA di 1200 bp. CDS (regione codificante) da 100 a 999. Quindi • Da 1 a 99 c’è la 5’UTR • Da 100 a 999 (incluso) c’è la regione codificante • Da 1000 a 1200 c’è la 3’UTR • Ricordatevi sempre che le sequenze sono orientate: 1 sta al 5’ (N terminale) la fine sta al 3’ (o C terminale) 1200 1 100 999 3’ 5’

  16. Entry • Oltre alla sequenza, il “cartellino” della entry contiene diverse informazioni aggiuntive (alcune affidabili, altre meno, altre inutili!) e link che puntano a risorse “collegate” alla sequenza • Esempio trascritto: NM_002032 • Esempio proteina: NP_002023

  17. Divisione (primati) Descrizione Data inserimento nel database Tipo Sequenza Lunghezza Versione (attenzione al numero dopo il punto)

  18. Link Incrociati • Se nella sequenza è annotata una parte codificante è riportata la traduzione • Se esiste anche una entry corrispondente alla proteina, c’è il link all’entry • Se si conosce il gene corrispondente e la posizione, c’è un link • Link a pubblicazioni che parlano della sequenza (come è stata determinata, qual è la funzione)

  19. Info sulla Sequenza Da che organismo arriva, che tipo di sequenza è, dove è localizzata all’interno del genoma Link alle entry di database “collegati” che riguardano il gene di origine Annotazione di polimorfismi

  20. Dove sono i codoni (la parte codificante) Annotazioni sulla funzione e sulle interazioni Ancora link incrociati (questo alla proteina codificata) Annotazioni sulla funzione e sulle interazioni di parti della sequenza

  21. Per Scaricare la Sequenza “Cosa” mostrare Salvo o visualizzo? Voglio solo un “pezzo” di sequenza

  22. Il formato FASTA • Usato sempre per “maneggiare” le sequenze • La prima riga (header) “dice” di che sequenza si tratta, poi c’è la sequenza vera e propria >NM_002032.2| Homo sapiens ferritin, heavy (FTH1), mRNA ATAAGAGACCACAAGCGACCCGCAGGGCCAGACGTTCTTCGCCGAGAGTCGTCGGGGTTTCCTGCTTCAACAGTGCTTGGACGGAACCCGGCGCTCGTTCCCCACCCCGGCCGGCCGCCCATAGCCAGCCCTCCGTCACCTCTTCACCGCACCCTCGGACTGCCCCAAGGCCCCCGCCGCCGCTCCAGCGCCGCGCAGCCACCGCCGCCGCCGCCGCCTCTCCTTAGTCGCCGCCATGACGACCGCGTCCACCTCGCAGGTGCGCCAGAACTACCACCAGGACTCAGAGGCCGCCATCAACCGCCAGATCAACCTGGAGCTCTACGCCTCCTACGTTTACCTGTCCATGTCTTACTACTTTGACCGCGATGATGTGGCTTTGAAGAACTTTGCCAAATACTTTCTTCACCAATCTCATGA ..............................

  23. Esercizio • Collegatevi al sito dell’NCBI, recuperate ed esaminate l’entry con numero di accesso NM_032638. In particolare • Di che tipo di sequenza si tratta? • Qual è la descrizione (o definizione) della sequenza fornita da chi ha depositato la sequenza stessa? • Come si chiama il gene corrispondente (ovvero, quale sigla lo denota)? • Su quale cromosoma è localizzato il gene? • Quanto sono lunghe 5’UTR, regione codificante e 3’UTR della sequenza che state esaminando? Quanto è lunga la proteina codificata? • Qual è il numero di accesso (o “Accession number”) della proteina codificata dalla sequenza stessa?

More Related