Banques et bases de données en biologie moléculaire : de la donnée à la structure

Banques et bases de données en biologie moléculaire :de la donnée à la structure Eric Viara CRI INFOBIOGEN / SYSRA Conférence BDA’02

Objet de la présentation (1) • Quelques mots de biologie • La situation actuelle en bioinformatique : • au travers d'un panorama des banques de données et traitements exploités par le CRI INFOBIOGEN • un système d'intégration de données

Objet de la présentation (2) • Une approche fédérative et orientée objet développée par SYSRA et INFOBIOGEN dans le cadre d'un projet d'intégration et de manipulation de données génomiques et protéomiques basé sur le SGBDO EYEDB

Le CRI INFOBIOGEN (1) • Centre National de Ressourcesbioinformatique (Genopole/Universitéd'Evry) • Informatique appliquée à la biologie • Mise à disposition des banques de données et codes de calcul • Accès anonymes WEB (4 000 visites/jour) et authentifiés (5 000 comptes) • Assistance technique aux utilisateurs

Le CRI INFOBIOGEN (2) • Recherche & Développement : • bases de données, intégration de données • interfaces homme/machine • traitement intensifs génomiques (TERAPROT avec le CEA/DAM) • Equipement serveurs SUN E10K (48 CPU, 26 Go mémoire, 4 To) • Evolution SF15K en cours • Connectique Internet Renater 155 Mbps

SYSRA • Société créée en 1993 par Eric Viara • Activités de service : CNRS, INSERM, GENOPLANTE, INFOBIOGEN, GENE-IT, GENETHON, UNIVERSITE D’EVRY … • Activités R&D : • développement du SGBDO EYEDB, • intégration de données en biologie moléculaire. • Collaboration avec INFOBIOGEN depuis 1994 • Collaboration avec GENE-IT

Quelques mots de bio (1) • La grande majorité des êtres vivants contient une ou plusieurs cellules • Une cellule contient : • procaryotes : une molécule d’ADN (acide désoxyribonucléique) • eucaryotes : plusieurs molécules d’ADN présentes dans les chromosomes situés dans un compartiment cellulaire : le noyau • L’ADN est constitué de nucléotides : T A G C

Quelques mots de bio (2) • Une partie de l’ADN est transcrite en ARN (acide ribonucléique) => transcription • L’ARN est constitué de nucléotides : U A G C • L’ARN est traduite en protéines => traduction • Les protéines sont constituées d’acides aminés : 20 acides aminés • Les protéines confèrent à chaque organisme son originalité spécifique et individuelle

Quelques mots de bio (3) • L’ADN : • constitue le matériel génétique des êtres vivants : les segments d’ADN situés sur un chromosome porteurs d’une information génétique (i.e. utilisés dans le processus de transcription) sont les gènes • confèrent aux êtres vivants leur proprieté la plus remarquable : celle de se reproduire en transmettant leurs caractères d’une génération à l’autre

Ordres de grandeur • Arabidopsis Thaliana : • ADN : ~ 100 millions de nucléotides • Gènes : ~ 25000 • Protéines : ~ 30000 à 50000 • Portion de l’ADN codant : ~ 5 % • Homo sapiens : • ADN : ~ 3,4 milliards de nucléotides • Gènes : ~ 25000 à 30000 • Protéines : ~ 30000 à 50000 • Portion de l’ADN codant : ~ 5 %

La synthèse d’une protéine (1) ADN Transcription Traduction ARN Protéine [ATGC] [AUGC] [FLIMVSPTAYH QNKDECWRG] Alphabet :

La synthèse d’une protéine (2) introns exons ADN TRANSCRIPTION préARNm MATURATION ARNm TRADUCTION Protéine

Le code génétique • Chaque ensemble de 3 nucléotides (codons) code un acide aminé ou le codon Stop • AUGC x AUGC x AUGC = 64 combinaisons possibles • 20 acides aminés => code dégénéré • Exemples : • UAU : Tyr (Y) • UAC : Tyr (Y) • CAU : His (H) • UGA : Stop

Le code génétique standard

Le séquencage • Le séquencage d’un être vivant consiste à déterminer la suite de nucléotides constituant son ADN • La technique du séquencage n’autorise que la lecture de séquences relativement courtes => • découpage de l’ADN en fragments • clonages des fragments • séquencage de chacun des fragments • Carte physique : ordonnancement des fragments clonés chevauchant reconstituant la molécule d’ADN de départ

L’annotation du génome • L’annotation du génome consiste à : • prédire et localiser l'ensemble des séquences codantes (gènes) du génome, • déterminer et identifier leur structure (annotation syntaxique), • leur fonction (annotation fonctionnelle), • les relations entre les entités biologiques relatives au génome (annotation relationnelle).

Glossaire bio (1) • Génétique : Science de l’hérédité. La génétique étudie les caractères héréditaires des individus, leur transmission au fil des générations et leurs variations (mutations) • Gène : Segment d’ADN ou d’ARN situé sur un chromosome et porteur d’une information génétique

Glossaire bio (2) • Génome : Ensemble du matériel génétique d’un individu ou d’une espèce. Il est constitué de molécules d’acides nucléiques (ADN ou ARN). Les gènes c-a-d les parties d’ADN porteuses d’une information génétique, ne constituent qu’une partie du génome • Protéine : produit du gène issu de la synthèse protéique via le code génétique • Protéome : complément protéique total du génome, c-a-d l’ensemble des protéines exprimé par le génome d’une espèce donnée

Les types de données (1) • Les séquences • nucléiques : alphabet de 4 lettres : A T G C • protéiques : alphabet de 20 lettres correspondant aux 20 acides aminés • Les annotations • prédiction • expérimentation

Les types de données (2) • Nombreux types • Forte corrélation entre les types, en perpétuelle évolution: des nouveaux types émergent (résultats d'expériences de puces à ADN, par exemple) et des nouveaux liensentre les types apparaissent, les deux grâce aux progrès des biotechnologies(automatisation, miniaturisation) • Multiplicité des points de vue sur le schéma:sémantiques différentes selon les biologistes

La quantité de données (1) • Les projets de génomiques ont produit ces dernières années des volumes considérables de données: séquençage massif de gros génomes complets : levure, arabidopsisthaliana (première plante séquencée), riz, drosophile, souris, homme... • Les volumes augmentent exponentiellement : doublent tous les 18 mois • Transcriptomique, protéomique, génotypage

La quantité de données (2)

Les traitements • Calcul intensif : • Comparaison de séquences (2 a 2) • Alignements multiples (n séquences) • Prédictions intro-exon sur des génomes complets, • Analyse de liaison pour la cartographie • Analyse de la structure des protéines • Analyse du transcriptome

Les banques de données (1) • Plusieurs centaines de banques de données biologiques disponibles • Catalogues de banques de données : • La base DBCAT (gérée à INFOBIOGEN) est un catalogue des bases de données en biologie moléculaire (509 bases répertoriées) • Numéro spécial annuel de Nucleic Acid Research • Plus de 150 banques disponibles à INFOBIOGEN : 2 tera-octets

Les banques de données (2) • Les banques généralistes : • Les banques de séquences nucléiques • Les banques de séquences protéiques • Les banques thématiques : • Les banques de motifs ou de domaines protéiques • Les banques de familles • Les banques de structure moléculaire • Les banques spécifiques à un organisme, les banques génomiques

Les banques de données (3) • La redondance : il est fréquent de trouver plusieurs fois la même séquence ou des séquences extrèmement similaires dans des entrées différentes (surtout dans les banques généralistes) : polymorphisme, gènes dupliqués ou erreurs ? • Erreurs de sequences : erreurs de séquençage ou de saisie • Erreurs d’annotation : méthodes informatiques automatiques pour l’analyse des données du séquençage systématique

Des banques généralistes • Banques généralistes de séquences nucléiques : • EMBL : EBI • GENBANK : NCBI • Banques généralistes de séquences protéiques : • PIR • SWISSPROT • TREMBL

Une entrée GenBank LOCUS R11659 415 bp mRNA linear EST 11-APR-1995DEFINITION yf40c12.s1 Soares fetal liver spleen 1NFLS Homo sapiens cDNA clone IMAGE:129334 3', mRNA sequence.ACCESSION R11659VERSION R11659.1 GI:764394KEYWORDS EST.SOURCE human. ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.REFERENCE 1 (bases 1 to 415) AUTHORS Hillier,L., Clark,N., Dubuque,T., Elliston,K., Hawkins,M., Holman ,M., Hultman,M., Kucaba,T., Le,M., Lennon,G., Marra,M., Parsons,J., Rifkin,L., Rohlfing,T., Soares,M., Tan,F., Trevaskis,E., Waterston ,R., Williamson,A., Wohldmann,P. and Wilson,R. TITLE The WashU-Merck EST Project JOURNAL Unpublished (1995)COMMENT Contact: Wilson RK Washington University School of Medicine 4444 Forest Park Parkway, Box 8501, St. Louis, MO 63108 Tel: 314 286 1800 Fax: 314 286 1810 Email: est@watson.wustl.edu Insert Size: 706 High quality sequence stops: 274 Source: IMAGE Consortium, LLNL This clone is available royalty-free through LLNL ; contact the IMAGE Consortium (info@image.llnl.gov) for further information. Insert Length: 706 Std Error: 0.00 Seq primer: -21m13 High quality sequence stop: 274.

... une entrée GenBank FEATURES Location/Qualifiers source 1..415 /organism="Homo sapiens" /db_xref="GDB:481495" /db_xref="taxon:9606" /clone="IMAGE:129334" /clone_lib="Soares fetal liver spleen 1NFLS" /sex="male" /dev_stage="20 week-post conception fetus" /lab_host="DH10B (ampicillin resistant)" /note="Organ: Liver and Spleen; Vector: pT7T3D (Pharmacia) with a modified polylinker; Site_1: Pac I; Site_2: Eco RI; 1st strand cDNA was primed with a Pac I - oligo(dT) primer [5' AACTGGAAGAATTAATTAAAGATCTTTTTTTTTTTTTTTTTTT 3'], double-stranded cDNA was ligated to Eco RI adaptors (Pharmacia), digested with Pac I and cloned into the Pac I and Eco RI sites of the modified pT7T3 vector. Library went through one round of normalization. Library constructed by Bento Soares and M.Fatima Bonaldo."BASE COUNT 96 a 93 c 127 g 91 t 8 othersORIGIN 1 tttgtacatt tatttgcatg tttattggtt taacacaggg gtcgcaaact caaatgccca 61 cagaggccag gttaggttag cggctgaagc agtctgggga gaggcaaaaa gcaatggcag 121 ggaggtggga cagaggaatn tgggccccaa actatggggg cagctgctac tcagtgccag 181 ctnttcgtcg ccatgggggg aagcgggacc agagccgccg ggtcttcggc tttttcaaga 241 ggacgcataa ctccggattg ttatttgaac tgtcctgact ttggtaagac tctntgacgg 301 tnacagtnaa ggaggccgac tcatcgtcaa tttcacacaa gtactcgccg gagtcctcga 361 gctgggacaa ccgggcagca ccaggcggng ggacagtgtc ttccttntgc angag//

Une entrée EMBL ID HS65975 standard; RNA; EST; 415 BP.XXAC R11659;XXSV R11659.1XXDT 21-APR-1995 (Rel. 43, Created)DT 04-MAR-2000 (Rel. 63, Last updated, Version 2)XXDE yf40c12.s1 Soares fetal liver spleen 1NFLS Homo sapiens cDNA cloneDE IMAGE:129334 3', mRNA sequence.XXKW EST.XXOS Homo sapiens (human)OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;OC Eutheria; Primates; Catarrhini; Hominidae; Homo.XXRN [1]RP 1-415RA Hillier L., Clark N., Dubuque T., Elliston K., Hawkins M., Holman M.,RA Hultman M., Kucaba T., Le M., Lennon G., Marra M., Parsons J., Rifkin L.,RA Rohlfing T., Soares M., Tan F., Trevaskis E., Waterston R., Williamson A.,RA Wohldmann P., Wilson R.;RT "The WashU-Merck EST Project";RL Unpublished.XXDR RZPD; IMAGp998B23135; IMAGp998B23135.DR UNILIB; 262; 262.XX

... une entrée EMBL FH Key Location/QualifiersFHFT source 1..415FT /db_xref="taxon:9606"FT /db_xref="RZPD:IMAGp998B23135"FT /db_xref="UNILIB:262"FT /note="Organ: Liver and Spleen; Vector: pT7T3D (Pharmacia)FT with a modified polylinker; Site_1: Pac I; Site_2: Eco RI;FT 1st strand cDNA was primed with a Pac I - oligo(dT) primerFT [5' AACTGGAAGAATTAATTAAAGATCTTTTTTTTTTTTTTTTTTT 3'],FT double-stranded cDNA was ligated to Eco RI adaptorsFT (Pharmacia), digested with Pac I and cloned into the Pac IFT and Eco RI sites of the modified pT7T3 vector. LibraryFT went through one round of normalization. LibraryFT constructed by Bento Soares and M.Fatima Bonaldo."FT /sex="male"FT /organism="Homo sapiens"FT /clone="IMAGE:129334"FT /clone_lib="Soares fetal liver spleen 1NFLS"FT /dev_stage="20 week-post conception fetus"FT /lab_host="DH10B (ampicillin resistant)"XXSQ Sequence 415 BP; 96 A; 93 C; 127 G; 91 T; 8 other; tttgtacatt tatttgcatg tttattggtt taacacaggg gtcgcaaact caaatgccca 60 cagaggccag gttaggttag cggctgaagc agtctgggga gaggcaaaaa gcaatggcag 120 ggaggtggga cagaggaatn tgggccccaa actatggggg cagctgctac tcagtgccag 180 ctnttcgtcg ccatgggggg aagcgggacc agagccgccg ggtcttcggc tttttcaaga 240 ggacgcataa ctccggattg ttatttgaac tgtcctgact ttggtaagac tctntgacgg 300 tnacagtnaa ggaggccgac tcatcgtcaa tttcacacaa gtactcgccg gagtcctcga 360 gctgggacaa ccgggcagca ccaggcggng ggacagtgtc ttccttntgc angag 415//

Le contexte technique (1) • La situation actuelle enbioinformatique ont été marquéspar les approches qui ont prévalu dans le passé lorsque: • le volume d'information était réduit • les types de données peu diversifiés • moins de corrélation entre les types

Le contexte technique (2) L'information est aujourd'hui : • disséminée dans une multitude debanques de données • stockée sous des formats syntaxiquement hétérogènes • en général non disponible dans des systèmes de gestionde bases de données (SGDB) mais distribuée sous forme de fichiersplats • modélisée dans ces différentes banques selon des sémantiqueshétérogènes et difficiles à mettre en relation

Le système SRS : la référence • SRS (Sequence Retrieval System) est un système européen relativement générique permettant d'intégrer desdizaines de bases génomiques et qui offre des outils denavigation et derecherche orientés WEB • C'est la référence européenne en matière d'intégrationde donnéesgénomiques • SRS repose sur une technologie de fichiers plats ASCII et defichiers d'index qui pointent directement vers des entrées dans les fichiersplats

Limites structurelles de SRS • SRS n'est pas basé sur un SGDB • La technologie sur laquelle repose SRS (pointeurs directs versdes fichiers de données) n'est pas adaptée aux mises à jourincrémentales : c'est un système essentiellementread only • Données peu structurées • Pas d'API permettant d'accéder aux données structurées => données non facilement manipulables par programmes

SRS : exemples • Le serveur SRS du CRI INFOBIOGEN • L’entrée GENBANK-ACC:R11659 • L’entrée EMBL-ACC:R11659 • L’entrée SWISSPROT:PHYA_ARATH

Le projet GIX • Le projet “Environnementd'intégration et de manipulation dedonnéesgénomiques etprotéomiques” (nom de code: GIX pour GenomiCS) propose de remédier à ces problèmes en intégrant dans un mêmeenvironnement les principales bases de données d'intérêt de la génomique • Projet de collaboration SYSRA / INFOBIOGEN en partie subventionnépar le ministère de la recherche (décision 00 H 0348)

GIX : points clés (1) • Une modélisation objetglobale et extensible pour l’ensemble des banques du domaine : • modélisation objet : • fort pouvoir expressif (héritage, méthodes, aggrégations, références ...) • globale : • les utilisateurs (humains et programmes) dispose d'unesémantique unique pour l'ensemble des bases de données • facilitel'accès, la manipulation et l'analyse croisée des données • extensible : • permet d’intégrer de nouvelles banques

GIX : points clés (2) • Un SGBDO pour le stockage des données : • SGBD : • système read write, concurrent, transactionnel, langage de requête ... • adapté aux mises à jour incrémentales • API permettant d’accéder aux données structurées • O : • supporte nativement la modélisation objet

GIX : points clés (3) • Un mécanisme d’importation et de mise à jour des données des principales banques publiques • Une bibliothèque pour l’importation et la mise à jour de données privées • Une boîte à outils pourle développement d'interfaces graphiques orientées WEB

Un SGBDO : lequel ? • Versant ? • Objectivity ? • O2 ? • MATISSE ? • POET ? • ORIENT ? • EYEDB ? • autre ?

Le SGBDO EYEDB • Un premier prototype, IDB, a été développé dans leslaboratoires Généthon dans le cadre du projet Genome View • Ce projet a été initié en 1992 pourstocker et faciliter l'accès aux données du génome humainproduites par Généthon (cartes physique etgénétique) • Depuis 1994, SYSRA développeune nouvelle version avec diverses collaborations : cette nouvelle version, EYEDB, est une réécriturecomplète

EYEDB et ODMG 3.0 • EYEDB est basé sur les spécificationsODMG 3.0: • EYEDB Object Query Language est un sur-ensemble strict de l'ODMG OQL • EYEDB Object Definition Language est un sous-ensemble étendu de l'ODMGODL • Les bindings C++ et Java ne sont pas ODMG compliant

EYEDB : caractéristiques clés (1) • Caractéristiques standards des SGBDO : • Gestion de données typées persistantes • Modèle Client/Serveur • Services Transactionnels • Système de recouvrement • Orienté langage : • Langage de définition des types : ODL • Langage de requêtes : OQL • Bindings C++ & Java • Bindings PHP & PERL

EYEDB : caractéristiques clés (2) • Généricité et orthogonalité du modèle objet : • Chaque classe dérive de la classe object • Polymorphisme • Relations binaires : 1:1, 1:N, N:N • Types littéraux et objets • Surcharge de méthodes et late binding • Services de triggers • Contraintes d’intégrité : unique, not null • Collections template : set, bag & array • Tableaux multi-dimensionnel et de taille variable • Flexibilité du schéma

EYEDB : caractéristiques clés (3) • Support pour les données distribuées : • Binding CORBA • Objets multi-databases • Efficacité : • Storage manager performant • Mode d’accès local • Scalability : • Collections et index paramétrables • Localisation et clusterisation • Les programmes peuvent gérer des centaines de millions d’objets sans perte de performance

La modélisation objet (1) • La modélisation objet est issue de la structure des banques à intégrer • Une partie commune à l'ensemble de ces banques a été isolée : le modèle canonique • Des extensions tenant compte des spécificités de chaque banque ontensuite été ajoutées à la modélisation objet par héritage.

La modélisation objet (2) • Cette approche garantit suffisamment d'extensibilité pour pouvoir intégrerdans l'avenir des donnéesprovenant de sources variées dans le domaine • La modélisation objet a été representée sous forme de diagramme UML à l'aidede l'outil Objecteering. Une passerellebidirectionnelleentre EYEDB et cet outil a été réalisée

Implémentation dans EYEDB (1) • Pour implémenter cette modélisation objetdans EYEDB pour un ensemblede banques génomiques, deux architectures possibles: centraliséeou fédérée : • l'architecture centralisée consiste en une seule baseEYEDB avec un schéma unique • l'architecture fédérée consiste en la séparation des donnéesprovenant de banques génomiques différentes dans des bases de donnéesEYEDB distinctes avec des schémas qui peuvent être éventuellementlégèrement distincts

Implémentation dans EYEDB (2) • L'approche fédérée a été retenue : • l'import des données est plus facilement parallèlisable : limitations uniquement au niveau des accès concurrents au disque • les mises à jour non incrémentales sont plus simples à effectuerpour une nouvelle version d'une banque génomique • il sera possible de réaliser des distributions partielles duproduit à la demande • une modification mineure du schéman'entraîne pas nécessairementla migration de l'ensemble des données

Banques et bases de données en biologie moléculaire : de la donnée à la structure