1 / 32

Annotation des génomes et réalité biologique Pierre Rouzé pierre.rouze@psb.ugent.be http://bioinformatics.psb.ugent.be/

Annotation des génomes et réalité biologique Pierre Rouzé pierre.rouze@psb.ugent.be http://bioinformatics.psb.ugent.be/ Laboratoire INRA associé à l ’Université de Gand VIB Department of Plant Systems Biology BioInformatics & Evolutionary Genomics Unit.

colm
Télécharger la présentation

Annotation des génomes et réalité biologique Pierre Rouzé pierre.rouze@psb.ugent.be http://bioinformatics.psb.ugent.be/

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Annotation des génomes et réalité biologique Pierre Rouzé pierre.rouze@psb.ugent.be http://bioinformatics.psb.ugent.be/ Laboratoire INRA associé à l ’Université de Gand VIB Department of Plant Systems Biology BioInformatics & Evolutionary Genomics Unit

  2. Vous vous intéressez à une famille de gènes dans un ou plusieurs génomes que quelqu’un a séquencé pour vous … Mais ce n’est pratiquement jamais la séquence brute du génome que vous allez utiliser … mais celle de sous-séquences de ce génome que quelqu’un a « annotées » pour vous Comment a été faite cette annotation ? Que vaut-elle ? En quoi correspond-elle (ou non) à ce que vous imaginiez ?

  3. Notre équipe a acquis une expérience de l’annotation des génomes eucaryotes en participant à de nombreux projets de séquençage de génomes complets Eukaryota PlantaeChromalveolataAmoebozoa Rhizaria ExcavataOpisthokonts Viridiplantae Rhodophyta Heterokonta green plants red algae stramenopiles ChlorophytaStreptophyta AlveolataDinophyceaePhaeophyceae FungiMetazoa green algaedinoflagellates brown algae Telonema PrasinophyceaeChlorophyceaeCyanidioschyzon Thalassiosira Ectocarpus Homo sapiens merolae pseudonana siliculosus D.melanogaster & others Plasmodium Ostreococcus [x3] Chlamydomonas falcipaum Micromonas reinhardii BathycoccusEmbryophyta Glomeromycota Basidiomycota Ascomycota BryophytaTracheophytaGlomusMelampsora (mosses) (vascular plants) intraradices Laccarialarici-populina bicolor Physcomitrella Spermatophyta Heterobasidion patens(seed plants) annosum MagnoliophytaConiferopsida Tuber yeasts melanosporum LiliopsidaEudicotyledonsPicea abies (monocotyledons) Asterids Rosids Oryza sativa Eurosids II Eurosids I BrassicalesMyrtales Fabales Malpighiales Rosales SolanumArabidopsis thaliana EucalyptusMedicago Manihot Populus Prunus esculentum Arabidopsis Capsella globulus truncatula esculenta trichocarpa persica lyrata rubella

  4. Annotation « structurale » des génomes communément appelée « prédiction de gènes » Objectif Démarche & stratégies Evaluation Les problèmes Où est la réalité biologique ? impact sur la phylogénie

  5. Positionner les éléments génétiques sur la séquence génomique … de manière précise, complète et exhaustive En pratique, le plus souvent, positionner les gènes et leurs produits : transcrits, protéines .. mais aussi – quelquefois – d’autres objects, comme les éléments transposables, les motifs de régulation, les domaines, etc… En général, implicitement, les gènes codant pour les protéines mais aussi – souvent - les gènes codant pour les ARNt, les ARNr, et - quelquefois - d’autres ARNs (snRNAs, snoRNAs, miRNAs)

  6. 5’ 3’ W + 3’ 5’ C - 5’ 3’ In the beginning was the DNA sequence, and everything was neat … but so deeply boring !

  7. Uba1 gene and associated features strongly supported by many ESTs Cdc55 gene and associated features No EST, but database protein similarity Then annotation came … and it was so funny… but such a mess, sometimes !

  8. Annotation « structurale » des génomes communément appelée « prédiction de gènes » Objectif Démarche & stratégies Evaluation Les problèmes Où est la réalité biologique ? impact sur la phylogénie

  9. Principes • Méthode expérimentale : • on aligne la séquence génomique (gDNA) et la séquence du transcrit cognat (cDNA), complet, isolé sur le même organisme • Méthodes comparatives (extrinsèques) • on traduit la séquence génomique en protéine sur ses 6 phases et on compare le tout aux séquences des protéines contenues dans les banques de données • on compare la séquence génomique à la séquence des ESTs dont on dispose • on compare la séquence génomique à la séquence génomique d’autres espèces • Méthodes ab initio (intrinsèques) on apprend à reconnaître les particularités communes à tous les gènes de notre génome, puis on recherche où on les retrouve sur la séquence génomique • Méthodes intégratives pourquoi ne pas combiner ces approches ?

  10. Méthode expérimentale C’est l’unique méthode sûre pour l’annotation puisqu’elle permet de positionner le transcritdans sa totalité sur la séquence génomique sur une base expérimentale. Par contre le positionnement de l’ATG initiateur lui est (quasi toujours) … virtuel Même avec cette méthode, il y a des problèmes mal résolus : En pratique, les cDNAs « pleine longueur » sont souvent incomplets Les extrémités 3’ et 5’ sont rarement bien positionnées il peut même manquer des exons ! Dans beaucoup d’espèces il y a plusieurs manières de lire un gène à un locus donné… et l’expérimentateur en a isolé une, à laquelle il s’intéresse Les transcrits alternatifs sont (souvent) ignorés La modélisation automatique des gènes par positionnement des exons transcrits n’est pas sûre à 100% : les petits exons et les petits introns sont difficiles à localiser (pour de simples raisons statistiques) et rique même d’être oubliés.

  11. Méthodes comparatives Recherche dans les bases de données protéiques: principe La logique de cette approche est basée sur l’existence de bases de données et sur l’évolution : si un gène GX a été décrit dans l’espèce X, on le retrouvera dans l’espèce Y apparentée … et la séquence du produit de ce gène GY (sur lequel agit la sélection) sera similaire à la séquence de la protéine codée par GX Si X et Y sont vraiment très proches, la seule connaissance de la séquence protéique d’un gène GX de l’espèce X peut permettre la modélisation de son orthologue GY (et dans une moindre mesure de ses paralogues) sur le génome de Y Si X et Y sont plus distants, ou si le gène G évolue rapidement, alors on aura la trace que ce gène existe chez Y, mais on ne pourra pas bâtir de manière sûre un modèle (complet) du gène GY sur la séquence génomique Et si GY est un gène orphelin, on ne verra même pas qu’il existe par ce moyen…

  12. Méthodes comparatives Recherche dans les bases de données protéiques: problèmes Les bases de données de séquences protéiques sont (pour la très grande majorité) construites à partir de la traduction automatique de séquences nucléiques annotées Si les dites séquences sont incomplètes (ex, EST), ou pire, ont été mal annotées alors les séquences protéiques déduites seront partielles ou erronées. Du fait du nombre important de génomes séquencés, une fraction importante (>1/3) et croissante des protéines sont le sous-produit de ce séquençage et des annotations (souvent automatiques) qui en ont été faites… Un grand nombre de séquences de ces « protéines » sont donc entachées d’erreur, modestes (absence ou mauvaise frontière d’exon), sérieuses (frameshifts, fusion ou rupture de gènes) ou graves (gène inexistant). D’où l’intérêt de BD de protéines validées par des experts (ex: SwissProt) Si les programmes d’annotation utilisent ces bases de données (ex: TrEMBL) les erreurs sont récursives et on finit par bâtir des familles entières de gènes imaginaires …

  13. Méthodes comparatives Comparaison avec les séquences d’ESTs: principe & problèmes La logique de cette approche est très semblable à l‘approche expérimentale, les ESTs étant des fragments d’ADNc isolés à partir de cellules de l’organisme étudié Elle est même moins biaisée, puisque les ESTs sont séquencés de manière systémique: les transcrits alternatifs seront séquencés … s’ils sont exprimés Les problèmes générés par l’emploi d’ESTs sont bien connus : Les séquences d’ESTs sont de qualité médiocre et peuvent contenir des erreurs Les séquences d’ESTs peuvent être contaminés par des copies d’ADN génomique Les séquences d’ESTs ne recouvrent qu’une partiedu transcrit, normalement l’extrémité à partir de laquelle le séquençage a été amorcé (souvent 3’) Les ESTs reflètent l’expression du génome : les gènes non (peu) exprimés dans les conditions où les transcrits ont été isolés n’y figurent pas Les séquences des ESTs d’un gène G peuvent être attribuées à ses paralogues Les avantages (sous-estimés) : les paires d’ESTs 5’-3’, la directionalité ..

  14. Méthodes comparatives Comparaisons ADN génomique - ADN génomique La logique de cette approche est ancrée dans l’évolution des génomes : c’est d’abord sur les produits des gènes que la sélection opère. On observe de ce fait que les séquences codantes sont les régions les plus conservées entre génomes apparentés La comparaison de deux, ou mieux plusieurs génomes apparentés entre eux conduit à trouver les régions conservées qu’on attribue aux exons codants. L’avantage de cette méthode est qu’elle ne dépend ni de l’annotation préalable des génomes (les gènes absents des bases de données peuvent être trouvés) ni de l’expressivité des gènes. L’inconvénient majeur est qu’elle est davantage un prédicteur d’exons qu’un prédicteur de gènes: rien ne dit comment il faut regrouper les exons d’un même gène Par contre elle ne fonctionne que dans une « fenêtre » évolutive assez étroite : le signal disparaît entre génomes trop distants et est très brouillé dans les génomes trop proches

  15. Méthodes ab initio principe Toute séquence d’ADN n’est pas celle d’un gène : les séquences de gènes ont des propriétés particulières, qui permettent d’ailleurs aux mécanismes d’expression de les transcrire, de produire un transcrit mature, de traduire ce transcrit … Il peut s’agir de propriétés de contenu (par exemple les séquences codantes) ou des signaux (par exemple les motifs d’épissage) Chaque (groupe de) génome(s) a un style qui lui est propre: usage du code, typologie des motifs, fréquence, taille et contenu des introns, nature et taille des régions non-traduites et des régions intergéniques … Le processus de prédiction de gènes repose sur deux phases : Apprentissage : il faut rassembler des gènes bien documentés, en extraire les données informatives et entraîner les algorithmes à les reconnaître individuellement Prédiction : chaque algorithme élémentaire reconnaît une caractéristique, et la combinaison de ces éléments prédits conduit à la prédiction globale des gènes

  16. Méthodes ab initio Prédiction des séquences codantes : principe les séquences codantes ont une particularité forte, l’existence des codons qui rythme l’ADN en trinucléotides successifs. Chaque organisme fait un usage particulier du code: le reconnaître permet de l’utiliser en retour pour trouver quel segment (phasé) d’ADN a tendance à suivre cet usage particulier, ou non. La probabilité de voisinage de deux codons n’est pas non plus le fait du hasard La prédiction du « potentiel codant » se fait donc par la recherche de distribution des hexanucléotides, ou mieux par des méthodes d’analyse markovienne : sur une séquence ABCDEFG la probabilité de trouver F dépend de E qui le précède (chaine de Markov d’ordre 1) et/ou de D et E (chaine de Markov d’ordre 2), etc.. En pratique, on utilise des chaines de Markov phasées d’ordre 4, 5 ou 6 (GeneMark) ou « interpolées » d’ordre 1 & 2 & 3.. (Glimmer). L’annotation structurale des génomes bactériens (qui ont le bon goût de ne pas posséder d’introns) fonctionne très bien avec cette unique information !

  17. Méthodes ab initio Prédiction des séquences codantes : limites L’usage du code n’est pas uniforme. Certains gènes (souvent les plus exprimés) ont un biais de codon très fort, et d’autres beaucoup plus faible, voire neutre Des régions entières du génome, ou des groupes de gènes peuvent avoir une composition particulière (ex GC% élevé) ou une origine phylogénétique distincte (Transfert Horizontal) et avoir de ce fait un usage particulier des codons Certains gènes ont un biais de composition en acides aminés (par exemple les protéines membranaires intrinsèques) et, de ce fait, un usage du code déviant A l’intérieur même des gènes, l’usage des codons n’est pas nécessairement uniforme. Le biais de codons peut –par exemple- aller en se dégradant de l’ATG initiateur au Stop. Les séquences d’adressage N-terminale ont une composition biaisée en acides aminés et du coup elles aussi un usage du code déviant

  18. exemple typique de motifs : les sites d’épissage Site donneur Site accepteur 97.5% exon exon intron exon 2.5% Exemple issus du génome de Laccaria bicolor (champignon basidiomycète)

  19. Méthodes intégratives Chacune des méthodes précédentes a ses avantages et ses inconvénients Pour un génome particulier, on a des contraintes et des ressources spécifiques (limitées) qui conduisent dans chaque cas à construire un shéma adapté pour aboutir à un résultat optimal : Nombre et couverture des ESTs Proximité (ou non) avec un ou plusieurs génomes séquencés Données pré-existantes (séquences validées de gènes, ARNm et de protéines) Taille du génome, fréquence d’éléments transposables (connus, inconnus) Qualité (taux de couverture) du séquençage et de l’assemblage Connaissance de la biologie (génétique) de l’organisme, ou ignorance ? Les méthodes intégratives se proposent de prendre en entrée les différents types d’information ou prédiction, de les prendre en compte de manière pondérée, et d’établir une prédiction unique. L’exemple-type : Eugène

  20. Poplar proteins Other At proteins Other Plant proteins SwissProt Content potential for coding, intron and intergenic Poplar IMM PIR Arabidopsis FLcDNA supported proteins Poplar RepBase Poplar cDNA & EST join(9265..9395,9749..99342). complement(join(10164..10295,10349..10420,10467..10514,10566..10626,10681..10770,10823..10949,11001)) TBlastx Blastn Blastx RepeatMasker SpliceMachine Extrinsic modules Genome Sequence Gene Models Arabidopsis genome ATCCGTAAGATGGTGCGATGCCCTAAATGGGTCGGTTTATAAAGGCGCGTAGGTAAGTGCAATTTATTCTTCAAGTTCCGAATTTTATATGCGCATATCGTCAGTTCTTCTGTTGCAGTTGGCGCACTTGGACTACCTGCAATTTATTCTTCAAGTTCCGAATTTTATAT EuGene DAG Splice Sites Start ATG Translation Start Site prediction Output Input Intrinsic modules

  21. Shifting from exon to intron …

  22. Eugène complete pipeline Annotation experts Genome/Genome conservation Structural prediction Proteins DB BlastX hits EuGène SpliceMachine Relations between evidence and prediction BACs Pseudo molecule Markov model EST/ cDNA alignments Simple automatic InterproScan based functional annotation Repeats Other Existing predictions from Thomas Schiex, 2006

  23. Annotation « structurale » des génomes communément appelée « prédiction de gènes » Objectif Démarche & stratégies Evaluation Les problèmes Où est la réalité biologique ? impact sur la phylogénie

  24. Gene finder evaluation • Sensitivity : % of functional units which are predicted. • Specificity : % of predicted units which are functional. • Nucleotide level (coding) Sn N/Sp N • Exon level (totally correct): Sn E/Sp E • Gene Level (all exons correct): Sn G/Sp G

  25. Medicago truncatula Evaluation set from freshly sequenced BACs + mRNA From Thomas Schiex, 2006

  26. Annotation « structurale » des génomes communément appelée « prédiction de gènes » Objectif Démarche & stratégies Evaluation Les problèmes Où est la réalité biologique ? impact sur la phylogénie

  27. Transposable Elements and other Repeats, Gene modeling should be done after filtering out repeats … In many eukaryotic organisms, Transposable Elements (TEs) occupy a large fraction of the genome than genes (see next slide) The human genome is a typical case … This makes gene finding even more difficult : TEs may look like protein encoding genes (transposase and remains) TEs perturb the deciphering of real gene models, e.g. by inserting as long stretches in introns TEs insert into active genes and turn them into pseudogenes TEs can carry and retrocopy inserted genes into other kind of pseudogenes Identifying pseudogenes as such is a major issue for some genomes

  28. Genome size and Transposable Elements Genome size (picograms) % TEs Rana esculenta Frog 5.6–8.0 77 Zea mays Maize 5.0 60 Homo sapiens Human 3.5 45 Mus musculus Mouse 3.4 40 Drosophila melanogaster Fruitfly 0.18 15–22 Caenorhabditis elegans Worm 0.1 12 Saccharomyces cerevisiae Yeast 0.012 3–5 Escherichia coli Bacteria 0.0046 0.3 Taken from Biémont & Vieira, Nature (2006) 443:521-522

  29. Pseudogènes Une définition floue, mais une réalité préoccupante Les pseudogènes, des gènes inactivés, qui peuvent être transcrits ou non, dont le produit d’expression (s’il existe) n’est (probablement) pas fonctionnel Certains pseudogènes sont issus de rétrocopies et d’autres sont de simples (copies de) gènes inactivés par mutation ou par insertion de TEs. Leurs séquences codantes n’étant plus soumises à la sélection fonctionnelle, leur séquence évolue librement, et au fil du temps l’origine des séquences fossiles devient difficilement reconnaissable Ils sont une source de confusion pour les logiciels automatiques de prédiction de gènes qui tentent d’y construire des modèles de gènes normaux qui ne sont ni ceux de vrais gènes, ni même souvent ceux des pseudogènes sous-jacents. Beaucoup de gènes « hypothétiques » (en particulier les gènes de petite taille) peuvent correspondre à de telles erreurs In the investigation of pseudogenes (experimental investigation) is impossible; a computational tool might annotate a given segment as a pseudogene, but the prediction cannot be experimentally verified. from Mark Gerstein, Pseudogene.org, NAR database issue 2007

  30. Annotation « structurale » des génomes communément appelée « prédiction de gènes » Objectif Démarche & stratégies Evaluation Les problèmes Où est la réalité biologique ?

  31. La nature et la qualité des prédictions Un exemple de ce qu’on aimerait toujours voir dans les fiches issues d’annotation Protein 1..1016 /product="putative Fe-S oxidoreductase" CDS 1..1016 /gene="ydiJ" /locus_tag="PSHAb0556" /coded_by="complement(CR954247.1:623016..626066)" /inference="non-experimental evidence, no additional details recorded" /note="Evidence 3 : Function proposed based on presence of conserved amino acid motif, structural feature or limited homology; Product type e : enzyme" COMMENT Each annotation includes a confidence level as follow: 1 : Function experimentally demonstrated in the studied organism 2a : Function of homologous gene experimentally demonstrated in an other organism 2b : Function of strongly homologous gene 3 : Function proposed based on presence of conserved amino acid motif, structural feature or limited homology 4 : Homologs of previously reported genes of unknown function 5 : No homology to any previously reported sequences 6 : Doubtful CDS 7 : Gene remnant. Entryfrom Pseudoalteromonas haloplanktis TAC125, Médigue et al , 2005

  32. La nature et la qualité des prédictions Et non pas … Protein 1..968 /product="D-lactate dehydrogenase (cytochrome)" /EC_number="1.1.2.4" /calculated_mol_wt=107616 CDS 1..968 /locus_tag="FjohDRAFT_3617" /coded_by="complement(NZ_AAPM01000003.1:593258..596164)" Orthologuefrom Flavobacterium johnsoniae UW101, Copeland et al., 2006 Protein 1..977 /product="putative glycolate oxidase" /calculated_mol_wt=106898 CDS 1..977 /locus_tag="ISM_04010" /coded_by="NZ_AALY01000001.1:788861..791794" /note="COG0277 FAD/FMN-containing dehydrogenases" Orthologue from Roseovarius nubinhibens ISM, Moran et al. , 2005 Dans les deux cas une fonction spécifique est proposée, sans qu’on sache ce qui supporte ces assertions. Ici seule l’annotation fonctionnelle est en cause, mais s’agissant de génomes eucaryotes, ce type d’abus influe sur l’annotation structurale

More Related