1 / 38

Diversité des transcrits: Les sites de polyadenylation « intergéniques »

Diversité des transcrits: Les sites de polyadenylation « intergéniques ». Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée. Annotation des génomes. Humain/souris 2005: 22000 gènes annotés Est-on proche de la fin?

hedwig
Télécharger la présentation

Diversité des transcrits: Les sites de polyadenylation « intergéniques »

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Diversité des transcrits:Les sites de polyadenylation « intergéniques » Daniel Gautheret, 2005 INSERM ERM206 Université de la Méditerranée

  2. Annotation des génomes • Humain/souris 2005: 22000 gènes annotés • Est-on proche de la fin? • Si peu de différence avec la mouche (15000 gènes) ou C. elegans (18000) ? Annotation Ensembl

  3. Les EST (expressed sequence tags): l’outil No 1 pour l’annotation des génomes

  4. Hier: clustering d’ESTs pour reconstruire les transcrits (avant 2001: génomes vertébrés non disponibles) Cluster d’ESTs Transcrit reconstruit

  5. Aujourd’hui: Alignements EST/génome exons introns

  6. Alignement EST/génome Skipped exon

  7. Epissage alternatif 3 gènes de détermination du sexe chez la drosophile, épissés différemment selon le sexe de l'individu:

  8. Epissage alternatif via EST • Nombreux travaux réalisés • Sociétés créées exclusivement sur le thème (par ex. Compugen http://www.cgen.com/) • Ex: Modrek B, Resch A, Grasso C, Lee C.Genome-wide detection of alternative splicing in expressed sequences of human genes. Nucleic Acids Res 2001 Jul 1;29(13):2850-9 :

  9. ASAP, AltExtron, ASD, SpliceNest… ASAP interface (Lee et al. 2003)

  10. Travaux récents sur la diversité du transcriptome • Tiling array • Full-length cDNA

  11. Le Tiling Array • Rosetta: technologie de spottage d’oligonuléotides par jet d’encre (inkjet)

  12. Gène bien caractérisé: confirmation des exons « refseq » et apparition de nouvelles régions transcrites (ici correspondant à un cDNA déjà observé)

  13. Apparition de nouveaux gènes dans régions intergéniques sans EST ni prédiction bioinformatique.

  14. Que trouve-t-on? • Nouveaux gènes codants • >2000 transcrits avec ORF non existant dans Ensembl • Nouveaux gènes non-codants • >10000 transcrits • Transcrits antisens • >5000 gènes ont transcription antisens • Isoformes de gènes connus • Au moins 40% à 60% des gènes selon auteurs • Comprend également extensions (parfaois très longues) en 3’ • Artefacts • biologiques: « bruit » transcriptionnel • expérimentaux: hybridation non-spécifique, contamination génomique…

  15. Tiling 2 • Technologie: Affymetrix • 25-mères espacés de 5bp • polyA+ et polyA- • Noyau et cytoplasme • 8 lignées cellulaires différentes Science, 2005

  16. Etat de polyadenylation • Parmi tous les transcrits observés: • 19% polyA+ • 44% polyA- • 37% polyA+ et polyA- • Donc la moitié du transcriptome humain est polyA- • Important, car les transcrits qu’on regardait jusqu’à présent n’étaient que les polyA+!

  17. Position des transcrits • 60% des loci exprimés présentent des évidences de transcription sur 2 brins • Beaucoup de transcription dans l’intergénique: • 50% des polyA- cytoplasmiques et 25% des polyA- nucléaires sont intergéniques • 41% des polyA+ nucléaires sont intergéniques

  18. 100,000 Full length cDNAs + 1M « CAGE » (sortes de SAGE en 5’) Full length cDNAs Science, 2005

  19. Utilité des full-lengths • Etude des promoteurs (impossible avec les EST) • TSS alternatifs, exons 5’ alternatifs

  20. Transcrits et Unités de Transcription • TU: Transcription Unit. mRNAs sharing at least 1 nt and with same location and orientation

  21. Conclusion projet « FANTOM3 » • 32000 transcrits non-codants • 16000 nouveaux transcripts codants • 5000 nouvelles protéines • La majorité du génome est transcrit sur les deux brins • La grande diversité des transcrits dans chaque TU soulève le problème de la précision des puces ADN conventionnelles, dans lesquelles chaque sonde hybride différents transcrits

  22. Les besoins actuels • Intégration initiation+épissage+transcription • Caractérisation des nouveaux transcrits • Etude fonctionnelle (domaines, etc.) • Conservation • Validation expérimentale • Tissu-spécificité The Alternative Transcript Diversity Project (ATD), 6e PCRD

  23. La polyadénylation alternative Cleavage + polyA-addition site Pre-mRNA PolyAdenylation Signal Coding sequence 3' UTR AAUAAA CA GUUGU AUUAAA CA GUUGU To 5' end AAAAAAAAA... AAAAAAAAA... mRNA alternative transcripts

  24. PAS Discovery through EST/mRNA Alignment mRNA or EST-contig 5’ESTs ESTs 3’ESTs First observation in 1998: 189 cases of alternative polyadenylation 2000: 1000 cases Gautheret et al. (1998) Genome Res. 8, 524 Beaudoing et al. (2000) Genome Res. 10, 1001

  25. EST-based PAS Map 2005 human mouse chicken Tot PAS 66,600 52,300 3,500 PAS <3K from ENSEMBL Gene 31,000 27,900 2,900 PAS >10K from ENSEMBL Gene 29,000 19,400 300 Genes with no PAS 30% 36% 80% Genes with 2 or more PAS* 50% 43% 7% *relative to all genes with 1+ PAS -> 54% human, 32% mouse (accept multiple sites for 1 signal, but refseq UTR only)

  26. Intergenic PAS? • « Intergenic » PAS are made of • False positives • Long range PAS • PAS from novel genes stop stop

  27. What is the actual reach of 3’UTRs? • Textbook « Human Molecular Genetics 2 » (1999): • 3′ UTR Average of about 0.6 kb (see Zhang, 1998) but this is likely to be an underestimate because of underreporting of genes with long 3′ UTRs • Untranslated Regions of mRNA (Mignone et al. 2003) :

  28. Several recent papers mentioning distal PAS • All rely on EST sampling, but: • Require alignment on refseq gene/fl cdDNA or overlapping ESTs • Cannot assess all long range PAS

  29. Site distribution ? 9kb Ratio 5’ supported # sites in 500nt window Distance from STOP • 5’ support is significant up to 9kb past Stop codon • May be limited by cloning capacity (few inserts larger than 6kb)

  30. cDNA 3’EST 5’EST Position of 5’ EST in transcript start stop Relative position of 5’ EST (% of transcript) Distance of 3’ EST from STOP • As distance from Stop increases, 5’ EST are located closer to 3’ end • After >6kb, most 5’ EST are « out of gene »

  31. Classification Trees for PAS prediction • 8 Variables: • canonical/non canonical signal • Erpin score for downstream region • #supporting ESTs • PolyA/T in ESTs • ESTs overlap previous site • Full-length cDNA • Single/multiple EST libraries • 5’EST from same clone mapping within gene Class 1 Class 2 stop 5kb 10kb 15kb 20kb

  32. Classification tree + Voting Procedure -> class 1 / class 2

  33. Importance of variables • Canonical/non canonical • Erpin score • #supporting ESTs • polyA/T in ESTs • Overlap with previous site • Full-length cDNA • Single/multiple EST libraries • 5’EST from same clone All variables No 5’ EST

  34. Average P-value vs Distance @20k: ave P-value=0.21 20% have P-value >0.5 Relative position of 5’ EST (% of transcript) 13kb Distance from STOP • 20% of long distance sites correspond to bona fide PAS

  35. Conclusions • P-values for polyA sites • 6000 Novel polyA+ genes in intergenic • Average 3’ UTR longer than measured based on 5’ EST mapping: around 2kb mean. • Consequence for ncRNA search in UTRs

  36. Equipe • polyA group @TAGC • Matthieu Legendre • William Ritchie • Takeshi Ara • Fabrice Lopez • Arbres de classification: • Badih Ghattas, Département de Mathématiques, Aix-Marseille II

More Related