850 likes | 1.07k Vues
Analyse statistique des séquences génomiques. DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr. Plan. Taille des génomes, paradoxe de la valeur C Contenu informationnel Séquences répétées Organisation en isochore des génomes de vertébrés
E N D
Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr
Plan • Taille des génomes, paradoxe de la valeur C • Contenu informationnel • Séquences répétées • Organisation en isochore des génomes de vertébrés • Projets génomes: état des lieux • Recherche de gènes protéiques • Méthodes ab initio • Utilisation des EST • Approche comparative • Recherche de régions régulatrices non-codantes • Méthodes ab initio • Approche comparative
Functional elements in the human genome Untranslated RNAs: Xist, H19, His-1, bic, etc. Regulatory elements: promoters, enhancers, etc. 2% ??
How many genes in the human genome ?Fields et al. 1994 Liang et al. (2000) 120,000 EST Erwing & Green (2000) 34,000 EST + chrom. 22 Roest Crollius et al. (2000) 31,000 Fish / human
Structure of human protein genes • 1396 complete human genes (exons + introns) from GenBank (1999) • Average size (25%, 75%) • Gene 15 kb ± 23 kb (4, 16) (10% > 35 kb) • CDS 1300 nt ± 1200 (600, 1500) • Exon (coding) 200 nt ± 180 (110, 200) • Intron 1800 nt ± 3000 (500, 2000) • 5'UTR 210 nt (Pesole et al. 1999) • 3'UTR 740 nt (Pesole et al. 1999) • Intron/exon • Number of introns: 6 ±3 introns / kb CDS • Introns / (introns + CDS): 80% • 5' introns in 15% of genes (more ?), 3 ’introns very rare • Alternative splicing in more than 30% of human genes (Hanke et al. 1999)
Structure of human protein genes • GenBank: bias towards short genes • 1396 complete human genes (exons + introns)
Structure of human protein genes • GenBank: bias towards short genes • 1396 complete human genes (exons + introns) • 9268 complete human mRNA
Retropseudogènes • 23,000 à 33,000 retropseudogènes dans le génome humain • Les gènes qui génèrent des retropseudogènes sont généralement de type housekeeping • Gonçalves et al. 2000
Fréquence des éléments transposables dans le génome humain • Total = 42% (Smit 1999)
Fréquence des éléments transposables dans le génome humain (Smit 1999)
Organisation en isochore des génomes de vertébrés: mise en évidence expérimentale Fractionnement du génome de la souris par centrifugation en gradient de densité (Bernardi et al. 1976)
Analyse statistique des séquences publiées dans les banques de données. Corrélation entre la composition en base en position 3 des codons et celle de l'envirronement génomique dans lequel se trouve le gène
7 7 Moy = .612 Moy = .639 Ecart-t = .158 Ecart-t = .171 6 6 5447 séq 818 séq 5 5 4 4 3 3 2 2 1 1 0 0 0 20 40 60 80 100 0 20 40 60 80 100 Analyse statistique des séquences publiées dans les banques de données. Distribution en fréquence des gènes dans les différentes classes d'isochores 14 12 Moy = .509 Moy = .580 Ecart-t = .106 12 Ecart-t = .103 10 703 séq 173 séq 10 8 8 6 6 4 4 2 2 0 0 0 20 40 60 80 100 0 20 40 60 80 100 Nb de gènes (%) Danio Xénope Homme Poulet CDS GC3%
Isochore organization of vertebrate genomes • Insertion of repeated sequences (A. Smit 1996) • Recombination frequency (Eyre-Walker 1993) • Chromosome banding (Saccone, 1993) • Replication timing (Bernardi, 1998) • Gene density (Mouchiroud, 1991) • Gene expression ?? -> No • Gene structure (Duret, 1995)
Isochores and insertion of repeat sequences (Smit 1999) 4419 human genomic sequences > 50 kb
Isochores and gene density MHC locus (3.6 Mb) (The MHC sequencing consortium 1999) Class I, class II (H1-H2 isochores): 20 genes/Mb, many pseudogenes Class III (H3 isochore): 84 genes/Mb, no pseudogene Class II boundaries correlate with switching of replication timing Chromosome 21
Isochores and introns length Duret, Mouchiroud and Gautier, 1995 • 760 complete human genes • L1L2: intron G+C content < 46% • H1H2: intron G+C content 46-54% • H3: intron G+C content >54%
Projets Génome: état des lieux • Les différents projets génome • Nature et qualité des séquences produites • Annotation des séquences génomiques: recherche de régions fonctionnelles
Projets Génome • Eubacteria: 29 génomes complets (dont 19 dans les 12 derniers mois !) • Archaea: 6 génomes complets • Eukaryotes: 3 (4) génomes complets • levure: 13 Mb 100% • P. falciparum 30 Mb 24% • C. elegans (nematode) 100 Mb 95% • A. thaliana 120 Mb 60% • Drosophila 170 Mb 60% (100%) • homme 3200 Mb 25% • « draft » 90% complete in 2000, finished in 2003 • souris 3000 Mb 1%
Etapes du séquençage génomique ébauche (draft) Phase 0-1: séquence non-terminée; contigs non-ordonnés, non-orientés; gaps Phase 2: séquence non-terminée; contigs ordonnés, orientés; gaps Phase 3: séquence terminée Phase 0-2: séquences mentionnées HTG (High Throughput Genome sequences) dans les banques de données
Projets EST (transcriptome) • Expressed Sequence Tags (EST) • Inventaire des ARNm exprimés par un organisme, dans différents tissus, stades de développement, pathologies, … • Extraction et clonage des ARNm (banques d ’ADNc) • Séquençage systématique des clones • Séquences partielles d ’ARNm (300-500 nt) • Erreurs de séquence (1-3%) • Redondance (gènes fortement exprimés) • Qualité suffisante pour identifier un gène • Automatisation
Projets EST à grande échelle Nombre d'EST (Nov. 99) • Homo sapiens 1,611,810 • Mus musculus (souris) 697,486 • Rattus sp. (rat) 124,378 • Caenorhabditis elegans (nématode) 101,232 • Drosophila melanogaster 86,121 • Oryza sativa (riz) 47,083 • Arabidopsis thaliana (arabette) 45,752 • Danio rerio (poisson zèbre) 40,001 • Zea mays (maïs) 39,285 • Lycopersicon esculentum (tomate) 38,047
Projets GSS • Genome Survey Sequence (GSS) • Echantillonage aléatoire de séquence génomiques: donner un premier aperçu du contenu d'un génome • Banques d ’ADN génomique • Séquençage systématique de clones • Séquences courtes (< 1kb) • Erreurs de séquence (1-3%) • Qualité suffisante pour identifier un gène • Automatisation
Projets GSS à grande échelle Nombre de GSS (Nov. 2000) • Homo sapiens863,041 • Mus musculus (souris) 452,033 • Tetraodon nigroviridis 188,963 • Oryza sativa (riz) 93,107 • Strongylocentrotus purpuratus (oursin) 76,019 • Arabidopsis thaliana (arabette) 61,265 • Trypanosoma brucei 48,123 • Drosophila melanogaster44,785 • Takifugu rubripes 42,929
Genome Sequence Data • Traditional sequences: correspond to biologically characterized genes, annotated by reearchers or database curators, usually relatively short (<20,000). • Finished genome sequences: long contiguous sequences, correspond to clones (cosmid, BAC, PAC); partly automatically generated annotations covers repetitive elements, kown and predicted genes, EST matches • Unfinished genome sequences (draft): large sequence entries consisting of unordered pieces separated by runs of N's, correspond to clones, contain minimal annotation. • Genome survey sequences: low-quality, single pass sequences from a variety of different projects (BAC end sequencing, polymorphism studies, CpG islands, etc.), minimal annotation.
Different types of nucleotide sequences in current databases
GenBank release 119 (September 28, 2000) Division Entries Nucleotides % nt EST 5,843,794 2,337,244,350 23% HTG 77,960 4,373,497,668 44% GSS 1,724,845 951,450,849 9% PRI 135,144 1,073,472,484 11% Other 882,631 1,296,473,741 13% Total 8,664,374 10,032,139,092 100% Human 3,518,824 6,253,704,359 62%
The human genome sequencing projectWhere are we today (July 17 2000) ? • According to Phillip Bucher (SIB, Lausanne) statistics and genome coverage estimates (see also EBI's statistics: http://www.ebi.ac.uk/~sterk/ genome-MOT)
Exponential growth of sequence data • Doubling time: 13 mounths (8 mounths) Publicly available sequences (Mb)
Contenu des banques de séquences nucléiques • Avril 2000: • 6.106 séquences • 7.109 bases • 60 000 espèces • 9 espèces (0.02%) représentent à elles seules 85% des séquences • Homo sapiens 62.1% • Mus musculus 7.7% • Drosophila melanogaster 6.1% • Caenorhabditis elegans 3.3% • Arabidopsis thaliana 2.9% • Oryza sativa 1.3% • Rattus norvegicus 0.8% • Danio rerio 0.6% • Saccharomyces cerevisiae 0.6%
Next steps in genome projects • Identify genes and other functional elements within genomic sequence (where are the genes ?) • Determine the function of genes (what do they do ?)
Structure of human protein genes • 1396 complete human genes (exons + introns) from GenBank • Average size (25%, 75%) • Gene 15 kb ± 23 kb (4, 16) (10% > 35 kb) • CDS 1300 nt ± 1200 (600, 1500) • Exon (coding) 200 nt ± 180 (110, 200) • Intron 1800 nt ± 3000 (500, 2000) • 5'UTR 210 nt (Pesole et al. 1999) • 3'UTR 740 nt (Pesole et al. 1999) • Intron/exon • Number of introns: 6 ±3 introns / kb CDS • Introns / (introns + CDS): 80% • 5' introns in 15% of genes (more ?), 3 ’introns very rare • Alternative splicing in more than 30% of human genes (Hanke et al. 1999)
Prédiction de gènes eucaryotes (1)méthodes ab initio • Prédiction d ’exons codants • Recherche de phases ouvertes de lecture (ORF: open reading frame) • Taille moyenne des exons: ± 150 nt • Statistiques sur les nucléotides, usage des codons • Périodicité d'ordre 3, fréquence d ’hexamères • Signaux d ’épissage • Construction d ’un modèle de gène protéique • Combinaison d ’exons de phases compatibles (pondération en fonction des scores de chaque exon potentiel) • Recherche de limites de gènes • Exons terminaux (5 ’, 3 ’) • Promoteur • Signal de polyadénylation • Epissage alternatif ?? Exons non codants ?? Gène transcrits non codants (Xist, …) ??
Prédiction de gènes eucaryotes: qualité de la prédiction • Comparaison des différents logiciels: sensibilité/spécificité • Sn: sensibilité Sp: spécificité par exon (sn_e, sp_e) ou par nucéotide (sn_e, sp_e) • Jeu de données Burset-Guigo (1996): 570 gènes de vertébrés • Jeu de données Salamov et al (1998): 660 gènes humains
Prédiction de gènes eucaryotes: qualité de la prédiction • Comparaison des différents logiciels: sensibilité/spécificité • Sn: sensibilité Sp: spécificité par exon (sn_e, sp_e) ou par nucéotide (sn_e, sp_e) • Locus BRCA2 (1.4 Mb, chrom. 13q) (Sanger Centre 1999): région "difficile" pour les logiciels de prédiction. 159 exons