Analyse statistique des séquences génomiques

Analyse statistique des séquences génomiques DEA en bioinformatique Marseille 10 Novembre 2000 Laurent Duret duret@biomserv.univ-lyon1.fr

Plan • Taille des génomes, paradoxe de la valeur C • Contenu informationnel • Séquences répétées • Organisation en isochore des génomes de vertébrés • Projets génomes: état des lieux • Recherche de gènes protéiques • Méthodes ab initio • Utilisation des EST • Approche comparative • Recherche de régions régulatrices non-codantes • Méthodes ab initio • Approche comparative

Functional elements in the human genome Untranslated RNAs: Xist, H19, His-1, bic, etc. Regulatory elements: promoters, enhancers, etc. 2% ??

How many genes in the human genome ?Fields et al. 1994 Liang et al. (2000) 120,000 EST Erwing & Green (2000) 34,000 EST + chrom. 22 Roest Crollius et al. (2000) 31,000 Fish / human

Structure of human protein genes • 1396 complete human genes (exons + introns) from GenBank (1999) • Average size (25%, 75%) • Gene 15 kb ± 23 kb (4, 16) (10% > 35 kb) • CDS 1300 nt ± 1200 (600, 1500) • Exon (coding) 200 nt ± 180 (110, 200) • Intron 1800 nt ± 3000 (500, 2000) • 5'UTR 210 nt (Pesole et al. 1999) • 3'UTR 740 nt (Pesole et al. 1999) • Intron/exon • Number of introns: 6 ±3 introns / kb CDS • Introns / (introns + CDS): 80% • 5' introns in 15% of genes (more ?), 3 ’introns very rare • Alternative splicing in more than 30% of human genes (Hanke et al. 1999)

Structure of human protein genes • GenBank: bias towards short genes • 1396 complete human genes (exons + introns)

Structure of human protein genes • GenBank: bias towards short genes • 1396 complete human genes (exons + introns) • 9268 complete human mRNA

ADN satellite: centromères

Retropseudogènes • 23,000 à 33,000 retropseudogènes dans le génome humain • Les gènes qui génèrent des retropseudogènes sont généralement de type housekeeping • Gonçalves et al. 2000

Fréquence des éléments transposables dans le génome humain • Total = 42% (Smit 1999)

Fréquence des éléments transposables dans le génome humain (Smit 1999)

Isochore organization of vertebrate genomes

Organisation en isochore des génomes de vertébrés: mise en évidence expérimentale Fractionnement du génome de la souris par centrifugation en gradient de densité (Bernardi et al. 1976)

Analyse statistique des séquences publiées dans les banques de données. Corrélation entre la composition en base en position 3 des codons et celle de l'envirronement génomique dans lequel se trouve le gène

7 7 Moy = .612 Moy = .639 Ecart-t = .158 Ecart-t = .171 6 6 5447 séq 818 séq 5 5 4 4 3 3 2 2 1 1 0 0 0 20 40 60 80 100 0 20 40 60 80 100 Analyse statistique des séquences publiées dans les banques de données. Distribution en fréquence des gènes dans les différentes classes d'isochores 14 12 Moy = .509 Moy = .580 Ecart-t = .106 12 Ecart-t = .103 10 703 séq 173 séq 10 8 8 6 6 4 4 2 2 0 0 0 20 40 60 80 100 0 20 40 60 80 100 Nb de gènes (%) Danio Xénope Homme Poulet CDS GC3%

Evolution de la structure en isochore chez les vertébrés

Isochore organization of vertebrate genomes • Insertion of repeated sequences (A. Smit 1996) • Recombination frequency (Eyre-Walker 1993) • Chromosome banding (Saccone, 1993) • Replication timing (Bernardi, 1998) • Gene density (Mouchiroud, 1991) • Gene expression ?? -> No • Gene structure (Duret, 1995)

Isochores and insertion of repeat sequences (Smit 1999) 4419 human genomic sequences > 50 kb

Isochores and gene density MHC locus (3.6 Mb) (The MHC sequencing consortium 1999) Class I, class II (H1-H2 isochores): 20 genes/Mb, many pseudogenes Class III (H3 isochore): 84 genes/Mb, no pseudogene Class II boundaries correlate with switching of replication timing Chromosome 21

Isochores and introns length Duret, Mouchiroud and Gautier, 1995 • 760 complete human genes • L1L2: intron G+C content < 46% • H1H2: intron G+C content 46-54% • H3: intron G+C content >54%

Projets Génome: état des lieux • Les différents projets génome • Nature et qualité des séquences produites • Annotation des séquences génomiques: recherche de régions fonctionnelles

Sequencing Projects :Genome / Transcriptome

Projets Génome • Eubacteria: 29 génomes complets (dont 19 dans les 12 derniers mois !) • Archaea: 6 génomes complets • Eukaryotes: 3 (4) génomes complets • levure: 13 Mb 100% • P. falciparum 30 Mb 24% • C. elegans (nematode) 100 Mb 95% • A. thaliana 120 Mb 60% • Drosophila 170 Mb 60% (100%) • homme 3200 Mb 25% • « draft » 90% complete in 2000, finished in 2003 • souris 3000 Mb 1%

Stratégie de séquençage du génome humain (projet public)

Etapes du séquençage génomique ébauche (draft) Phase 0-1: séquence non-terminée; contigs non-ordonnés, non-orientés; gaps Phase 2: séquence non-terminée; contigs ordonnés, orientés; gaps Phase 3: séquence terminée Phase 0-2: séquences mentionnées HTG (High Throughput Genome sequences) dans les banques de données

Projets EST (transcriptome) • Expressed Sequence Tags (EST) • Inventaire des ARNm exprimés par un organisme, dans différents tissus, stades de développement, pathologies, … • Extraction et clonage des ARNm (banques d ’ADNc) • Séquençage systématique des clones • Séquences partielles d ’ARNm (300-500 nt) • Erreurs de séquence (1-3%) • Redondance (gènes fortement exprimés) • Qualité suffisante pour identifier un gène • Automatisation

Projets EST à grande échelle Nombre d'EST (Nov. 99) • Homo sapiens 1,611,810 • Mus musculus (souris) 697,486 • Rattus sp. (rat) 124,378 • Caenorhabditis elegans (nématode) 101,232 • Drosophila melanogaster 86,121 • Oryza sativa (riz) 47,083 • Arabidopsis thaliana (arabette) 45,752 • Danio rerio (poisson zèbre) 40,001 • Zea mays (maïs) 39,285 • Lycopersicon esculentum (tomate) 38,047

Projets GSS • Genome Survey Sequence (GSS) • Echantillonage aléatoire de séquence génomiques: donner un premier aperçu du contenu d'un génome • Banques d ’ADN génomique • Séquençage systématique de clones • Séquences courtes (< 1kb) • Erreurs de séquence (1-3%) • Qualité suffisante pour identifier un gène • Automatisation

Projets GSS à grande échelle Nombre de GSS (Nov. 2000) • Homo sapiens863,041 • Mus musculus (souris) 452,033 • Tetraodon nigroviridis 188,963 • Oryza sativa (riz) 93,107 • Strongylocentrotus purpuratus (oursin) 76,019 • Arabidopsis thaliana (arabette) 61,265 • Trypanosoma brucei 48,123 • Drosophila melanogaster44,785 • Takifugu rubripes 42,929

Genome Sequence Data • Traditional sequences: correspond to biologically characterized genes, annotated by reearchers or database curators, usually relatively short (<20,000). • Finished genome sequences: long contiguous sequences, correspond to clones (cosmid, BAC, PAC); partly automatically generated annotations covers repetitive elements, kown and predicted genes, EST matches • Unfinished genome sequences (draft): large sequence entries consisting of unordered pieces separated by runs of N's, correspond to clones, contain minimal annotation. • Genome survey sequences: low-quality, single pass sequences from a variety of different projects (BAC end sequencing, polymorphism studies, CpG islands, etc.), minimal annotation.

Different types of nucleotide sequences in current databases

GenBank release 119 (September 28, 2000) Division Entries Nucleotides % nt EST 5,843,794 2,337,244,350 23% HTG 77,960 4,373,497,668 44% GSS 1,724,845 951,450,849 9% PRI 135,144 1,073,472,484 11% Other 882,631 1,296,473,741 13% Total 8,664,374 10,032,139,092 100% Human 3,518,824 6,253,704,359 62%

The human genome sequencing projectWhere are we today (July 17 2000) ? • According to Phillip Bucher (SIB, Lausanne) statistics and genome coverage estimates (see also EBI's statistics: http://www.ebi.ac.uk/~sterk/ genome-MOT)

Exponential growth of sequence data • Doubling time: 13 mounths (8 mounths) Publicly available sequences (Mb)

Contenu des banques de séquences nucléiques • Avril 2000: • 6.106 séquences • 7.109 bases • 60 000 espèces • 9 espèces (0.02%) représentent à elles seules 85% des séquences • Homo sapiens 62.1% • Mus musculus 7.7% • Drosophila melanogaster 6.1% • Caenorhabditis elegans 3.3% • Arabidopsis thaliana 2.9% • Oryza sativa 1.3% • Rattus norvegicus 0.8% • Danio rerio 0.6% • Saccharomyces cerevisiae 0.6%

Next steps in genome projects • Identify genes and other functional elements within genomic sequence (where are the genes ?) • Determine the function of genes (what do they do ?)

Structure of human protein genes • 1396 complete human genes (exons + introns) from GenBank • Average size (25%, 75%) • Gene 15 kb ± 23 kb (4, 16) (10% > 35 kb) • CDS 1300 nt ± 1200 (600, 1500) • Exon (coding) 200 nt ± 180 (110, 200) • Intron 1800 nt ± 3000 (500, 2000) • 5'UTR 210 nt (Pesole et al. 1999) • 3'UTR 740 nt (Pesole et al. 1999) • Intron/exon • Number of introns: 6 ±3 introns / kb CDS • Introns / (introns + CDS): 80% • 5' introns in 15% of genes (more ?), 3 ’introns very rare • Alternative splicing in more than 30% of human genes (Hanke et al. 1999)

Prédiction de gènes eucaryotes (1)méthodes ab initio • Prédiction d ’exons codants • Recherche de phases ouvertes de lecture (ORF: open reading frame) • Taille moyenne des exons: ± 150 nt • Statistiques sur les nucléotides, usage des codons • Périodicité d'ordre 3, fréquence d ’hexamères • Signaux d ’épissage • Construction d ’un modèle de gène protéique • Combinaison d ’exons de phases compatibles (pondération en fonction des scores de chaque exon potentiel) • Recherche de limites de gènes • Exons terminaux (5 ’, 3 ’) • Promoteur • Signal de polyadénylation • Epissage alternatif ?? Exons non codants ?? Gène transcrits non codants (Xist, …) ??

Prédiction de gènes eucaryotes: qualité de la prédiction • Comparaison des différents logiciels: sensibilité/spécificité • Sn: sensibilité Sp: spécificité par exon (sn_e, sp_e) ou par nucéotide (sn_e, sp_e) • Jeu de données Burset-Guigo (1996): 570 gènes de vertébrés • Jeu de données Salamov et al (1998): 660 gènes humains

Prédiction de gènes eucaryotes: qualité de la prédiction • Comparaison des différents logiciels: sensibilité/spécificité • Sn: sensibilité Sp: spécificité par exon (sn_e, sp_e) ou par nucéotide (sn_e, sp_e) • Locus BRCA2 (1.4 Mb, chrom. 13q) (Sanger Centre 1999): région "difficile" pour les logiciels de prédiction. 159 exons

Analyse statistique des séquences génomiques

Analyse statistique des séquences génomiques

Presentation Transcript

ANALYSE DES ECARTS

Statistique d’occupation des niveaux

Analyse des conflits armés

Division de Statistique des Nations Unies

L analyse des moyens et des activit s des tablissements de sant

Alignements de s quences par paires

S ANCE 12 : INTRODUCTION L ANALYSE STATISTIQUE MULTIVARI E

Analyse multidimensionnelle des données

Essais cliniques analyse statistique

Analyse statistique des données expérimentales

Analyse des Beanspruchungsempfindens

ANALYSE DES RISQUES

Analyse des tats financiers S ances 1 4

Analyse bioinformatique des s quences de prot ines

Les s quences en math matique

Analyse statistique des nuages arctiques en phase mixte - Résultats préliminaires -

Analyse des résultats commerciaux

Analyse fonctionnelle des produits

ANALYSE GÉOMÉTRIQUE DES DONNÉES

ANALYSE DES PRATIQUES PROFESSIONNELLES

Analyse statistique des séries de mesures

Analyse des algorithmes