Introduction à la bioinformatique

Introduction à la bioinformatique Ce cours est supporté par Chemical Computing Group & Jonathan Pevsner (JHU)

Ce qu’est la bioinformatique • Interface entre la biologie et l’ordinateur • Analyse de proteines, gènes et génomes • à l’aide d’algorithmes et de banques de • données • Génomique : analysis de génomes. • Donner un sens aux milliards de paires de • bases de DNA qui sont séquencées

Principaux défis de la discipline [1] Élaborer un modèle de transcription. Où et quand un gène va s’exprimer [2] Prédire les épissages alternatifs du RNA [3] Établir les voies de transduction ; prédire la réponse cellulaire à un stimulus [4] Déterminer les codes de reconnaissance entre protein:DNA, protein:RNA, protein:protein [5] Prédire ab initio la structure des protéines

[6] Design de petites molécules (inhibiteurs) [7] Expliquer l’évolution des protéines. [8] Expliquer la spéciation. [9] Développer des manières systématiques de décrire la fonction des gène et des proteines.

Organismes les plus séquencés dans Genbank Homo sapiens (6.9 millions entrées) Mus musculus (5.0 millions) Zea mays(896,000) Rattus norvegicus (819,000) Gallus gallus(567,000) Arabidopsis thaliana (519,000) Danio rerio (492,000) Drosophila melanogaster (350,000) Oryza sativa (221,000)

National Center for Biotechnology Information (NCBI) www.ncbi.nlm.nih.gov

PubMed • National Library of Medicine (serv. de recherche) • 11 millions citations ds MEDLINE • liens vers journaux online • PubMed tutorial (via “Education” side bar)

BLAST • Basic Local Alignment Search Tool • Outil NCBI pour recherche de similarité • analyse banques de DNA et protéines • > 80,000 recherches par jour

OMIM • Online Mendelian Inheritance in Man • catalogue des désordres génétiques chez Hs • edité par Dr. Victor McKusick & al. JHU

TaxBrowser • browser pour divisions principales des organismes • (archaea, bacteries, eucariotes, virus) • informations taxonomiques • données moleculaires sur organismes disparus

Structure • Molecular Modelling Database (MMDB) • structures de Protein Data Bank (PDB) • Cn3D (a 3D-structure viewer) • vector alignment search tool (VAST)

Plusieurs façons d’accéder à la séquence d’un gène ou d’une protéine [1] LocusLink (RefSeq) [2] Entrez (Unigene, Nucléotides., Protéines, Gènes et Génomes) [3] EBI et Ensembl [4] ExPASy Sequence Retrieval System (EXpert Protein Analysis SYstem))

[1] LocusLink with RefSeq LocusLink : un bon point de départ Infos sur chaque gène ou protéine à partie De plusieurs banques. RefSeq : numéro d’accèssion unique pour chaque DNA (NM_006744) ou protéine (NP_007635) RefSeq: séq. la plus stable (consensus)

Ce qu’est un accession number ? Étiquette qui identifie une séquence. Série de lettres et/ou chiifres qui correspondent à une séquence moléculaire. Exemples (pour retinol-binding protein, RBP4): X02775 GenBank genomic DNA sequence NT_030059 Genomic contig N91759.1 An expressed sequence tag (1 of 170) NM_006744 RefSeq DNA sequence (from a transcript) NP_007635 RefSeq protein AAC02945 GenBank protein Q28369 SwissProt protein 1KT7 Protein Data Bank structure record DNA RNA protein

À propos de RefSeq RefSeq ne donne qu’un seul # accès pour un gène ou une protéine. Il peut y avoir des centaines de # accès à un gène dans GenBank mais il n’y en aura qu’un seul dans RefSeq (plusieurs s’il existe des épissages variables.

??? pour Mme NCBI sur gène protéine

Entrez intègre les éléments suivants:

UniGene Projet qui vise à assigner un cluster de séquences à un seul gène Pour RBP4 il a un seul # accès Hs.418083 Qui donne la liste de toutes les entrées GenBank pour cette protéine (incluant EST)

Plug the figures …and press …

Introduction à la bioinformatique

Introduction à la bioinformatique

Presentation Transcript

Introduction to GPS/GIS

Modélisation moléculaire et Drug Design

Introduction

La recherche d’information en bioinformatique

Pensées sur la théorie statistique

Bioinformatique et Biologie Structurale I/ – Principes et techniques

Marseille 25-26 Septembre 2008 Centre d’Immunologie de Marseille Luminy

Changement de représentation et alignement de séquences.

Analyse statistique des séquences génomiques

Bioinformatique: prédiction de gènes

Marie-Claude.Blatter@isb-sib.ch Institut Suisse de Bioinformatique Groupe Swiss-Prot

In silico reconstruction of an ancestral mammalian genome

Identification des gènes procaryotes

L3 Module Libre

Ewing tumor as a model for systems biology

Les Métallothionéines

2004, l’odyssée des génomes Enjeux scientifiques, médicaux et éthiques

LBGI

Introduction

Analyse statistique des séquences génomiques

Banques et bases de données en biologie moléculaire : de la donnée à la structure