Élodie Boulier Nhu Ha Vo Sharon Harel

Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression Élodie Boulier Nhu Ha Vo Sharon Harel Blanchette & al, 2006

Rappel sur la transcription et la traduction d’un gène

Croissance cellulaire Régulation de l’expression des gènes Division Différentiation Adaptation à l’environnement

Expression des gènes • Régulée au niveau de la TRANSCRIPTION • Outils : Site de liaison des Facteurs de transcription (TFBS) • Acteurs : Facteurs de transcription (TF) Facteurs de transcription Activateurs Facteurs de transcription Répresseurs + - TRANSCRIPTION

Structure d’un gène

Structure d’un gène (suite) PROMOTEUR

Structure d’un gène (suite) 1kb en amont du début de site de la transcription

Facteurs de transcription http://www.wellesley.edu/Chemistry/chem227/nucleicfunction/transcription/lac%20operon/06eukaryotes.jpg

Les Facteurs de Transcription (suite) Lient : • Des séquences dégénérées d’ ADN (5–15 pb) • Des motifs consensus

- Taille du génome Motifs courts dégénérés - Position-weighted matrices (PWM) ACGT ACGT ACGA ATGC TF1 Probabilité de retrouver une base à une position PWM + Sites de liaison de facteurs de transcription (TFBS) Régions de régulation

Méthodes de prédictions existantes

Sensibilité à la DNAse I

Algorithmes basés sur les séquences • Identification de motifs surreprésentés dans la séquence du promoteur • Nécessitant l’entrée de données : PWM de facteurs de transcription d’intérêts • Genome wide et de novo : prédit des région ayant un potentiel régulatoire

Modules cis-régulateur (CRM) CRM TF PROMOTEUR

Modules cis-régulateur (CRM) …suite TF2 TF4 TF3 TF5 (1à 5 TF) TF1 ADN TFBS CRM

Reconnaître de nouveaux modules Utilisation de caractéristiques de CRM connus : • Plusieurs sites de liaison pour peu de TF ≠ • Sites de liaisons plus conservés que les régions intergéniques • Les gènes régulés par un lot de TF commun a tendance à être co-exprimés

Fonction de l’algorithme Identifier les régions importantes de régulation d’expression de gènes Prédire quel facteur de transcription se lie à quelle région

Données Données provenant de Transfac 481 PWM (Position Weight Matrices) 229 familles TF (Transcription Factor) Données provenant de Alignement Multiz Alignement Humain – Souris – Rat 34 % du génome humain

Prédiction TFBS pour chaque espèce Trouver le hitScore pour chaque espèce Fenêtre de 100, 200, 500, 1000, 2000 bp Calcul: Pour chacun des 481 PWM (m) Pour chaque colonne (p) de la séquence Calcul hitScoreHum (m, p) Calcul hitScoreSouris (m, p) Calcul hitScoreRat (m, p)

Prédiction TFBS conservée Trouver le hitScore d’alignement conservée Calcul: hitScorealn (m, p) = hitScoreHum (m, p) + ½ max (0, hitScoreSouris (m, p) + hitScoreRat (m, p))

Sélection tags plus significatifs • Seul les hitScorealn (m, p) > 10 sont retenu pour construire les modules.

Total tags score TotalScore(m, p1…p2) = max {H ⊆ Hm telque H (Hit) nonchevauché} ∑ h € H hitScore(m, p)

P-Value • P-Value est assigné au TotalScore • P-Value dépend : • longueur de la région • contenu en GC de la région • fréquence et distribution en hitScore prédit pour cette matrice dans le génome

Module score • Choisir 1 à 5 TF (PWM) non chevauché donc le P-Value est le plus élevé • Calcul: moduleScore(p1…p2) = max{k = 1…5} – log (pValueMaxUnif(k, 481, Πi = 1…kpValue(totalScore(tagk, p1…p2))))

Résultats 118 402 Modules Couvrant 2.88% du génome humain 58 % des modules sont moins que 500 bp Longueur moyenne de 635 bp par module Moyen de 3.1 tags par Module

Résultats (suite) • Tag le plus sélectionné : E2F (5401 fois sur les 118 402 modules) • 2 sets de tags les plus sélectionnés • Facteur de transcription associé au promoteur (E2F, ZF5, TBP) • Facteur de transcription homeobox (famille NKX, famille POU, etc)

Comparaison

Comparaison « Regulatory potential »Kolbe et al. 2004 and King et al. (2005) • Prédiction de CRM • Applique au génome de l’humain ainsi que le blé • Permet identifier les séquences et les conservations entre espèces • Permet distinguer les ensembles de régions de régulation connu et régions non fonctionnel • Résultat : • Plus de 25 % des bases de pCRM est dans King et al. • 9 fois plus que prédiction aléatoire

Validation expérimentale des prédictionsde novo • Permet de définir la spécificité du prédicteur • Spécificité= Performance Définition: Efficacité à prédire une interaction réelle entre un TF et un pCRM, non recensé dans la littérature

ChIP on Chip MCF-7 ou T98G lignéecellulairecancéreuse, Sonication Immunoprécipitation de TF ER et E2F4 lié à l’ADN Isolerl’ADNenrichie et non enrichie Amplification et marquage de l’ADN Hybridationmatricecomportant ADN des pCRM

Spécificité de novo du prédicteur • 3% de validation des pCRM pour le TF ER • 17% de validation des pCRM pour le TF E2F4 • Sous-estimation de la spécificité

Facteurscontribuant à la faiblespécificité du prédicteur • 1 seule lignée cellulaire/TF • Lignée cellulaire cancéreuse

Facteurs contribuant à la faible spécificité du prédicteur 1 seule condition d’induction de la transcription

Facteurs contribuant à la faible spécificité du prédicteur Expérienceeffectuée pour un seul stage de développment: Adulte

Autre méthode d’évaluation de la spécifité • ER lie 55 modules • E2F4 lie 433 modules • Étude par un autre groupe: 57 modules lient ER et 14 avaient été prédit par Blanchette et al. 24 des 55 avaient été sélectionnés pour lier ER Donc 44% de spécificité 236 des 433 avaient été sélectionnés pour lier E2F4 Donc 54% de spécificité

Amélioration Possible • Cellules, Tissus, Conditions physiologiques • HAIRE

Distribution des pCRM sur le génome • Informations sur nouveaux gènes • Enhancers • Transcrits non-codants • TSS alternatifs • Définition du rôle de gènes peu caractériser

Figure 3. Distribution of pCRMs along a region of chromosome 11 Mathieu Blanchette et al. Genome Res. 2006; 16: 656-668

Figure 4. Distribution of pCRMs relative to specific regions of genes Promoteur ou mode activation alternatif Enhancer ou transcrit antisense Région promotrice Mathieu Blanchette et al. Genome Res. 2006; 16: 656-668

DNA-Looping [Adaptée de Freeman, Biological Sciences 2002]

Régulation par Transcrit antisense ARN codant ARN antisense Inhibition post-transcriptionnelle

Distribution des pCRMs pour un TF individuel Enrichissement ER à 10kb et plus Enrichissement E2F4 à l’intérieur de 1kb

Figure 5. Many TFs preferentially bind to specific regions relative to the TSS of their target genes

Autres observations • 2 modules rapproché : ↑ probabilité de contenir les TFBS pour les mêmes TF • La plupart des TF de longue portée présente une corrélation situés >10kb en amont des TSS • pCRM voisins contenant des TFBS pour des TF similaires sont situés dans des régions intergéniques ou introniques proches de gènes codant pour des TF

pCRMs tissus spécifique • 1 Famille TF gènes potentiellement régulé (1 pCRM 10kb en amont du TSS) • Corrélation (paire wise Pearson) entre les niveaux d’expression de ces gènes dans 79tissus humains • 27 familles présente une corrélation d’expression tissulaire

pCRM tissus spécifiques • paire TF = famille génes potentiellement régulés • Corrélation entre l’expression tissulaire et la co-liaison de la paire de TF • 595 paires de TF présentent une corrélation d’expression tissulaire. • EX: OCT1 caractérisé et exprimé dans le cerveau BACH1 est associé à OCT1, mais non caractérisé

Conclusion • Prédiction avec spécificité acceptable entre 24 et 54% • Sensibilité des prédictions de 34% (TransFac) • Grand potentiel de développement des connaissances sur la régulation génique • Découverte de nouveaux gènes codant et de fonctions biologiques • Élucidation du rôle de TF: expression tissulaire

Questions La base de données des pCRM est disponible sur le site genomequebec.mcgill.ca/PReMod

Élodie Boulier Nhu Ha Vo Sharon Harel

Élodie Boulier Nhu Ha Vo Sharon Harel

Presentation Transcript

Le réflexe myotatique: un phénotype comportemental Schémas bilan et exercice conception Christine BOULIER

The AfCS Membership and Editorial Office: Molecule Pages Plus Sharon Brown, Ashley Butler Brossoie, and Patrick J. Case

Consequences

you don’t even know me by: Sharon g flake

Walk Two Moons by Sharon Creech

Walk Two Moons by Sharon Creech

Welcome to Sharon’s Curriculum Night 5 th Grade General Session

Out of my mind

Sharon Elementary Kindergarten Team

Character Education Novel Unit Out of My Mind, Sharon M. Draper

Dr. Sharon Jaye

Sharon deFur College of William and Mary sharon.defur@wm

Association on Higher Education and Disability July 10, 2013 Sharon Field, Ed.D .

Source

Presented by Sharon Zeiler BSc RD MBA

Hate That Cat By:Sharon Creech

LIC. ZAIDY SHARON CHACÓN PÉREZ

Amnon Harel aharel@fnal

Copper Sun

Amnon Harel aharel@fnal

Going to be the Change Agent: Have I got some lessons for you

Final NEASC Report