1 / 49

Élodie Boulier Nhu Ha Vo Sharon Harel

Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression. Élodie Boulier Nhu Ha Vo Sharon Harel. Blanchette & al, 2006. Rappel sur la transcription et la traduction d’un gène. Croissance cellulaire.

indra
Télécharger la présentation

Élodie Boulier Nhu Ha Vo Sharon Harel

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Genome-wide computational prediction of transcriptional regulatory modules reveals new insights into human gene expression Élodie Boulier Nhu Ha Vo Sharon Harel Blanchette & al, 2006

  2. Rappel sur la transcription et la traduction d’un gène

  3. Croissance cellulaire Régulation de l’expression des gènes Division Différentiation Adaptation à l’environnement

  4. Expression des gènes • Régulée au niveau de la TRANSCRIPTION • Outils : Site de liaison des Facteurs de transcription (TFBS) • Acteurs : Facteurs de transcription (TF) Facteurs de transcription Activateurs Facteurs de transcription Répresseurs + - TRANSCRIPTION

  5. Structure d’un gène

  6. Structure d’un gène (suite) PROMOTEUR

  7. Structure d’un gène (suite) 1kb en amont du début de site de la transcription

  8. Facteurs de transcription http://www.wellesley.edu/Chemistry/chem227/nucleicfunction/transcription/lac%20operon/06eukaryotes.jpg

  9. Les Facteurs de Transcription (suite) Lient : • Des séquences dégénérées d’ ADN (5–15 pb) • Des motifs consensus

  10. - Taille du génome Motifs courts dégénérés - Position-weighted matrices (PWM) ACGT ACGT ACGA ATGC TF1 Probabilité de retrouver une base à une position PWM + Sites de liaison de facteurs de transcription (TFBS) Régions de régulation

  11. Méthodes de prédictions existantes

  12. Sensibilité à la DNAse I

  13. Algorithmes basés sur les séquences • Identification de motifs surreprésentés dans la séquence du promoteur • Nécessitant l’entrée de données : PWM de facteurs de transcription d’intérêts • Genome wide et de novo : prédit des région ayant un potentiel régulatoire

  14. Modules cis-régulateur (CRM) CRM TF PROMOTEUR

  15. Modules cis-régulateur (CRM) …suite TF2 TF4 TF3 TF5 (1à 5 TF) TF1 ADN TFBS CRM

  16. Reconnaître de nouveaux modules Utilisation de caractéristiques de CRM connus : • Plusieurs sites de liaison pour peu de TF ≠ • Sites de liaisons plus conservés que les régions intergéniques • Les gènes régulés par un lot de TF commun a tendance à être co-exprimés

  17. Fonction de l’algorithme Identifier les régions importantes de régulation d’expression de gènes Prédire quel facteur de transcription se lie à quelle région

  18. Données Données provenant de Transfac 481 PWM (Position Weight Matrices) 229 familles TF (Transcription Factor) Données provenant de Alignement Multiz Alignement Humain – Souris – Rat 34 % du génome humain

  19. Prédiction TFBS pour chaque espèce Trouver le hitScore pour chaque espèce Fenêtre de 100, 200, 500, 1000, 2000 bp Calcul: Pour chacun des 481 PWM (m) Pour chaque colonne (p) de la séquence Calcul hitScoreHum (m, p) Calcul hitScoreSouris (m, p) Calcul hitScoreRat (m, p)

  20. Prédiction TFBS conservée Trouver le hitScore d’alignement conservée Calcul: hitScorealn (m, p) = hitScoreHum (m, p) + ½ max (0, hitScoreSouris (m, p) + hitScoreRat (m, p))

  21. Sélection tags plus significatifs • Seul les hitScorealn (m, p) > 10 sont retenu pour construire les modules.

  22. Total tags score TotalScore(m, p1…p2) = max {H ⊆ Hm telque H (Hit) nonchevauché} ∑ h € H hitScore(m, p)

  23. P-Value • P-Value est assigné au TotalScore • P-Value dépend : • longueur de la région • contenu en GC de la région • fréquence et distribution en hitScore prédit pour cette matrice dans le génome

  24. Module score • Choisir 1 à 5 TF (PWM) non chevauché donc le P-Value est le plus élevé • Calcul: moduleScore(p1…p2) = max{k = 1…5} – log (pValueMaxUnif(k, 481, Πi = 1…kpValue(totalScore(tagk, p1…p2))))

  25. Résultats 118 402 Modules Couvrant 2.88% du génome humain 58 % des modules sont moins que 500 bp Longueur moyenne de 635 bp par module Moyen de 3.1 tags par Module

  26. Résultats (suite) • Tag le plus sélectionné : E2F (5401 fois sur les 118 402 modules) • 2 sets de tags les plus sélectionnés • Facteur de transcription associé au promoteur (E2F, ZF5, TBP) • Facteur de transcription homeobox (famille NKX, famille POU, etc)

  27. Comparaison

  28. Comparaison « Regulatory potential »Kolbe et al. 2004 and King et al. (2005) • Prédiction de CRM • Applique au génome de l’humain ainsi que le blé • Permet identifier les séquences et les conservations entre espèces • Permet distinguer les ensembles de régions de régulation connu et régions non fonctionnel • Résultat : • Plus de 25 % des bases de pCRM est dans King et al. • 9 fois plus que prédiction aléatoire

  29. Validation expérimentale des prédictionsde novo • Permet de définir la spécificité du prédicteur • Spécificité= Performance Définition: Efficacité à prédire une interaction réelle entre un TF et un pCRM, non recensé dans la littérature

  30. ChIP on Chip MCF-7 ou T98G lignéecellulairecancéreuse, Sonication Immunoprécipitation de TF ER et E2F4 lié à l’ADN Isolerl’ADNenrichie et non enrichie Amplification et marquage de l’ADN Hybridationmatricecomportant ADN des pCRM

  31. Spécificité de novo du prédicteur • 3% de validation des pCRM pour le TF ER • 17% de validation des pCRM pour le TF E2F4 • Sous-estimation de la spécificité

  32. Facteurscontribuant à la faiblespécificité du prédicteur • 1 seule lignée cellulaire/TF • Lignée cellulaire cancéreuse

  33. Facteurs contribuant à la faible spécificité du prédicteur 1 seule condition d’induction de la transcription

  34. Facteurs contribuant à la faible spécificité du prédicteur Expérienceeffectuée pour un seul stage de développment: Adulte

  35. Autre méthode d’évaluation de la spécifité • ER lie 55 modules • E2F4 lie 433 modules • Étude par un autre groupe: 57 modules lient ER et 14 avaient été prédit par Blanchette et al. 24 des 55 avaient été sélectionnés pour lier ER Donc 44% de spécificité 236 des 433 avaient été sélectionnés pour lier E2F4 Donc 54% de spécificité

  36. Amélioration Possible • Cellules, Tissus, Conditions physiologiques • HAIRE

  37. Distribution des pCRM sur le génome • Informations sur nouveaux gènes • Enhancers • Transcrits non-codants • TSS alternatifs • Définition du rôle de gènes peu caractériser

  38. Figure 3. Distribution of pCRMs along a region of chromosome 11 Mathieu Blanchette et al. Genome Res. 2006; 16: 656-668

  39. Figure 4. Distribution of pCRMs relative to specific regions of genes Promoteur ou mode activation alternatif Enhancer ou transcrit antisense Région promotrice Mathieu Blanchette et al. Genome Res. 2006; 16: 656-668

  40. DNA-Looping [Adaptée de Freeman, Biological Sciences 2002]

  41. Régulation par Transcrit antisense ARN codant ARN antisense Inhibition post-transcriptionnelle

  42. Distribution des pCRMs pour un TF individuel Enrichissement ER à 10kb et plus Enrichissement E2F4 à l’intérieur de 1kb

  43. Figure 5. Many TFs preferentially bind to specific regions relative to the TSS of their target genes

  44. Autres observations • 2 modules rapproché : ↑ probabilité de contenir les TFBS pour les mêmes TF • La plupart des TF de longue portée présente une corrélation situés >10kb en amont des TSS • pCRM voisins contenant des TFBS pour des TF similaires sont situés dans des régions intergéniques ou introniques proches de gènes codant pour des TF

  45. pCRMs tissus spécifique • 1 Famille TF gènes potentiellement régulé (1 pCRM 10kb en amont du TSS) • Corrélation (paire wise Pearson) entre les niveaux d’expression de ces gènes dans 79tissus humains • 27 familles présente une corrélation d’expression tissulaire

  46. pCRM tissus spécifiques • paire TF = famille génes potentiellement régulés • Corrélation entre l’expression tissulaire et la co-liaison de la paire de TF • 595 paires de TF présentent une corrélation d’expression tissulaire. • EX: OCT1 caractérisé et exprimé dans le cerveau BACH1 est associé à OCT1, mais non caractérisé

  47. Conclusion • Prédiction avec spécificité acceptable entre 24 et 54% • Sensibilité des prédictions de 34% (TransFac) • Grand potentiel de développement des connaissances sur la régulation génique • Découverte de nouveaux gènes codant et de fonctions biologiques • Élucidation du rôle de TF: expression tissulaire

  48. Questions La base de données des pCRM est disponible sur le site genomequebec.mcgill.ca/PReMod

More Related