1 / 74

ТВ-биология ( Отрывок , взгляд и нечто )

ТВ-биология ( Отрывок , взгляд и нечто ). М.С.Гельфанд 23 января 2009. Экспоненциальный рост объема данных. красный – статьи (PubMed) синий – последовательности (GenBank) зеленый – объем в нуклеотидах (GenBank).

spence
Télécharger la présentation

ТВ-биология ( Отрывок , взгляд и нечто )

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ТВ-биология(Отрывок, взгляд и нечто) М.С.Гельфанд 23января 2009

  2. Экспоненциальный рост объема данных красный – статьи (PubMed) синий – последовательности (GenBank) зеленый – объем в нуклеотидах (GenBank) из 18 миллионов ссылок, ~675 тыс.отвечают на “bioinformat* OR comput*” 16 тыс. “bioinformat*”65 тыс. “bioinformat* OR computat*”

  3. 622 полных генома (прокариот)

  4. Фрагмент генома (0.1% генома E. coli) Геном бактерии: несколько миллионов нуклеотидов (сотен тысяч у облигатных паразитов и эндосимбионтов) От 600 до 9 тысяч генов (примерно 90% генома кодирует белки)

  5. Фрагмент генома (0.0001% генома человека) Геном человека: 3 000 000 000 нуклеотидов Примерно 25 тысяч генов, < 5% генома кодирует белки

  6. Не только тексты Другие типы массовых экспериментов: • Транскриптомика • «выстилающие массивы»: полная карта транскриптов • уровень экспрессии ивремя жизни мРНК • ДНК-белковые взаимодействия • Протеомика • концентрации белков • белок-белковые взаимодействия, белковые комплексы • структуры белков • Эпигенетика • метилирование ДНК • положение и модификации нуклеосом • Генетика • летальность мутаций • фенотипы • синтетические летали

  7. Экспрессия (уровень работы) генов Цикл развития малярийного плазмодия

  8. Развитие цветка резухи Талядвойная кластериза-ция – на генах и на условиях

  9. Графы белок-белковых (структурных, сигнальных и др.) и белок-ДНКовых (регуляторных) взаимодействий в дрожжах

  10. Цель (локальная): аннотировать гены/ белки in silico • Что? • (биохимическая) функция • клеточная роль • Когда? • Регуляция • Экспрессия • Время жизни (мРНК, белка) • Где? • Локализация • Внутри/снаружи • Органеллы и компартменты • Как? • Механизм • Специфичность, регуляция Наиболее важные предсказания затем проверяются экспериментально

  11. Биологический ликбез регуляторные участки ген ДНК транскрипция РНК трансляция белок

  12. Translation

  13. Elongation

  14. Polysomes

  15. Распознавание генов

  16. Таблица генетического кода

  17. Поиск генов если известен белок: просто

  18. … или родственный белок: тоже просто

  19. TTT F TCT S TAT Y TGT C TTC F TCC S TAC Y TGC C TTA L TCA S TAA stop TGA stop TTG L TCG S TAG stop TGG W CTT L CCT P CAT H CGT R CTC L CCC P CAC H CGC R CTA L CCA P CAA Q CGA R CTG L CCG P CAG Q CGG R ATT I ACT T AAT N AGT S ATC I ACC T AAC N AGC S ATA I ACA T AAA K AGA R ATG M/ start ACG T AAG K AGG R GTT V GCT A GАT D GGT G GTC V GCC A GАC D GGC G GTA V GCA A GАA E GGA G GTG V GCG A GАG E GGG G Генетический код: стоп-кодоны

  20. Открытые рамки считывания Ген должен располагаться внутри области от стоп-кодона до следующего стоп-кодона (в той же фазе)

  21. Сильное перепред-сказание (Aeropyrum pernix)

  22. TTT F TCT S TAT Y TGT C TTC F TCC S TAC Y TGC C TTA L TCA S TAA stop TGA stop TTG L TCG S TAG stop TGG W CTT L CCT P CAT H CGT R CTC L CCC P CAC H CGC R CTA L CCA P CAA Q CGA R CTG L CCG P CAG Q CGG R ATT I ACT T AAT N AGT S ATC I ACC T AAC N AGC S ATA I ACA T AAA K AGA R ATG M/ start ACG T AAG K AGG R GTT V GCT A GАT D GGT G GTC V GCC A GАC D GGC G GTA V GCA A GАA E GGA G GTG V GCG A GАG E GGG G Генетический код: синонимы

  23. Codon usage (статистика употребления кодонов) • частоты кодонов отличаются от частот триплетов в некодирующих областях • различия в частотах аминокислот в белках • различия в частотах синонимичных кодонов • частоты синонимичных кодонов • специфичны для генома • коррелируют с концентрациями тРНК

  24. GenMark, окно 96 нт

  25. TTT F TCT S TAT Y TGT C TTC F TCC S TAC Y TGC C TTA L TCA S TAA stop TGA stop TTG L TCG S TAG stop TGG W CTT L CCT P CAT H CGT R CTC L CCC P CAC H CGC R CTA L CCA P CAA Q CGA R CTG L CCG P CAG Q CGG R ATT I ACT T AAT N AGT S ATC I ACC T AAC N AGC S ATA I ACA T AAA K AGA R ATG M/ start ACG T AAG K AGG R GTT V GCT A GАT D GGT G GTC V GCC A GАC D GGC G GTA V GCA A GАA E GGA G GTG V GCG A GАG E GGG G Генетический код: старт-кодоны

  26. Начала генов Bacillus subtilis dnaN ACATTATCCGTTAGGAGGATAAAAATG gyrA GTGATACTTCAGGGAGGTTTTTTAATG serS TCAATAAAAAAAGGAGTGTTTCGCATG bofA CAAGCGAAGGAGATGAGAAGATTCATG csfB GCTAACTGTACGGAGGTGGAGAAGATG xpaC ATAGACACAGGAGTCGATTATCTCATG metS ACATTCTGATTAGGAGGTTTCAAGATG gcaD AAAAGGGATATTGGAGGCCAATAAATG spoVC TATGTGACTAAGGGAGGATTCGCCATG ftsH GCTTACTGTGGGAGGAGGTAAGGAATG pabB AAAGAAAATAGAGGAATGATACAAATG rplJ CAAGAATCTACAGGAGGTGTAACCATG tufA AAAGCTCTTAAGGAGGATTTTAGAATG rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG rplM AGATCATTTAGGAGGGGAAATTCAATG

  27. Участок связывания рибосом dnaN ACATTATCCGTTAGGAGGATAAAAATG gyrA GTGATACTTCAGGGAGGTTTTTTAATG serS TCAATAAAAAAAGGAGTGTTTCGCATG bofA CAAGCGAAGGAGATGAGAAGATTCATG csfB GCTAACTGTACGGAGGTGGAGAAGATG xpaC ATAGACACAGGAGTCGATTATCTCATG metS ACATTCTGATTAGGAGGTTTCAAGATG gcaD AAAAGGGATATTGGAGGCCAATAAATG spoVC TATGTGACTAAGGGAGGATTCGCCATG ftsH GCTTACTGTGGGAGGAGGTAAGGAATG pabB AAAGAAAATAGAGGAATGATACAAATG rplJ CAAGAATCTACAGGAGGTGTAACCATG tufA AAAGCTCTTAAGGAGGATTTTAGAATG rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG rplM AGATCATTTAGGAGGGGAAATTCAATG

  28. Сравнительный анализ (один и тот же ген в нескольких геномах) Гены консервативнее, чем межгенные области (точнее, особенности эволюции другие) Sty TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATT Stm TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATT Sen TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATT Eco TTGCCCG--TGCCAGACGGCAGATTATCTCCCTGACCTGGTGGTTGCCCAGGAGGAGGGCCGGAAATAGGTTGTATCATT Kpn ----CGG--TGGCGCAGTGCCTGATGGG-CCTCGCCCTGGAGGACGGTCTGGCAT---ATCAGCAAGGGGGTGCGTCATG Ype TTGTTAGAACAGGGGAAAACGGTAAACAGTGTGGCATTAGATGTCGGTTATAGCT-----CCGCCTCTGCTTTTATCGCC * * * * * * * * * * * Sty AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCTTGGCGGCCAGATTATGGC--ACACTTGTCCGG Stm AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGG Sen AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGG Eco ACGTATCCTTATAC----------CTGAAATCTTCGCAAG--TATGCCTGGCCGCGAGATTATGGC--ACACTTGTCCGG Kpn ATTCATCCTTTCGATATCGCGGTGCTGGAACCAGGTGATGAGTATGCCTGGCGGCCAGATTATGGC--ACACTTCCCCAG Ype ATGTTTCAGCAAATAT--------CGGGTACCA-CGCCTGAGCGTTTCCGGCGGGGCAATAGTGGCTTATACTAAGCCCC * ** * * * * *** * ** **** * *** ** Sty TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC Stm TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC Sen TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC Eco TTAACTCTCGT--CTCATACAG------GTAACACAAAC--GTGAAAATCCTTGTTGATGAAAATATGCCTTATGCCCGC Kpn TTAACTCTCGTT-CTCAGACAG------GTACTGAACT---GTGAAAATCCTCGTTGATGAAAATATGCCCTATGCCCGT Ype CTGTTTTTCATCTGTATGGCAGTTCGCTGTCGGAGAGTAAAGTGAAAATTCTGGTTGATGAAAATATGCCGTACGCTGAG * * ** * * *** ** * ******** ** ***************** ** ** 123123123123123123123123123123123123123

  29. rbsDв E. coli Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAAAAAAATGAAAAAAGGC Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG

  30. rbsDв энтеробактериях Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Sen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Stm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC Ype TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Sen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Stm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG Ype GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** *

  31. rbsDв энтеробактериях: ответ Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Sen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Stm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC Ype TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Sen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Stm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG Ype GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** *

  32. Мораль • Комплексный подход: использование многих разнородных соображений, каждое из которых по отдельности – слабое • Сравнительный подход: одновременный анализ множества геномов (находящихся на различных эволюционных расстояниях друг от друга)

  33. Идеология • Сходство => гомология (общность происхождения) • Гомология => сходная функция • Принцип Пирсона:консервативно то, что важно • функциональные мотивы в белках • регуляторные сайты в ДНК • не обязательно последовательности • структура белка и РНК • расположение генов на хромосоме • ко-экспрессия генов

  34. Метаболические пути

  35. Метаболизм аргинина и пролина

  36. Предсказание функции по сходству с уже известными генами • Анализ на уровне индивидуальных генов даёт возможность охарактеризовать 50-75% генов в новом (бактериальном) геноме Но: • ~100универсально отсутствующих генов (нет ни одного известного гена для известной функции) • множество функций, для которых неизвестны представители в больших таксонах • в каждом геноме ~5-10% консервативных генов с неизвестной функцией • трудно предсказывать специфичность в мультигенных семействах (некоторые классы ферментов, транспортёры, факторы транскрипции) • Скучно: нельзя найти что-то принципиально новое

  37. Сравнительная геномика и метаболическая реконструкция

  38. Функциональный анализ транспортеров • Предсказание общей функции • гомология • анализ трансмембранных сегментов • Отнесение к функциональной подсистеме (метаболическому пути) • ко-локализация • ко-регуляция • Предсказание специфичности • анализ филогенетического профиля • конечный продукт биосинтетического пути: присутствует в геномах, не имеющих пути (импорт заменяет биосинтез) • промежуточный продукт биосинтетического пути; может заменять часть пути «выше по течению» • исходный продукт катаболического или биосинтетического пути: не встречается в геномах, где этот путь отсутствует

  39. Функционально-зависимые гены (элементы одного пути) во многих геномах располагаются рядом «Геномная ассоциация» - мера позиционной кластеризации для пары генов (гены находятся рядом в большом числе геномов) Расстояние между генами (реакциями) «в промежуточных метаболитах»

  40. Больше геномов (более сильные связи)=> более значимая корреляция

  41. Метаболический путь синтеза рибофлавина (витамин В2)

  42. Консервативная последовательность перед генами рибофлавинового пути из очень разных бактерий

  43. Консервативная вторичная структура RFN-элемента Capitals: invariant (absolutely conserved) positions. Lower case letters: strongly conserved positions. Dashes and stars: obligatory and facultative base pairs N: any nucleotide. X: any nucleotide or deletion

  44. Attenuation of translation Antisequestor SD-sequestor The RFN element

  45. Attenuation of transcription Antiterminator Terminator The RFN element Antiterminator

  46. RFN: the mechanism of regulation • Transcription attenuation • Translation attenuation

  47. YpaA/RibU: транспортёр рибофлавина • 5 предсказанных ТМ-сегментов => потенциальный транспортёр • регуляторный RFN-элемент => ко-регуляция с генами метаболизма рибофлавина => транспорт рибофлавина или предшественника • S. pyogenes, E. faecalis, Listeria: естьypaA, нет генов биосинтеза рибофлавина => транспорт рибофлавина Предсказание: YpaA – рибофлавиновый транспортёр (Gelfand et al., 1999) Проверка: • генетический анализ(Кренева и др., 2000) • биохимический эксперимент (Burgess et al., 2006)

  48. Регуляция транскрипции в прокариотах

  49. Структура ДНК-связывающего домена (cI)

  50. регуляция транскрипции:сайты связывания PurR codBACTCATTCATATAAAAAATATATTTCCCCACGAAAACGATTGCTTTTTATCTTCAGATGAATAGAATGCG purETTTGCTGATTTCACAGCCACGCAACCGTTTTCCTTGCTCTCTTTCCGTGCTATTCTCTGTGCCCTCTAAA pyrDCGGGTTGAGTGCAAAGAAGGAGCAAAATCTGCCCTGAAACAGGTTCGGAAAACGTTTGCGTTTTTTTTGC purTGAGAAATCAACATCAGCAATAAAGACACACGCAAACGTTTTCGTTTATACTGCGCGCGGAATTAATCAGG cvpATTGATGCGCGGGAAGGAAATCCCTACGCAAACGTTTTCTTTTTCTGTTAGAATGCGCCCCGAACAGGATG purCATCATCCGGCCCTTTTTTCTGATATGATACGCAAACGTGTGCGTCTGCAGGAAAACGCGATTTTAGCGGT purM AAAAGGTTGTGTAAAGCAGTCTCGCAAACGTTTGCTTTCCCTGTTAGAATTGCGCCGAATTTTATTTTTC purH AATTGTGATCACCATTGAAAGAGAAAAATTCGCGAGCGTTGCGCAAACGTTTTCGTTACAATGCGGGCGA purL TTTATTTCCACGCAAACGGTTTCGTCAGCGCATCAGATTCTTTATAATGACGCCCGTTTCCCCCCCTTGG

More Related