1 / 93

Анализ белковой последовательности

Анализ белковой последовательности. Анализ только аминокислотной последовательность (первичную структуру) белка без боковых цепей. Предсказание физико-химических параметров белка Предсказание продуктов расщепления протеазами

maura
Télécharger la présentation

Анализ белковой последовательности

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Анализ белковой последовательности Анализ только аминокислотной последовательность (первичную структуру) белка без боковых цепей. • Предсказание физико-химических параметров белка • Предсказание продуктов расщепления протеазами • Гидрофобные, гидрофильные участки: например, трансмембранные сегменты • Пост-трансляционные модификации • Функциональные домены, принадлежность к функциональным семействам • Фолдинг • Клеточная локализация

  2. Анализ белковой последовательности The ExPASy server – протеомикаhttp://www.expasy.ch/tools/#primary • The Swiss EMBnet – coiled-coil участки, выравнивания и др. http://www.ch.embnet.org • The CBS Prediction Servers – локализация, пост-трансляционные модификации… http://www.cbs.dtu.dk/services

  3. ProtParam - предсказание физико-химических параметров белка

  4. ProtParam • Молекулярный вес • Аминокислотный состав • Extinction coefficient – коэффициент поглощения (280 nm) • Instability (менее 40 – хорошо) – нестабильность в эксперименте (test tube, статистика дипептидов) • Half-life (yeast in vivo, mammalian reticulocytes in vitro, Escherichia coli in vivo) • Алифатический индекс • Grand average of hydropathicity (GRAVY)гидрофильность – (-), гидрофобность – (+)

  5. Compute pI/Mw

  6. PeptideMass

  7. PeptideMass - output

  8. PeptideCutter

  9. PeptideCutter - output

  10. PeptideCutter - output

  11. Метод скользящего окна Анализируется последовательность в несколько аминокислот, параметр усредняется по окну. Значение приписывается средней аминокислоте. Output – график Seq. LQAPVLPSDLLSWSCVGAVGILALVSFTCV <---*---> Window 1 <---*---> Window 2 <---*---> Window 3 Размер окна должен соответствовать характерному размеру анализируемого свойства (для ТМ – 19!) • Методы, основанные на технике скользящего окна, как правило, не интерпретируют результаты. При интерпретации важно: • Учитывать только очень четко выраженные сигналы • Не зависящие от параметров программы – размера окна, конкретного метода и т.п.

  12. Предсказание трансмембранных сегментов: ProtScale 56 аминокислотных шкал (с литературными ссылками), скользящее окно -> выбор ширины окна

  13. ProtScale - output

  14. Более сложное предсказание трансмембранных сегментов: TMHMM Transmembrane beta barrel prediction: PROFtmb(http://rostlab.org/services/proftmb ); PRED-TMBB (http://biophysics.biol.uoa.gr/PRED-TMBB/); TBBPred (http://www.imtech.res.in/raghava/tbbpred )

  15. TMHMM - результаты Нашёл 7 TMs TMHMM предсказывает сегменты, а также топологию межсегментных участков

  16. Домены • Домен – независимая глобулярная единица в белке. Более функционально – часть белка, обладающая активностью (если отрезать, например). Как правило, каждый домен играет свою роль в функции белка (связывает ион или ДНК, содержит активный сайт и т.п.) • Только небольшая часть известных доменов была изучена экспериментально, остальные описаны как сходные части гомологичных белков • Очень сложно четко определить домен и его границы => существует много подходов и различных доменных коллекций. Какую выбрать?

  17. История коллекций доменов • 1980ые – PROSITE: ручная выборка паттернов в белках, определяющих функцию • 1987 – доменный профайл (Gribskov): position specific scoring schema – это вероятность для каждой аминокислоты находиться в данной позиции домена • начало 1990х – BLOCKs, PRINTs, Prodom… • PfamA – коллекция профайлов, курированная вручную (сейчас также использует HMM)

  18. Cерверы для поиска доменов • InterProScan http://www.ebi.ac.uk/InterProScan • CD (Conserved Domain) server (NCBI) http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi • Pfscan http://hits.isb-sib.ch/cgi-bin/PFSCAN • Domachttp://www.bioinfotool.org/domac.html • Scooby http://www.ibi.vu.nl/programs/scoobywww/ • Domprohttp://www.ics.uci.edu/~baldig/domain.html

  19. InterPro Database .

  20. InterPro InterProisadatabaseofproteinfamilies, domainsandfunctionalsitesinwhichidentifiablefeaturesfoundinknownproteinscanbeappliedtounknownproteinsequences. Базируется на первичных классификациях целого ряда баз данных функциональных доменов и семейств, объединяет всю доступную информацию С 2001 года – Release 18.0: 75.6% UniProt

  21. Как это происходит Каждое InterPro семейство объединяет первичные семейства других баз данных, описывающие один и тот же домен; включает все белки, принадлежащие хотя бы одной из первичных баз. Документациясемейства подробно описывает функцию и структуру соответствующей белковой подписи.

  22. Поиск доменов: InterProScan

  23. InterProScan - результаты

  24. Table View

  25. CD server Input - Accession number, gi или последовательность в FASTA формате

  26. CD server – output Красный – SMART, синий – Pfam, зеленый – COGs Рваные концы указывают на неполные домены!!!! Курсор в графической части – краткое описание функции домена

  27. CDART – поиск белков с аналогичной доменной структурой

  28. Pfscan Как правило, работает несколько минут

  29. Pfscan - output Особенности вывода Pfscan • Схема – легенда, как всегда под рисунком • За легендой следует таблица с локализацией доменов • Далее расшифровка каждого хита – с оценкой вероятности • Затем следует графическая схема для каждого хита и scores (высокий score = хороший хит)

  30. Structure Classification Databases 3D structural similarities (~70%): • SCOP (MRC Cambridge) • CATH (University College, London) • Dali FSSP (EBI, Cambridge) • 3 Dee (EBI, Cambridge) FOLD recognition: • 3D-pssm • TOPITS (EMBL) • UCLA-DOE Structre Prediction Server (UCLA) • 123D • UCSC HMM (UCSC) • FAS (Burnham Institute) • UCLA-DOE Fold-Recognition Benchmark Home Page

  31. SCOP-Structural Classification of Proteins • База данных содержит структурную и эволюционную информацию о взаимосвязях белков с известными структурами. • Классификация белков отражает структурные и эволюционные отношения. • Многоуровневая иерархия – семейство, суперсемейство и фолд. • Ручное инспектирование.

  32. SCOP Superfamily: Probable common evolutionary origin Белки, имеющие низкую идентичность последовательностей, но чьи структурные и функциональные особенности позволяют предположить наличие общего предка, могут быть объединены в суперсемейства. Например, актин, the ATPase domain белков теплового шока и гексакиназы образуют суперсемейство Fold: Major structural similarity Общий фолд – одинаковая организация вторичной струкруры, с похожим пространственным расположением и с похожими соединениями. Белки с одинаковым фолдом зачастую имеют концевые элементы вторичной структуры , изгибы и повороты различных разметов и конформаций (до половины всей структуры). Белки, объединённые одним фолдом, могут не иметь общего предка (химия, физика  упаковка и топология)

  33. SCOP Family: Clear evolutionarily relationship Белки, сгруппированные в семейство, тесно связаны эволюционно. Это значит, что парное выравнивание показывает 30% и выше. Иногда похожие функция и структура показывают наличие общего предка и при отсутствии высокой идентичности последовательностей; например, многие глобины образуют семейство, хотя некоторые из них имеют идентичность 1D ~15%.

  34. Archetype Structuresof Domains

  35. Поиск по SCOP

  36. SCOP

  37. CATH (Brookhavenprotein databank ) • Class, Architecture, Topology, Homology database – иерархическая классификация доменов структур белков Формируется автоматически, но инспектируется вручную

  38. CATH Class, C-level • Класс определяется в соответствии с набором и упаковкой вторичной структуры. Он может быть присвоен как автоматически (90% of the known structures), так и вручную. • 3 главных класса: • преимущественно-alpha • преимущественно-beta • alpha-beta (alpha/beta and alpha+beta) • Четвертый класс – белки, содержащие домены без выраженной структуры..

  39. CATH Architecture, A-level • Описывает общий вид доменной структуры, определяемой как ориентация элементов вторичной структуры, но без учета их соединений. • Присваивается вручную (используя простое описание структуры). • Разрабатываются способы автоматизации этого процесса. Topology (fold family), T-level • Структуры группируются в зависимости как от общего вида,так и от соединений элементов вторичной структуры. Алгоритмы сравнения структур.

  40. CATH Homologous superfamily, H-level • Этот уровень объединяет белки, которые, по-видимому, имеют общего предка(гомологи). • Похожесть и идентичнсть – сначала по сравнению последовательностей, затем – сравнение структур. Sequence families, S-level • Структуры в каждом H-level затем группируются поидентичности последовательностей. • Домены, объединенные в семейства последовательностей, имеют идентичноcть 1D >35% , что показывает похожие структуру и функции.

  41. SCOP / CATH SCOPCATH class class architecture fold topology homologous superfamily superfamily family sequence family domain domain CATH - преимущественно структурная классификация, SCOP - эволюционные взаимосвязи CATH - один класс, представляющий смешанную α-β структуру SCOP - 2 класса: α/β: beta структуры параллельны, образуют βαβ мотивы α+β: alpha и beta структуры присутствуют в различных частях протеина

  42. SCOP / CATH -> DALI SCOP & CATH • Иерахические, базирующиеся на абстракциях • Создаются (частично) и курируются вручную экспертами Presentation of results of the classification, where the methods that underlie the classification remain internal Structure comparison

  43. DALI Comparing protein structures in 3D a b meander anti parallel b barrel a/b a b More information about DALI Touring protein fold space with Dali/FSSP: Liisa Holm and Chris Sander

  44. DALI • The FSSP database (Fold classification based on Structure-Structure alignment of Proteins)базируется на all-against-all сравнении 3D структур белков в Protein Data Bank (PDB). • Классификация и выравнивание структур автоматически поддерживается и обновляется сервисом Dali search engine. • Dali Domain Dictionary • Структурные домены выделяются автоматически. Каждый получает Domain Classification number.

  45. DALI • Fold types • Типы фолдов – кластеры структур в пространстве фолдов с средним парным Z-scores (by Dali) выше 2. • Высокий Z-score соответствует структурам с близкой архитектурой.

  46. DALI • Базируется на выравненных 2D матрицах внутримолекулярных дистанций • Считает лучший subset соответствующих аминокислот в двух белках – максимальная похожесть 2D матриц дистанций • Поиск по всем возможным выравниваниям остатков – Monte-Carlo и branch-and-bound algorithms An intra-molecular distance plot for myoglobin

  47. Pfam Database • Pfam– коллекция результатов множественного выравнивания последовательностей и HMM, содержащая большое количество доменов и семейств белков. Для каждого семейства в Pfam: • Просмотреть результаты MSA • Увидеть архитектуру доменов • Распределение по видам • Перекрестные ссылки • Получить известные 3D структуры • Pfam can be accessed directly or from the PDB description.

  48. Homstrad Database • HOMologous STRucture Alignment Database • Предоставляет выровненные 3D структуры гомологичных белков. • Homstrad - структурный эквивалент Pfam. Вначале структуры белков поступают из PDB, кандидаты семейств традиционно идентифицируются поиском по Pfam.Используются определения доменов из SCOP и информация о белках собирается из SwissProt, Pfam and Interpro. • Аннотирование – в программе Joy, которая предоставляет следующую информацию: • Тип вторичной структуры • Относительную доступность боковых цепей • Наличие водородных связей между амидом и карбонилом • Дисульфидные связи • Положительные phi торзионные углы

  49. PClass Database Инструмент для классификации, базирующийся на иерархии 600 белков-представителей из PDB. Структурное выравнивание 600 структур было выполнено при помощи алгоритма 3dSearch.

  50. 3D Structure Validation • Теория: Белки – молекулы несложные: • Линейная структура цепей. • Только 20 различных аминокислот. • На практике:Мы не понимаем в деталях механизм сворачивания белковых структур. • Единственные «силы», используемые для уточнения, «улучшения» новой структуры – это данные измерений и некоторые факты, присущие для ВСЕХ молекул • В общем случае используемая информация недостаточна для распознавания уникальной структуры. • Значительная часть работы по уточнению структуры – взгляд эксперта и ручные корректировки. • Белки содержат тысячи атомов и невозможно постоянно выполнять ручные корректировки. • Это – источник неправильных структур и «слабых мест» в глобьально верных структурах.

More Related