380 likes | 676 Vues
Ch12. Creation and Analysis of Protein Multiple Sequence Alignment. Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, Third Edition. IDB Lab. Seoul National University. Contents . Introduction What is a Multiple Alignment
E N D
Ch12. Creation and Analysis of Protein Multiple Sequence Alignment Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, Third Edition IDB Lab. Seoul National University
Contents • Introduction • What is a Multiple Alignment • Structural or Evolutionary Alignment? • How to Multiply Align Sequence • How to Generate Multiple Structural Alignments • Tools to Assist in the Analysis of Multiple Alignments • Summary
Introduction • 단백질 서열이 결정되면 그 다음 목표는 단백질의 관련 기능을 알아내야 함 • 단백질 서열 데이터베이스에서 유사성을 가지는 서열을 검색 • 검색된 서열은 새로운 단백질 서열의 전체 길이와 일치할 수도 있고 하위 부분의 서열과 일치 가능 • 이러한 유사 서열을 다중 정렬(Multiple Alignment) • 다중 정렬을 효과적으로 분석 • 어느 잔기(Residues)가 그 단백질의 기능 또는 2차 및 3차 구조의 안정화에 중요한지에 대한 단서 • 서열 하위세트의 기능 특이성이 어느 잔기에 의해 결정되는지 예측 가능
A - T A G - G T T G G G G T G G - - T - A T T A - - A - T A C C A C C C - G C - G - What is a Multiple Alignment? S1=AGGTC S2=GTTCG Possible alignment S3=TGAAC Possible alignment
Alignment Example(1/2) GTCGTAGTCGGCTCGACGTCTAGCGAGCGTGATGCGAAGAGGCGAGCGCCGTCGCGTCGTAAC 1*1 2*0.75 11*0.5 Score=8 GTCGTAGTCG-GC-TCGACGTC-TAG-CGAGCGT-GATGC-GAAG-AG-GCG-AG-CGCCGTCG-CG-TCGTA-AC 4*1 11*0.75 2*0.5 Score=13.25 Score : 4/4 =1 , 3/4 =0.75 , 2/4=0.5 , 1/4= 0
Alignment Example(2/2) 1 vs 21 vs 32 vs 3multiple alignment space Sequence 3 Sequence 2 Sequence 1
다중 정렬의 정의와 목적 • 서열 정렬 • 한 서열의 잔기들이 적어도 한 개 이상의 다른 서열의 잔기들과 나란히 배열되는 것 • 두 서열을 정렬할 때 수 백 만개의 다른 정렬이 가능 • 두 단백질 간의 화학적-생물학적 유사성을 가장 잘 대표할 수 있는 정렬을 찾는 것이 문제 • 다중서열 정렬 • 단순히 두 개 이상의 서열을 포함하는 정렬
다중 정렬에서 정렬 정확도의 개선 • 다중 서열 정렬이 정렬의 정확도를 높인다.
Structural or Evolutionary Alignment • 단백질의 기능을 결정 • 단백질의 3차원 구조에서의 아미노산 side chain의 정확한 배열 • 두 개 이상의 단백질의 3차원 구조를 비교 • 구조적 정렬 • 서열정렬 알고리즘을 평가하는 척도 • 단백질의 3차원 구조가 알려져 있을 경우 가능 • 구조적 정렬에 최대한 가까운 서열정렬을 작성 • 진화론적 정렬 • 공통 선조 단백질로부터 분기되어 나온 것을 시사 • 두 개의 상이한 단백질의 진화론적 정렬을 신뢰성을 가지고 결정하는 것은 불가능
Structural Alignment Structure alignment may be defined as identification of residues occupying “equivalent” geometrical positions • Unlike in sequence alignment, residue type is neglected • Used for • measuring the structural similarity • protein classification and functional analysis • database searches
Structural Alignment • accurate • only for part of the sequence • not the same as evolutionary alignment LTIDGSKVSL Mutation Deletion LTIDGAKVSL LTIDG-KVSL
Structural vsEvolutionary Alignment Evolutionary : LTIDG-KVSL LTIDGAKVSL Structural : LTID-GKVSL LTIDGAKVSL A G K G D V I S T L L
How to Multiply Align Sequence • 데이터베이스 탐색 • 정렬에 포함할 각 서열의 구역을 지정 • 유사성을 측정하려면 무작위적으로 한 쌍씩 선택하여 비교하는 것이 이상적 • 클러스터 되는 서열들을 먼저 선택하여 정렬 • E-값이 1 이하인 서열만을 정렬할 수 도 있음. • 정렬에 문제가 없는지 수동 점검 • 전체의 정렬 상태를 심각하게 파괴하는 서열 제거 • 나머지 서열들을 이 서열 정보에 추가해 나가면서 단백질 군의 주요 특징들을 유지
정렬의 유의성 평가 • 결과로 얻은 정렬이 다 생물학적 의미를 가지는 것은 아님 • 정렬의 유의성을 측정하여야 함 • 몬테카를로 유의성 평가(무작위화 방법) • 두 서열을 정렬하고 정렬 점수(S)를 기록 • 서열의 아미노산 순서를 뒤집어서 길이와 조성을 유지하되 순서는 무작위화 • 뒤섞는 과정과 재정렬 과정을 반복(100회) • 그 점수들의 평균과 표준 편차를 계산 • Z-점수는 정렬의 유의성을 나타내는 척도
정렬의 유의성 평가 • Z값 • 무작위로 추출된 서열들의 점수에 대한 경험적인 분포가 기반이 됨 ( S : 두 서열의 전영 정렬, 또는 최상의 국소 정렬에 대한 점수 μ : 각 서열의 순서를 무작위로 변화시켜 만든 서열의 최적의 정렬을 만든 과정을 k번 반복하여 얻은 점수들, s1, s2…sk의 평균값 σ : 표준편차 ) • Z>6 : 두 서열의 정렬 가능성은 높고 정렬에 의해 그 단백질의 주요 기능적 잔기들을 상대 단백질로 정확하게 연관 • Z>6인 정렬도 정확도가 낮을 수도 있음 • Z점수가 서열 길이의 차이를 감안할 뿐 아니라 서열 내의 조성편차 모두에 대해 점수를 보정 • Z점수는 두 서열간의 전반적 유사성 지표
Hierarchical Methods(1/4) • 계층 분석법 • 자동 다중 정렬을 위한 가장 정확하고 실질적인 방법 • 안내 분지도(Guide Tree)를 작성 • 이에 기반한 정렬을 작성 • 과정 • 정렬할 그룹의 모든 서열을 쌍별로 비교 • 비교로부터 각 쌍에 대한 유사성 점수를 얻는다 • 분지도 상에서는 유사도가 높은 쌍들이 유사성이 낮은 쌍들보다 가까이 위치 • 가장 유사한 한 쌍의 서열을 정렬한 후 그 다음으로 유사한 쌍을 정렬하는 식으로 진행 • 최적의 다중 서열정렬을 찾는다는 보장은 없음
Hierarchical Methods(2/4) A B C D First step: Compute the pairwise alignments for all against all the similarities are stored in a table
A B C D Hierarchical Methods(3/4) Second step: • cluster the sequences to create a tree • Represents the order in which pairs of sequences are to be aligned • similar sequences are neighbors in the tree • distant sequences are distant from each other in the tree
ClustalW • 계층 정렬법에 사용하기 쉬운 인터페이스를 합침 • 무료로 사용 • 여러 가지 쌍-점수 행렬(pair-score matrix) • 공백 위치의 편중화를 이용 • 정렬된 서열의 세트를 재정렬 • 계통발생학적 추론을 위한 neighbor-joining tree • 가장 널리 쓰이는 프로그램
Overview of Clustal W CLUSTAL W Hbb_Human 1 - Hbb_Horse 2 .17 - Hba_Human 3 .59 .60 - Quick pairwise alignment: calculate distance matrix Hba_Horse 4 .59 .59 .13 - Myg_Whale 5 .77 .77 .75 .75 - Hbb_Human 4 2 3 Hbb_Horse Neighbor-joining tree (guide tree) Hba_Human 1 Hba_Horse Myg_Whale alpha-helices 1 PEEKSAVTALWGKVN--VDEVGG 4 2 3 Progressive alignment following guide tree 2 GEEKAAVLALWDKVN--EEEVGG 3 PADKTNVKAAWGKVGAHAGEYGA 1 4 AADKTNVKAAWSKVGGHAGEYGA 5 EHEWQLVLHVWAKVEADVAGHGQ
T-Coffee • 계층분석법은 길이가 다른 시퀀스는 힘들고 지역적으로 유사한 부분을 공유하는 시퀀스를 다룬다 • T-Coffee • 관심을 가지는 시퀀스에 대한 정렬 • 작은 시퀀스 집합에서 좋은 성능을 보임 • 큰 정렬에서는 성능이 떨어짐 • 현재 구조적 정렬에 많은 도움을 줌
PSI-BLAST를 이용(Position Specific Iterated BLAST) • 검색 작업의 일부로 다중 서열정렬을 작성 • 전통적인 다중 정렬 방법 • 한 서열세트 내의 모든 서열에 대해 동일한 가중치 • 공백들이 삽입되기 때문에 서열이 길어지게 됨 • PSI-블라스트는 항상 같은 길이의 정렬을 작성 • 공백의 첨가가 필요할 때는 단순히 삭제 • 결과되는 정렬은 질의 서열의 각 위치에 해당 정렬 될 아미노산들만 표시 • 단백질의 2차구조를 예측하는 프로그램에 대한 입력자료로 매우 효과적
Tools to Assist in the Analysis of Multiple Alignments • 데이터 용량이 크므로 육안으로 쉽게 알아볼 수 있도록 정렬을 나타내고 그 주요 속성을 표현하는 것은 매우 어려움 • 정렬을 시각화하는 것은 분석이나 출판을 위한 중요한 과학적 도구 • 정렬된 모든 서열에서 색채를 적절히 사용하여 동일한 위치들 또는 공통된 물리화학적 특성을 공유하는 위치를 표시
ALSCRIPT • 동일한 서열 : 붉은 바탕에 흰 글씨 • 유사한 물리화학적 특성 : 노란색 바탕, 검은 글씨 • 검은 원통(알파-나선), 녹색 화살표(베타-가닥)
하위정렬 - AMAS • AMAS( Analysis of Multiply Aligned Sequences) • 자동적으로 ALSCRIPT를 수행시켜 상자와 컬러 그리고 기능해석이 첨부된 다중정렬 출력결과를 제공 • “한 단백질에서 어떤 잔기가 그 고유한 특성에 기여하는가?” • 다중 정렬 내 서열들에서 하위그룹 간의 유사성과 상이성을 표시해 줌으로써 이러한 잔기들을 동정하는 데 도움이 됨 • EX) 어떤 차이를 보이는 서열군이 주어졌을 때 전체 서열군에서 보존되는 다중 정렬 내 구역들은 그 단백질의 공통 폴드(fold)나 기능을 안정화하는데 중요한 역할
하위정렬 - AMAS 보존도 수 (물리화학적 성질에 대한 수리적 척도 0~10) 유사쌍 (하위그룹의 각 쌍을 합쳐서 얻어진 보존도 수가 역치보다 작지 않을때의 보존도 수) 상이쌍 (하위그룹 조합에 대한 보존도 수 역치보다 낮은 위치를 가리킴)
하위정렬 - AMAS 상향막대 : 보존형이 유지된 하귀 그룹 쌍의 비율 하향막대 : 상이쌍의 비율
하위정렬 - AMAS • 아미노산의 물리화학적 속성 검색 • 전하와 같은 아미노산의 단일 속성 • Ex) 아넥신 단백질의 거대유전자 군내의 반복 영역에 대한 전하 분석의 예 • Native folded protein에서 salt bridge(염교)의 존재를 정확히 예측할 수 있는 서열들의 두 하위그룹 내의 전하 교환을 강조
하위정렬 - AMAS • 네 개의 서열 그룹 • 글루타민에서 아르기닌으로의 변화는 11에서 보임
다중 서열정렬로부터 2차 구조 및 매몰 잔기의 예측 • 2차 구조(알파-나선과 베타-가닥)의 예측은 단일 서열로부터 예측할 때보다 다중정렬로부터 예측할 때 약 6% 정도의 정확도가 개선 • 알파-나선, 베타-가닥, 임의 나선은 76% 적중률 • 정렬된 서열군에서 보존된 물리화학적 성질을 보이는 구역을 찾아낼 수 있음 • 이러한 패턴은 특정 2차 구조 형태의 특징
Prediction of secondary structure • 보존된 소수성 잔기의 짧은 마디는 매몰된 베타-가닥 • 보존된 소수성 아미노산들의 i, i+2, i+4 의 패턴은 표면 베타-가닥(한 가닥에서 교대되는 잔기들이 같은 방향으로 놓여있기 때문) • 보존 잔기들에서 i, i+3, i+4, i+7의 패턴과 이런 패턴의 변형이 발견되면 알파-나선을 의미 • 삽입과 삭제는 단백질의 매몰 중심과 관련이 없는 구역에서만 허용 • 서열군 전체에서 보존된 글리신과 프롤린 잔기는 루프일 가능성이 크다
JalView(1/2) • 정렬된 서열에 수정이 필요하거나 정렬의 하위세트가 필요한 경우에는 까다로운 수정 작업과 재정렬 작업이 필요 • JalView는 이러한 문제를 해결 • JalView • AMAS와 ALSCRIPT의 유용한 특징들을 대화형 프로그램에 채택 • 자바 해석기만 있으면 어디에서든지 실행 가능 • 대화식으로 정렬수정이 가능
JalView(2/2) 다중 정렬 클러스터링 유사성 분지도
Summary • 단백질의 다중 서열정렬 작성을 위한 방법과 서버 • Z-점수 측정에 의해 명백히 유사성이 있는 단백질은 정렬하기 수월 • 수집된 정렬과 도구들은 다음 단계의 분석을 위한 좋은 시작점이 될 수 있음