Ch12. Creation and Analysis of Protein Multiple Sequence Alignment

Ch12. Creation and Analysis of Protein Multiple Sequence Alignment Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, Third Edition IDB Lab. Seoul National University

Contents • Introduction • What is a Multiple Alignment • Structural or Evolutionary Alignment? • How to Multiply Align Sequence • How to Generate Multiple Structural Alignments • Tools to Assist in the Analysis of Multiple Alignments • Summary

Introduction • 단백질 서열이 결정되면 그 다음 목표는 단백질의 관련 기능을 알아내야 함 • 단백질 서열 데이터베이스에서 유사성을 가지는 서열을 검색 • 검색된 서열은 새로운 단백질 서열의 전체 길이와 일치할 수도 있고 하위 부분의 서열과 일치 가능 • 이러한 유사 서열을 다중 정렬(Multiple Alignment) • 다중 정렬을 효과적으로 분석 • 어느 잔기(Residues)가 그 단백질의 기능 또는 2차 및 3차 구조의 안정화에 중요한지에 대한 단서 • 서열 하위세트의 기능 특이성이 어느 잔기에 의해 결정되는지 예측 가능

A - T A G - G T T G G G G T G G - - T - A T T A - - A - T A C C A C C C - G C - G - What is a Multiple Alignment? S1=AGGTC S2=GTTCG Possible alignment S3=TGAAC Possible alignment

Alignment Example(1/2) GTCGTAGTCGGCTCGACGTCTAGCGAGCGTGATGCGAAGAGGCGAGCGCCGTCGCGTCGTAAC 1*1 2*0.75 11*0.5 Score=8 GTCGTAGTCG-GC-TCGACGTC-TAG-CGAGCGT-GATGC-GAAG-AG-GCG-AG-CGCCGTCG-CG-TCGTA-AC 4*1 11*0.75 2*0.5 Score=13.25 Score : 4/4 =1 , 3/4 =0.75 , 2/4=0.5 , 1/4= 0

Alignment Example(2/2) 1 vs 21 vs 32 vs 3multiple alignment space Sequence 3 Sequence 2 Sequence 1

다중 정렬의 정의와 목적 • 서열 정렬 • 한 서열의 잔기들이 적어도 한 개 이상의 다른 서열의 잔기들과 나란히 배열되는 것 • 두 서열을 정렬할 때 수 백 만개의 다른 정렬이 가능 • 두 단백질 간의 화학적-생물학적 유사성을 가장 잘 대표할 수 있는 정렬을 찾는 것이 문제 • 다중서열 정렬 • 단순히 두 개 이상의 서열을 포함하는 정렬

다중 정렬에서 정렬 정확도의 개선 • 다중 서열 정렬이 정렬의 정확도를 높인다.

Structural or Evolutionary Alignment • 단백질의 기능을 결정 • 단백질의 3차원 구조에서의 아미노산 side chain의 정확한 배열 • 두 개 이상의 단백질의 3차원 구조를 비교 • 구조적 정렬 • 서열정렬 알고리즘을 평가하는 척도 • 단백질의 3차원 구조가 알려져 있을 경우 가능 • 구조적 정렬에 최대한 가까운 서열정렬을 작성 • 진화론적 정렬 • 공통 선조 단백질로부터 분기되어 나온 것을 시사 • 두 개의 상이한 단백질의 진화론적 정렬을 신뢰성을 가지고 결정하는 것은 불가능

Structural Alignment Structure alignment may be defined as identification of residues occupying “equivalent” geometrical positions • Unlike in sequence alignment, residue type is neglected • Used for • measuring the structural similarity • protein classification and functional analysis • database searches

Structural Alignment • accurate • only for part of the sequence • not the same as evolutionary alignment LTIDGSKVSL Mutation Deletion LTIDGAKVSL LTIDG-KVSL

Structural vsEvolutionary Alignment Evolutionary : LTIDG-KVSL LTIDGAKVSL Structural : LTID-GKVSL LTIDGAKVSL A G K G D V I S T L L

How to Multiply Align Sequence • 데이터베이스 탐색 • 정렬에 포함할 각 서열의 구역을 지정 • 유사성을 측정하려면 무작위적으로 한 쌍씩 선택하여 비교하는 것이 이상적 • 클러스터 되는 서열들을 먼저 선택하여 정렬 • E-값이 1 이하인 서열만을 정렬할 수 도 있음. • 정렬에 문제가 없는지 수동 점검 • 전체의 정렬 상태를 심각하게 파괴하는 서열 제거 • 나머지 서열들을 이 서열 정보에 추가해 나가면서 단백질 군의 주요 특징들을 유지

정렬의 유의성 평가 • 결과로 얻은 정렬이 다 생물학적 의미를 가지는 것은 아님 • 정렬의 유의성을 측정하여야 함 • 몬테카를로 유의성 평가(무작위화 방법) • 두 서열을 정렬하고 정렬 점수(S)를 기록 • 서열의 아미노산 순서를 뒤집어서 길이와 조성을 유지하되 순서는 무작위화 • 뒤섞는 과정과 재정렬 과정을 반복(100회) • 그 점수들의 평균과 표준 편차를 계산 • Z-점수는 정렬의 유의성을 나타내는 척도

정렬의 유의성 평가 • Z값 • 무작위로 추출된 서열들의 점수에 대한 경험적인 분포가 기반이 됨 ( S : 두 서열의 전영 정렬, 또는 최상의 국소 정렬에 대한 점수 μ : 각 서열의 순서를 무작위로 변화시켜 만든 서열의 최적의 정렬을 만든 과정을 k번 반복하여 얻은 점수들, s1, s2…sk의 평균값 σ : 표준편차 ) • Z>6 : 두 서열의 정렬 가능성은 높고 정렬에 의해 그 단백질의 주요 기능적 잔기들을 상대 단백질로 정확하게 연관 • Z>6인 정렬도 정확도가 낮을 수도 있음 • Z점수가 서열 길이의 차이를 감안할 뿐 아니라 서열 내의 조성편차 모두에 대해 점수를 보정 • Z점수는 두 서열간의 전반적 유사성 지표

Hierarchical Methods(1/4) • 계층 분석법 • 자동 다중 정렬을 위한 가장 정확하고 실질적인 방법 • 안내 분지도(Guide Tree)를 작성 • 이에 기반한 정렬을 작성 • 과정 • 정렬할 그룹의 모든 서열을 쌍별로 비교 • 비교로부터 각 쌍에 대한 유사성 점수를 얻는다 • 분지도 상에서는 유사도가 높은 쌍들이 유사성이 낮은 쌍들보다 가까이 위치 • 가장 유사한 한 쌍의 서열을 정렬한 후 그 다음으로 유사한 쌍을 정렬하는 식으로 진행 • 최적의 다중 서열정렬을 찾는다는 보장은 없음

Hierarchical Methods(2/4) A B C D First step: Compute the pairwise alignments for all against all the similarities are stored in a table

A B C D Hierarchical Methods(3/4) Second step: • cluster the sequences to create a tree • Represents the order in which pairs of sequences are to be aligned • similar sequences are neighbors in the tree • distant sequences are distant from each other in the tree

Hierarchical Methods(4/4)

ClustalW • 계층 정렬법에 사용하기 쉬운 인터페이스를 합침 • 무료로 사용 • 여러 가지 쌍-점수 행렬(pair-score matrix) • 공백 위치의 편중화를 이용 • 정렬된 서열의 세트를 재정렬 • 계통발생학적 추론을 위한 neighbor-joining tree • 가장 널리 쓰이는 프로그램

Overview of Clustal W CLUSTAL W Hbb_Human 1 - Hbb_Horse 2 .17 - Hba_Human 3 .59 .60 - Quick pairwise alignment: calculate distance matrix Hba_Horse 4 .59 .59 .13 - Myg_Whale 5 .77 .77 .75 .75 - Hbb_Human 4 2 3 Hbb_Horse Neighbor-joining tree (guide tree) Hba_Human 1 Hba_Horse Myg_Whale alpha-helices 1 PEEKSAVTALWGKVN--VDEVGG 4 2 3 Progressive alignment following guide tree 2 GEEKAAVLALWDKVN--EEEVGG 3 PADKTNVKAAWGKVGAHAGEYGA 1 4 AADKTNVKAAWSKVGGHAGEYGA 5 EHEWQLVLHVWAKVEADVAGHGQ

Clustal W Weighting

T-Coffee • 계층분석법은 길이가 다른 시퀀스는 힘들고 지역적으로 유사한 부분을 공유하는 시퀀스를 다룬다 • T-Coffee • 관심을 가지는 시퀀스에 대한 정렬 • 작은 시퀀스 집합에서 좋은 성능을 보임 • 큰 정렬에서는 성능이 떨어짐 • 현재 구조적 정렬에 많은 도움을 줌

T-Coffee

PSI-BLAST를 이용(Position Specific Iterated BLAST) • 검색 작업의 일부로 다중 서열정렬을 작성 • 전통적인 다중 정렬 방법 • 한 서열세트 내의 모든 서열에 대해 동일한 가중치 • 공백들이 삽입되기 때문에 서열이 길어지게 됨 • PSI-블라스트는 항상 같은 길이의 정렬을 작성 • 공백의 첨가가 필요할 때는 단순히 삭제 • 결과되는 정렬은 질의 서열의 각 위치에 해당 정렬 될 아미노산들만 표시 • 단백질의 2차구조를 예측하는 프로그램에 대한 입력자료로 매우 효과적

PSI-BLAST

Tools to Assist in the Analysis of Multiple Alignments • 데이터 용량이 크므로 육안으로 쉽게 알아볼 수 있도록 정렬을 나타내고 그 주요 속성을 표현하는 것은 매우 어려움 • 정렬을 시각화하는 것은 분석이나 출판을 위한 중요한 과학적 도구 • 정렬된 모든 서열에서 색채를 적절히 사용하여 동일한 위치들 또는 공통된 물리화학적 특성을 공유하는 위치를 표시

ALSCRIPT • 동일한 서열 : 붉은 바탕에 흰 글씨 • 유사한 물리화학적 특성 : 노란색 바탕, 검은 글씨 • 검은 원통(알파-나선), 녹색 화살표(베타-가닥)

하위정렬 - AMAS • AMAS( Analysis of Multiply Aligned Sequences) • 자동적으로 ALSCRIPT를 수행시켜 상자와 컬러 그리고 기능해석이 첨부된 다중정렬 출력결과를 제공 • “한 단백질에서 어떤 잔기가 그 고유한 특성에 기여하는가?” • 다중 정렬 내 서열들에서 하위그룹 간의 유사성과 상이성을 표시해 줌으로써 이러한 잔기들을 동정하는 데 도움이 됨 • EX) 어떤 차이를 보이는 서열군이 주어졌을 때 전체 서열군에서 보존되는 다중 정렬 내 구역들은 그 단백질의 공통 폴드(fold)나 기능을 안정화하는데 중요한 역할

하위정렬 - AMAS 보존도 수 (물리화학적 성질에 대한 수리적 척도 0~10) 유사쌍 (하위그룹의 각 쌍을 합쳐서 얻어진 보존도 수가 역치보다 작지 않을때의 보존도 수) 상이쌍 (하위그룹 조합에 대한 보존도 수 역치보다 낮은 위치를 가리킴)

하위정렬 - AMAS 상향막대 : 보존형이 유지된 하귀 그룹 쌍의 비율 하향막대 : 상이쌍의 비율

하위정렬 - AMAS • 아미노산의 물리화학적 속성 검색 • 전하와 같은 아미노산의 단일 속성 • Ex) 아넥신 단백질의 거대유전자 군내의 반복 영역에 대한 전하 분석의 예 • Native folded protein에서 salt bridge(염교)의 존재를 정확히 예측할 수 있는 서열들의 두 하위그룹 내의 전하 교환을 강조

하위정렬 - AMAS • 네 개의 서열 그룹 • 글루타민에서 아르기닌으로의 변화는 11에서 보임

다중 서열정렬로부터 2차 구조 및 매몰 잔기의 예측 • 2차 구조(알파-나선과 베타-가닥)의 예측은 단일 서열로부터 예측할 때보다 다중정렬로부터 예측할 때 약 6% 정도의 정확도가 개선 • 알파-나선, 베타-가닥, 임의 나선은 76% 적중률 • 정렬된 서열군에서 보존된 물리화학적 성질을 보이는 구역을 찾아낼 수 있음 • 이러한 패턴은 특정 2차 구조 형태의 특징

Prediction of secondary structure • 보존된 소수성 잔기의 짧은 마디는 매몰된 베타-가닥 • 보존된 소수성 아미노산들의 i, i+2, i+4 의 패턴은 표면 베타-가닥(한 가닥에서 교대되는 잔기들이 같은 방향으로 놓여있기 때문) • 보존 잔기들에서 i, i+3, i+4, i+7의 패턴과 이런 패턴의 변형이 발견되면 알파-나선을 의미 • 삽입과 삭제는 단백질의 매몰 중심과 관련이 없는 구역에서만 허용 • 서열군 전체에서 보존된 글리신과 프롤린 잔기는 루프일 가능성이 크다

JalView(1/2) • 정렬된 서열에 수정이 필요하거나 정렬의 하위세트가 필요한 경우에는 까다로운 수정 작업과 재정렬 작업이 필요 • JalView는 이러한 문제를 해결 • JalView • AMAS와 ALSCRIPT의 유용한 특징들을 대화형 프로그램에 채택 • 자바 해석기만 있으면 어디에서든지 실행 가능 • 대화식으로 정렬수정이 가능

JalView(2/2) 다중 정렬 클러스터링 유사성 분지도

Summary • 단백질의 다중 서열정렬 작성을 위한 방법과 서버 • Z-점수 측정에 의해 명백히 유사성이 있는 단백질은 정렬하기 수월 • 수집된 정렬과 도구들은 다음 단계의 분석을 위한 좋은 시작점이 될 수 있음

Ch12. Creation and Analysis of Protein Multiple Sequence Alignment

Ch12. Creation and Analysis of Protein Multiple Sequence Alignment

Presentation Transcript

Multiple sequence alignment

Multiple Sequence Alignment

Multiple Sequence Alignment

Multiple Sequence Alignment

Multiple Sequence Alignment

Multiple Sequence Alignment

Multiple Sequence Alignment

Multiple Sequence Alignment

Multiple sequence alignment

Multiple Sequence Alignment

Multiple Sequence Alignment

Multiple Sequence Alignment

Multiple Sequence Alignment

Multiple Sequence Alignment

Multiple Sequence Alignment

Multiple Sequence Alignment

Multiple Sequence Alignment

Multiple Sequence Alignment

Multiple Sequence Alignment

Multiple Sequence Alignment

Multiple Sequence Alignment