830 likes | 1.26k Views
Ch 11 . Assessing Pairwise Sequence Similarity: BLAST and FASTA. Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, Third Edition . IDB Lab. Seoul National University. Contents. Introduction Global Versus Local Sequence Alignments Dotplots Scoring Matrices BLAST
E N D
Ch11. Assessing Pairwise Sequence Similarity: BLAST and FASTA Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, Third Edition IDB Lab. Seoul National University
Contents • Introduction • Global Versus Local Sequence Alignments • Dotplots • Scoring Matrices • BLAST • BLAST2Sequences • MegaBLAST • PSI-BLAST • BLAT • FASTA • Comparing FASTA and BLAST • Summary
Introduction • 서열 비교 단백질의 기능, 위치, 구조 예측 • Similarity and homology • Similarity: 두 서열이 얼마나 유사한가 • Homology: 서열 유사성 등으로부터 얻는 잠재적 결론(진화론적으로 관련이 있다/없다) • Ortholog: 공통의 유전자로부터 분화된 유전자들을 서로 다른 종들이 가지고 있는 경우 (e.g. – geneA , – geneA’) • Paralog: 어떤 유전자와 그것의 유전적 복제에 의해 생성된 유전자가 한 생물체 내에 공존하는 경우 (e.g. geneA’ –– geneA)
Contents • Introduction • Global Versus Local Sequence Alignments • Dotplots • Scoring Matrices • BLAST • BLAST2Sequences • MegaBLAST • PSI-BLAST • BLAT • FASTA • Comparing FASTA and BLAST • Summary
Global Versus Local Sequence Alignments(1/13) • Global vs. local sequence alignments • Global: 서열 전체 비교 – 길이가 거의 같고 비슷한 서열들에 대해 적용 • Local: 서열 부분 비교 – 서열들에서 유사한 부분들 찾음 (길이가 서로 달라도 비교 가능) • 대부분의 생물학자들이 local alignment를 사용
Global Versus Local Sequence Alignments(2/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9
Global Versus Local Sequence Alignments(3/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9
Global Versus Local Sequence Alignments(4/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9
Global Versus Local Sequence Alignments(5/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9
Global Versus Local Sequence Alignments(6/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9
Global Versus Local Sequence Alignments(7/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9
Global Versus Local Sequence Alignments(8/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9
Global Versus Local Sequence Alignments(9/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9
Global Versus Local Sequence Alignments(10/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9
Global Versus Local Sequence Alignments(11/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9
Global Versus Local Sequence Alignments(12/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9
Global Versus Local Sequence Alignments(13/13) • Global alignment: Needleman-Wunsch algorithm a H E A G A W G H E E 0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1
Contents • Introduction • Global Versus Local Sequence Alignments • Dotplots • Scoring Matrices • BLAST • BLAST2Sequences • MegaBLAST • PSI-BLAST • BLAT • FASTA • Comparing FASTA and BLAST • Summary
Dotplots(1/4) • 두 서열들 간의 관계를 도표로 표현 • 부분 일치(정방향/역방향), 삽입, 삭제 등을 직관적으로 표현 • 어느 부분이 얼마나 유사한지 정확한 값을 알기 위해서는 다른 방법 필요
Dotplots(2/4) • Comparison of HMGB1 with SOX-10 • Global alignment를 사용하면 이러한 관계 포착 불가능
Dotplots(3/4) • Comparison of mucin with itself
Dotplots(4/4) • Comparison of achaete-scute protein with itself
Contents • Introduction • Global Versus Local Sequence Alignments • Dotplots • Scoring Matrices • BLAST • BLAST2Sequences • MegaBLAST • PSI-BLAST • BLAT • FASTA • Comparing FASTA and BLAST • Summary
Scoring Matrices(1/10) • 서열 간의 유사성을 정량적으로 분석 • Scoring matrix를 구성할 때 고려할 사항들 • Conservation: conservative substitution 고려 • Frequency: 흔하지 않은 잔기에 높은 비중 둠 • Evolution: 진화론적 거리 고려
Scoring Matrices(2/10) • PAM Matrices • 1978년 Dayhoff가 유사도 85% 이상인 단백질들을 대상으로 대체 패턴 조사 • “서열 A, B의 진화적 거리가 n PAM이다.” ≡ “A, B가 평균적으로 n% 차이가 난다.” (1 PAM = one change per 100 residues) • 진화적 거리가 n PAM인 서열들 간의 substitution matrix를 PAMn이라 함 (PAMn = (PAM1)n) ※ PAM scoring matrix: PAM 행렬에 log odds ratio(lod score; ☞ Box 11.1)를 적용한 행렬
Scoring Matrices(3/10) • Example – PAM1
Scoring Matrices(4/10) • PAM 행렬의 단점 • 다음과 같은 가정 하에 행렬 계산됨 • 변이들은 서로 독립 (실제로는 PAMn ≠ (PAM1)n) • 변이 확률은 어느 위치든 동일 (실제로는 단백질 구조와 관련) • 진화 경향은 불변 • 대체로 1978년 이전에 발견된 단백질들로부터 행렬 계산 작은 구상 단백질에 편향
Scoring Matrices(5/10) • BLOSUM Matrices • 1992년 Henikoff가 여러 단백질들이 공통으로 가지고 있는 모티프들 조사, BLOCKS 데이터베이스 구축 • 단백질에서 변화가 적은 영역들만을 대상으로 대체 패턴 조사 • PAM 행렬보다 훨씬 정확 • BLOSUMn: 유사도가 n% 이하인 서열들을 대상으로 구축한 행렬
Scoring Matrices(6/10) • Example – BLOSUM62 • 자주 일어나는 substitution일 수록 큰 값 부여 • 희귀한 아미노산일 수록 큰 값 부여
Scoring Matrices(7/10) • Selecting an Appropriate Scoring Matrix • PAM250은 BLOSUM45와 동등 • PAM160은 BLOSUM62와 동등 • PAM120은 BLOSUM80과 동등
Scoring Matrices(8/10) • Nucleotide Scoring Matrices(1/2) • A, T, G, C가 같은 비율로 존재한다고 가정 • 뉴클레오티드 기반 비교는 단백질 기반 비교에 비해 정확도가 떨어짐 Sequence1 GA P G M W L R L A A G S F E H A G * * * * * (28% 일치) Sequence2 D T P R I W E E F A G G W L H H G A Sequence1 GGTGCACCCGGTATGTGACTGCGATTAGCAGCGGGATCATTTCAGCATGCAGGG * * ***** **** **** ** *** **** ***** *** ** **** ** * (76% 일치) Sequence2 GATACACCCCGTATTTGACAGCAATTTGCAGGGGGATGATTGCACCATGGAGCG
Scoring Matrices(9/10) • Nucleotide Scoring Matrices(2/2)
Scoring Matrices(10/10) • Gaps and Gap Penalties • 아미노산 삽입과 삭제를 고려해 서열 비교 • 일반적으로 20 잔기 당 기껏해야 1개의 틈 발생 • Affine gap penalty • 틈 간격에 따라 유사도에 패널티 부과 • 패널티 = G + Ln (G:틈 생성 비용, L: 틈 확장 비용, n: 틈 길이) • 틈 허용함으로써 더 먼 homolog도 찾을 수 있음
Contents • Introduction • Global Versus Local Sequence Alignments • Dotplots • Scoring Matrices • BLAST • BLAST2Sequences • MegaBLAST • PSI-BLAST • BLAT • FASTA • Comparing FASTA and BLAST • Summary
BLAST(1/21) • 서열 간 비교를 빠르고 정확하게 수행 • Scoring matrix 이용
BLAST(2/21) • Step1 – Seeding(1/4) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS
BLAST(3/21) • Step1 – Seeding(2/4) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS
BLAST(4/21) • Step1 – Seeding(3/4) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS
BLAST(5/21) • Step1 – Seeding(4/4) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS
BLAST(6/21) • Step2 – Extension(1/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS
BLAST(7/21) • Step2 – Extension(2/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS
BLAST(8/21) • Step2 – Extension(3/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS
BLAST(9/21) • Step2 – Extension(4/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS
BLAST(10/21) • Step2 – Extension(5/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS
BLAST(11/21) • Step2 – Extension(6/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS
BLAST(12/21) • Step2 – Extension(7/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS
BLAST(13/21) • Step2 – Extension(8/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS
BLAST(14/21) • Step2 – Extension(9/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS
BLAST(15/21) • Step2 – Extension(10/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS
BLAST(16/21) • Step2 – Extension(11/11) Subject sequence: TLSREQHKKDHPDYKYQPRRRK Query sequence: ERLRDQHKKDYPESHADAESSS