100 likes | 636 Views
BLAST. BLAST とは. Basic Local Alignment Search Tool の略称 相同性検索の代表的なプログラム 1990年に Altschul らによって開発された 開発以来、改良が重ねられている 実質的に「世界標準」プログラム 高い局所的相同性を持つ配列の検索 高い全体的相同性を持つ配列も,問題なく発見できる . 統計学的背景. BLAST がどういう基準で相同な配列をデータベース中から選び出しているか 類似した2本の配列があるときに、その類似性が偶然によるものなのか、あるいは偶然ではないのかという問題
E N D
BLASTとは • Basic Local Alignment Search Tool の略称 • 相同性検索の代表的なプログラム • 1990年にAltschulらによって開発された • 開発以来、改良が重ねられている • 実質的に「世界標準」プログラム • 高い局所的相同性を持つ配列の検索 • 高い全体的相同性を持つ配列も,問題なく発見できる
統計学的背景 • BLASTがどういう基準で相同な配列をデータベース中から選び出しているか • 類似した2本の配列があるときに、その類似性が偶然によるものなのか、あるいは偶然ではないのかという問題 • この問題を統計学的に判定するために、これらの配列が進化的にも機能的にも全く関係がなく偶然に類似する確率がどの程度あるかを調べる • その確率がある基準値より小さければ、これらの配列は偶然ではなく何らかの原因によって類似していると判断することができる • BLASTでは偶然では説明のつかない類似した配列を選び出している
統計学的背景 • 統計的判定の手順(1) • 2本の配列の類似度を定量化するために相同性スコアを計算 • スコアはすべてアミノ酸のペアについて定義されていて、一致したアミノ酸や性質の類似したアミノ酸のペアには正の得点、それ以外は負の得点が与えられている • ランダムに選んだ2個のアミノ酸のペアに対しては、このスコアの期待値は負の値 • アミノ酸配列の比較の場合には、BLOSUM62というアミノ酸間の相同性スコア行列を利用 • DNAの塩基配列の場合は、一致した塩基には+5、異なる塩基にはー4が与えられ、2つの配列間の相同性スコアはひとつひとつのサイトでのスコアの総和として定義される
統計学的背景 • 統計的判定の手順(2) • 2本の配列のアラインメントを作り、そのアラインメントの中で相同性の高い部分を考える • 最も相同性スコアが大きくなるような部分配列のことをHSP (high-scoringsegment pair)と呼ぶ • BLASTでは発見されたHSPにそれぞれE-value(期待値)が出力される • E-valueは限りなく0に近い方が望ましい • 一概には言えないが、1e-10以下であると、かなりの高い確率で機能的にも類似の配列である可能性が示唆される • E-valueは偶然にデータベース中に見つかる相同な配列の個数を意味するので、E-valueによってBLASTの結果の解釈を行う • E-value とともにScoreも出力される • 見つかった局所配列の長さをビット形式で書いたもの • この値の半分の大きさがおおよその局所配列長
BLASTのアルゴリズム • BLASTのアルゴリズムは3つのステップに分かれている • 検索配列(query sequence)からデータベース検索用の文字列リスト(neighborhood word list)を作成 • 文字列リストにある文字列をデータベース中で探す • 見つかった文字列を使い、相同性の高い領域の範囲を決定
1.検索用文字列リストの作成 • タンパク質のアミノ酸配列の場合 • デフォルトの文字列の長さ(wordsize:W)は3 1.長さ3のすべての可能な文字列を想定( =8000種類) 2.このうち、検索配列中にある長さ3のすべての文字列に対してアラインメントした時に、ある基準スコア以上の相同性スコアが得られるような文字列をすべて選び出し文字列リストに加える 3.結果、検索用文字列リストには、検索配列中にある長さ3のすべての文字列とそれに類似した配列が含まれる • DNAの塩基配列の場合 • デフォルトの文字列の長さ(W)が1 • 検索配列中の長さ1のすべての配列を文字列リストに含める(検索配列の長さをnとすると文字列の種類はn-W+1になる)
2.検索用文字列リスト中の全ての文字列をデータベース中で検索3.データベース中で発見された各文字列について,相同性の高い 領域の範囲を配列の上流と下流にのばしてゆき,相同性スコア が局地的に最大になるように相同領域の範囲を決定(HSPを探 す作業 )・ こうして発見された相同な部分配列、HSPはBLASTの最終的な 出力になる • 完全に一致した文字列だけを探すようにして、完全一致だけを許すことにより、検索時間の劇的な短縮を実現 • この作業は、相同領域の範囲を広げてもそれ以上スコアが高くならないところまで続けられる
BLASTの種類 • blanstn • 塩基配列の問い合わせに対して塩基配列データベースを検索 • blanstp • アミノ酸配列の問い合わせ配列に対してタンパク質配列データベースを検索 • blanstx • 塩基配列の問い合わせに対してタンパク質配列データベースを検索 • tblastn • アミノ酸配列の問い合わせに対して塩基配列データベースを検索 • tblanstx • 塩基配列の問い合わせと塩基配列データベースの両方をアミノ酸配列に翻訳して検索 • PSI-BLAST • アミノ酸配列の問い合わせに対してタンパク質配列データベースの局所的に高い類似性を有するものを繰り返し検索 • SSEARCH • Smith-Watermanアルゴリズムを用いて、塩基配列の問い合わせに対して塩基配列データベースを検索 • Smith-Watermanアルゴリズムを用いて、アミノ酸配列の問い合わせに対してタンパク質データベースを検索
補足 • Smith-Watermanアルゴリズム • 2本の配列を比較したときに相同性スコアが最大になるような最適アラインメントを見つけるための完全な方法 • このアルゴリズムによる最適アラインメントの探索はかなりの時間がかかる • BLOSUM62 • 20種類のアミノ酸残基間の置換に対するスコアを行列化したもの • あらかじめ機能や進化的考察によって同じファミリーであると分類されたタンパク質同士の配列比較から、その置換頻度を調べることにより算出される • プラス値は優位な置換を示す • マイナス値は置換の起こりにくさを表す