情報生命科学特別講義 III （１）文字列マッチング

情報生命科学特別講義III（１）文字列マッチング情報生命科学特別講義III（１）文字列マッチング阿久津　達也京都大学　化学研究所バイオインフォマティクスセンター

講義予定 • 第１回:文字列マッチング • 第２回：　文字列データ構造 • 第３回：　たたみ込みとハッシュに基づくマッチング • 第４回：　近似文字列マッチング • 第５回：　配列アラインメント • 第６回：　配列解析 • 第７回：　進化系統樹推定 • 第８回：　木構造の比較：順序木 • 第９回：　木構造の比較：無順序木 • 第１０回：　文法圧縮 • 第１１回：RNA二次構造予測 • 第１２回：　タンパク質立体構造の予測と比較 • 第１３回：　固定パラメータアルゴリズムと部分k木 • 第１４回：　グラフの比較と列挙 • 第１５回：　まとめ

講義目的、成績、教科書 • 講義目的 • バイオインフォマティクスにおける主要な離散アルゴリズムについて理解する • 乱拓アルゴリズム、近似アルゴリズム、固定パラメータアルゴリズムなど、現代的なアルゴリズム設計技法について理解する • 計算時間および解の最適性もしくは近似精度に理論的保証のあるアルゴリズムを主対象とする • 成績評価 • 出席４割、レポート６割 • レポートは最終日の講義において出題 • 教科書（主に第5-8回、第11-12回） • 阿久津達也：バイオインフォマティクスの数理とアルゴリズム、共立出版、2007 • 参考書 • 第１，３回： Crochemore & Rytter: Jewels of Stringology, World Scientific, 2002 • 第2回：岡野原大輔：高速文字列解析の世界、岩波書店、2012 • その他は講義ノートにおいて該当トピックの最初に参考文献を記載

文字列マッチング問題

文字列マッチング問題（１） • 入力 • パターン文字列： • テキスト文字列： • 出力 • 　　　　　　　　　　　　　　　　　を満たす、すべての j j=6 j=14 例 j=10 j=3 j=12

文字列マッチング問題（２） 単純アルゴリズム一文字ずつ、ずらしながらチェック例全部で、4+1+1+2+4+1=13 回の比較

文字列マッチング問題（３） 命題：単純アルゴリズムの時間計算量は Θ(mn) 証明：時間計算量が O(mn)　なのは明らか。以下の例の場合、m(n-m+1) 回の比較が必要なので、Ω(mn) 時間。ただし、平均的にはO(m+n)時間で動作することが知られている。

Knuth-Morris-Prattアルゴリズム

KMPアルゴリズム：アイデア • アイデア：以前の結果を利用 • j=2ではグレーのところだけをチェックすれば良い • 表 h[i]：次を満たす最大の k（無い時は h[i]=0）

KMPアルゴリズム：テキスト処理 • 表 h[i]：次を満たす最大の k（無い時は h[i]=0） KMPアルゴリズム　（テキスト処理）上記はマッチの有無のみを判定。すべての jの出力は宿題

KMPアルゴリズム：実行例（１） • 表 h[i]：次を満たす最大の k（無い時は h[i]=0） a a a b a a a b h[4]=3 2 0 3 0 3 4 1 0 a a a b i p h[i] a b a b a a a a h[4]=3 a a a a a a c c c a a a a a a a a a a a a b b b t a b a a h[3]=0

KMPアルゴリズム：実行例（２） h[5]=0 Match! h[6]=2 h[2]=1 h[3]=0

KMPアルゴリズム：実行例（３） h[12]=7 h[7]=4 h[4]=2 h[2]=1 h[1]=0

KMPアルゴリズム：解析 定理：KMPアルゴリズム（テキスト処理）の時間計算量は O(n) 証明：明らかに (#)にかかる時間が問題。その時間は・ j が１増えた時のみ、iも１増える・ i←h[i] を１回実行すると、iは少なくとも１減る・ iは増えた回数以上に減ることはないより、O(n)。よって、全体の計算量も O(n) 解析のアイデア：計算量のならし解析（amortized analysis）　　　　　　　　　ここでは「稼いだ分しか使えない」が基本的アイデア

KMPアルゴリズム：パターン処理 表 h[i]の作り方 • テキスト処理と似た手続き • 自分自身とのマッチをとりながら、h[i]を作っていく定理：KMPアルゴリズムは文字列マッチング　　　　問題を O(m+n)時間で解く

Boyer-Moore アルゴリズム

BMアルゴリズム：アイデア、例 • KMPではテキスト中の文字を全て１回は調べている • BMでは、パターンを後から前に調べることでテキスト中の一部の文字しか見ないようにする例まず、c と d を比較。d は P中には現れないので、Pが d と重なることはない。よって、次のようにずらして、最後の文字を比較。 P 中の c の位置に T中の a があるので、P 中の最後の a が重なるようにずらす

BMアルゴリズム：計算量 • 詳細を工夫することにより、最悪の場合を O(m+n)　とすることができる • 平均的には KMP よりずっと速い • BM と似たアルゴリズムでは、平均的に O((n/m) logkm) 時間を達成（ただし、kはアルファベットのサイズ（文字種の個数））

Aho-Corasick アルゴリズム

複数文字列マッチング問題 • 入力 • キーワード集合： • テキスト文字列： • 出力 • 　　　　　　　　　　　　　を満たす、すべての j • KMPやBMを k回実行　⇒ O(kn) 時間 • Aho-Corasick アルゴリズムなら、O(m+n)時間これ以降の講義では、アルファベットΣ（文字種の集合）は固定と仮定

Aho-Corasickアルゴリズム アイデア • キーワード集合からDFA（決定性有限オートマトン）を構成例：W={he, she, his, hers } 実線：　前方遷移関数 f 点線：　失敗関数 g 0 に戻る失敗関数は省略

Aho-Corasickアルゴリズム：実行例 W={he, she, his, hers }, T = ushers u s h e r s 0 0 3 4 5 8 9 2 0 に戻る失敗関数は省略

Aho-Corasickアルゴリズム：テキスト処理 O(n)時間 W={he, she, his, hers } T = ushers

Aho-Corasickアルゴリズム：例題 W={he, she, his, hers }, T = rhishers r h i s h e r s 0 0 1 6 7 4 5 8 9 3 2 0 に戻る失敗関数は省略

Aho-Corasickアルゴリズム： DFAの構成(1) パターン集合からトライを構成前方遷移関数 gを作成幅優先探索を用いて失敗関数 fを作成最適化された失敗関数 hを作成（これは無くてもOK）

Aho-Corasickアルゴリズム： DFAの構成(2) O(m)時間定理 Aho-Corasickアルゴリズムは複数文字列マッチング問題を O(m+n)時間で解く

まとめ • 文字列マッチング：　線形時間で可能 • KMPアルゴリズム：失敗関数の利用 • Boyer-Mooreアルゴリズム：パターンの最後から検索 • Aho-Corasickアルゴリズム：オートマトンを構成 • 補足 • 平均的には線形時間より高速に可能 • 近年では圧縮文字列の検索が盛んに研究 • Aho-Corasick では O(log |Σ|)だけアルファベットサイズに依存していたが、前処理（DFAの構成）に関しては依存しないアルゴリズムも存在 [Dori & Landau: Inf. Proc. Lett. 2006]

情報生命科学特別講義 III （１） 文字列マッチング