2010/12/17 B4 真境名　郁

先端論文紹介ゼミ「A fuzzy self-organizing map algorithm for biological pattern recognition」（生物学的パターン認識のための曖昧な自己組織化マップアルゴリズム） 2010/12/17 B4真境名　郁

目次： • Abstract（要約） • Introduction（紹介） • Method（方法） • Clustering quality measurements 　（クラスタリング性質測定） • Experimental results and discussion （実験結果と議論） • Conclusion（結論）

Abstract • データクラスタリングは連続分析とパターン認識を含む様々な過程のための主要課題。 • 本論文では、DNA配列のような生物学的データに働くとき、精度と感度を増加させることを目指したクラスタリングアルゴリズムを研究。 • 提案するアルゴリズムがSOMとFCM(Fuzzy-C-Means)よりクラスタリングと分類精度能力に関して優れる可能性を示す。

Introduction • グループへのパターンの教師無し分類はクラスタリングと定義され、データセットのデータグループ、またはクラスタは相似概念の使用で特定される。 • これより、データクラスタリングはデータセットの同じ、または異なったパターンを発見することを目指している。 • クラスタリングアルゴリズムは、パターン分析などの多く分野で応用の範囲が広く、広く使用されるクラスタリングアルゴリズムには、SOM、fuzzy C-means(FCM)、K-means（K平均法）等がある。 • この研究では、FCMの不可欠な局面とSOMアルゴリズムを取り入れた「fuzzy organizing map(FOM)」を紹介する。

Method • SOMalgorithm • SOM(Self Organizing Maps) • 多次元データを低い次元のマップに変えるニューラルネットワークベースのクラスタリング技法。 • SOMの一般的な構造体は、相互接続されたニューロン、ノードの格子であり、二次元格子位相が広く使用される。 • SOMの目的は、ランダムに初期化されたノードの重みベクトルから成る格子に関する入力データを表すこと。

Method

Method • FCM clustering algorithm • Fuzzy C-means(FCM) • FCMは、入力値により近いクラスターの中心を徐々に動かすための反復演算。（式(1),(2)）　　　　　　　　　　　　　　　　　　　　　　：メンバーシップ値の計算　　　　　　　　　　　　　　　　　　　　　　　：クラスターの中心を更新

Method

Method • Fuzzy organizing map(FOM) • FOMアルゴリズムは、２つのクラスタリングアルゴリズム、SOMおよびFCMを利用している。 • SOMの主な欠点：近隣ノードの更新をするのに計算上高価な操作を必要とする。 • この点SOMと異なり、FCMは交互に最適化手法を利用する　比較的速いアルゴリズム。 • FOMアルゴリズムの基本的な訓練周期はSOMと同じである。

Method

Clustering quality measurements • 様々なクラスタリング基準はクラスタリング性質を測定するために提案されている。 • この研究では、３つの一般的なクラスタリング性質測定法を利用している。（Table 1） • Quantization error(量子化誤差) • Graph-based cohesionerror(グラフベースの結合誤差) • Prototype-based cohesion error(原型ベースの結合誤差)

Clustering quality measurements x:各入力 n:入力要素の数 c:グリッド上のノード m:ノードの数 p:特定のノードのデータ　ベクトル数 dist(distance function): ユークリッド距離

Clustering quality measurements • Quantization error(量子化誤差) • ネットワークがどのくらい上手く与えられた入力に反応することができるのかを示している。 • これはデータセットにおける全ての入力の勝利距離の平均とみなす。 • Graph-based cohesionerror(グラフベースの結合誤差) • クラスター分析の１つの主要な目的は、同じクラスタのデータベクトル間の距離を最小にすることであり、これがどのくらい優れるかを示す。 • 同じクラスタで各入力を他のものと比較することで計算。

Clustering quality measurements ③Prototype-based cohesion error(原型ベースの結合誤差) • 同じクラスタでの入力の間の距離がどれくらいよく最小にされるかを測定。 • 入力とクラスタの中心の間に平均距離誤りを取ることによって計算。

Clustering quality measurements 3.1.Performance-based quality • クラスタリング性質測定のみでの使用は、クラスタリングアルゴリズムの性能を示すのに十分ではないため、他にいくつかの測定基準を追加して使用する必要がある。 • Table2に最もよく利用される一般的な測定基準を示す。 • TP(true positive);TN(true negative);FP(false positive) FN(false negative)

Experimental results and discussion • ここでは異なるデータセットを用いて、FOMアルゴリズムの性能を示し、SOMとFOMの比較を行う。 • FOMをSOMとFCMと比較するために、計７つのデータセット（４つのDNAモチーフデータと３つの生物学的データセット）を利用している。

Experimental results and discussion 4.1.Genomic pattern discovery data sets この研究で用いているDNA配列は、S.cerevisiae-DNA配列の一部であり、Table3に４つのデータセット (GAL4;RFX1;GCN;CBFI)を示す。

Experimental results and discussion 4.1.Genomic pattern discovery data sets • 正確にアルゴリズムの性能を測定するため、様々な長さ、大きさ、異なる数のパターン例を用いている。 • これらのデータセットに関して、３つのアルゴリズムの性能の違いを以下の３つの異なる指標で示す。 • Clustering quality measures(Table 4) • Classification accuracy measures(Table 5) • Sequence logos(Table 6)

Experimental results and discussion 4.1.Genomic pattern discovery data sets • 指標：Clustering quality measures • クラスタリング性能の値は低い値程良い。 • １２つの性能の値中、９つでFOMが優れている結果となった。

Experimental results and discussion 4.1.Genomic pattern discovery data sets • 指標：Classification accuracy measures

Experimental results and discussion 4.1.Genomic pattern discovery data sets • 指標：Sequence logos • ゲノムパターン発見のための別の最も一般的な方法は、系列ロゴを用いた視覚により結果を提示することである。 • 系列ロゴは、様々な長さの文字の系列から構成される。 • Table 5より、ゲノム系列パターンの発見においてもFOMはSOMとFCMの両方より更に効率的であることが示されている。

Experimental results and discussion 4.1.Genomic pattern discovery data sets

Experimental results and discussion 4.2.Biomedical data sets • この生物学的データセットを用いた実験では、次の３つのデータセットを用いる。(Table 7参照) • これらのデータセットは、様々なデータセットからの信号の特徴を抽出することにおいてFOMの性能を示すために役に立つ。

Experimental results and discussion 4.2.Biomedical data sets • 指標：Clustering quality measures • クラスタリング性能の値は低い値程良い。 • ９つの性能の値中、６つでFOMが優れている結果となった。

Experimental results and discussion 4.2.Biomedical data sets • 指標：Classification accuracy measures

Experimental results and discussion 4.2.Biomedical data sets

Experimental results and discussion 4.3.Comparison of FOM with other hybrid algorithms • このセクションでは、２つの高度なアルゴリズムとの比較を行っている。(Table 10参照) • Fuzzy Kohonen clustering networks(FKCN) • Improved FKCN • Fuzzy-self organizing map(FSOM)

Experimental results and discussion 4.4.Discussion • FOMアルゴリズムはグリッド上のクラスタの中心を更新するノードを特定する性能のために、SOMとFCMよりクラスタリング性能と分類精度において優れる可能性を持っている。 • FOMはグリッドをSOMのようにグリッドを視覚マップに変換しようせず、代わりにグリッド上の必要な信号を強化して、データ入力を表そうとする。これはFOMアルゴリズムの強みであり、　　このアプローチはより良いクラスタリング結果につながる。 • FOMはクラスタリング性能が想像より重要である問題に適している。

Conclusion • この研究において、提案したFOMアルゴリズムはSOMとFCMとの比較により有望なクラスタリングアルゴリズムであることを示した。 • FOMアルゴリズムはDNA配列などのゲノムデータセットによって明確に役に立ち、また他のアプリケーション部においてもよく振る舞うと予想される。

ご清聴ありがとうございました。

2010/12/17 B4 真境名　郁