120 likes | 233 Views
Data Clustering: A Review. 4 Similarity Measure (類似性測定) 4 月 21 日(水) 発表者:藤井 丈明. クラスタの定義. 同特徴空間上から取り出されたパターン間の類似性測定が最も重要 パターン間の相違性 特徴空間上に定義された距離の指標 連続的なパターンに焦点. 特徴の測定基準. ユークリッド距離 ミンコフスキーの測定基準. *ミンコフスキーの測定基準の特別なケース( 2 次元の場合). ユークリッド距離の特徴. ユークリッド距離:一般的に2,3次元内において目的が近似しているかの判断.
E N D
Data Clustering: A ReviewData Clustering: A Review 4 Similarity Measure (類似性測定) 4月21日(水) 発表者:藤井 丈明
クラスタの定義 • 同特徴空間上から取り出されたパターン間の類似性測定が最も重要 • パターン間の相違性 特徴空間上に定義された距離の指標 • 連続的なパターンに焦点
特徴の測定基準 • ユークリッド距離 • ミンコフスキーの測定基準 *ミンコフスキーの測定基準の特別なケース(2次元の場合)
ユークリッド距離の特徴 • ユークリッド距離:一般的に2,3次元内において目的が近似しているかの判断
ミンコフスキーの測定基準の特徴 • ミンコフスキーの測定基準:欠点として、他を支配する最も大きくスケーリングされた特徴の傾向が挙げられる • 特徴の線形相関はマハラノビス距離によって歪める事が可能 解決 特徴の正規化
マハラノビス距離 • マハラノビス距離 :異なった重りをそれらの変化に基づく異なった特徴に割り当て :共分散行列 :列ベクトル :列ベクトル
パターンの近接手段 • 元のパターンセット 近接値のマトリクス • 近接手段の発展 ・様々な報告がされていった。(最近の例として、カウントに基づく連続した特徴と距離における、名目上の属性のためのメートル法の変更されたミンコフスキーの組み合わせ )
パターンの表現 • 文字列構造、木構造を用いることでパターンの表現が可能。 • 様々な報告がされたが、結果的に劣っていた
(1)mutual neighbor distance (MND) • 距離測定が考えられた。 • MND :文脈 類似性を測る関数 :Neighbor Number
B A A (2)mutual neighbor distance (MND) C C B B A A A A D E F 図4 図5 AにとってBは最も近い BにとってAは最も近い BにとってCは2番目 CにとってBは1番目 よってAとBの方が類似 BとCの方が類似
みにくいアヒルの子の定理(1) • 醜いアヒルの子と普通のアヒルの子、すなわち、白鳥の子とアヒルの子とは、似通った2羽のアヒルの子が似ているのと同じ程度に似ている 追加情報を使用しない場合、どんなパターンも等しく同様である
みにくいアヒルの子の定理(2) 概念的なクラスタリングの場合、類似性は が1セットの事前に定義された概念である関数と定義される。 図6により例証 *ユークリッド距離はA,B間の方が少ないが、BとCは同一円上であるため、BとCの方が類似している C B A 図6 *概念的な類似性測定は最も一般的な類似性測定。 実践的な問題はセクション5に続く。