データマイニングにおけるクラスタリングの研究

データマイニングにおけるクラスタリングの研究データマイニングにおけるクラスタリングの研究東北大学工学部情報工学科徳山研究室　４年　　鈴木晶子

研究の背景―データマイニング― • データマイニング • 巨大なデータベースから知識を抽出する技術 • データマイニング技術の１つ⇒クラスタリング膨大な量のデータから… 役に立つ知識を発見!! 卒論発表会

クラスタリング • 入力されたデータを「クラスタ」に分割すること • クラスタ • データの部分集合 • 類似したパターンを持つデータのみが含まれる卒論発表会

本研究で扱うクラスタリング • 数値属性をもつデータに対するクラスタリング • d 個の属性をもつデータ ⇒d 次元空間に存在する点表. ある商店の売り上げ売れた数 D F A G B E C 価格卒論発表会

本研究の目的 • 大規模データを扱う２つのクラスタリングアルゴリズムを取り上げる • BIRCH [Zhang et al. 1996] • 全ての要素によって特徴づけられたクラスタを作る • DOC [Procopiuc et al. 2002] • 一部の要素のみによって特徴づけられたクラスタを作る • 実験を行い、各手法の特徴を明らかにする卒論発表会

発表の流れ • BIRCHの紹介 • Clustering Feature(CF)とCF木 • アルゴリズム • DOCの紹介 • 最適なクラスタの定義 • アルゴリズム • 実験 • まとめ卒論発表会

BIRCH [Zhang et al. 1996] • “Clustering Feature”という概念を用いて階層木構造を作る全てのデータ集合 A∪B データの集合 A データの集合 B 卒論発表会

CF Clustering Feature (CF) • クラスタに含まれるデータの情報を要約したもの • d次元データ（d 次元実ベクトル） : N個のデータからなるクラスタ : • クラスタのCFベクトル • N : クラスタに含まれるデータの数 • : N個のデータの線形和 • SS : N個のデータの二乗和卒論発表会

[CFA + CFB] [CFX + CFY] [CFA] [CFB] [CFX] [CFY] A B CF木 • 各ノードが“エントリー” を持った平衡木 • エントリー : CFベクトルによって表される • 各ノードのエントリー数には上限がある A∪B A B 卒論発表会

CF木の構築 • CF木は、初めは1つのノードしかない。 • 葉ノードに1つずつデータを挿入していくことにより、動的に木を構築する。卒論発表会

[CF1] [CF2] [CF3] data CF木の構築方法 (1/2) １つのデータ“data”を CF木に挿入するまでの過程 data • データを挿入する葉ノードを決定する • “data”とエントリーとの距離に基づき決定される • 辿り着いた葉のエントリーに“data”を挿入する • 既存のエントリーに挿入できない場合は新しいエントリーを追加 [CF1] [CF2] 卒論発表会

CF木の構築方法 (2/2) • ノードの持つエントリーが増えすぎた場合、木のバランシングを行う以上の操作をデータがなくなるまで繰り返し、 CF木を構築 [CF1] [CF2] [CF3] [CF4] data [CF5] [CF6] 卒論発表会

BIRCHアルゴリズム データ Phase 1 : CF木を構築する CF木 Phase 2(optional) : CF木を縮小する Phase 3 : 大域的クラスタリングクラスタ Phase 4(optional) : クラスタを精錬する卒論発表会

DOC [Procopiuc et al. 2002] • 射影を用いたクラスタリング • データを低次元の部分空間に射影 • その射影に対してクラスタリングを行う卒論発表会

射影クラスタの定義 • 幅wの射影クラスタ： (C, D) • C : データの集合 • D : 座標軸の集合 • 集合C : クラスタに含まれるデータの集合 • 集合D : クラスタの幅がwに制限される座標軸の集合：　集合Cの要素：　集合Dの要素卒論発表会

最適な射影クラスタの定義 • 射影クラスタの良さ : • |C|が大きいほど　　も大きい（⇒クラスタに含まれるデータ数が多いほど良いクラスタ） • |D|が大きいほど　　も大きい　（⇒幅を制限する座標軸の数が多いほど良いクラスタ） • “最適なクラスタ” • 幅wをもつ射影クラスタのうち、良さ　　が最大となるものしかし最適なクラスタを求めることはNP困難 ⇒ランダムアルゴリズムを用いて近似的に求める卒論発表会

3 3 4 1 2 3 q1∈X p p q2∈X p p クラスタの中心 p q3∈X x1軸方向の幅は2w x2軸方向の幅は∞ DOCアルゴリズム • データの中からランダムに１点 pを選ぶ • さらにデータの中からランダムに数点選び、集合Xとする • 点pと点q∈Xの射影について距離を測り、クラスタの形を決める • 全データをスキャンし、クラスタの中に入る点を求める • 2～4の操作を繰り返す • 点pを選びなおして、さらに2～4の操作を繰り返す • 最後に、クラスタの“良さ”が最大となるものを１つ出力する卒論発表会

p DOCアルゴリズムの出力 • DOCアルゴリズムによって得られるクラスタ ⇒幅2wをもつクラスタ • 定理 DOCアルゴリズムは1/2より高い確率で、最適なクラスタよりも“良さ”の値が大きいクラスタを出力する。 • 最適なクラスタより“良さ”が大きくなる例 • 最適なクラスタに含まれる点 p を中心としたクラスタ • 形は最適なクラスタと同じ • 最適なクラスタを全て含む卒論発表会

アルゴリズムの計算時間 n : データ数, d : データの次元数　とすると、全体の計算時間 : O(ndC+1) （ただし、Cは定数）卒論発表会

実験 • 目的 BIRCH, DOCのクラスタリング精度を測定する • 方法 • 各アルゴリズムにデータセットを入力し、クラスタリングを行う • FastDOCでは、一度クラスタリングされた点を取り除くことにするただしDOCアルゴリズムは時間がかかるため、アルゴリズムを高速化させるヒュ―リスティクス FastDOCを用いた卒論発表会

実験に用いたデータセット • 実験1 : 人工生成データを用いた実験 • データ数 : 100,000 • 次元数 : 10~200 • クラスタ数 : 5 • 20,000点 / １クラスタ • 実験2 : 実際のデータを用いた実験 • アルファベットの発音に関する音声データ • データ数 : 6,238 ; 属性数 : 617;　クラス数 : 26 卒論発表会

実験結果（実験１） • 人工生成データに対する実験結果卒論発表会

実験結果（実験２） • 実際のデータに対する実験結果 • 音声データに対するクラスタリング精度 • FastDOCのほうが精度が低い原因 • データを射影することにより考慮する属性の数が減り、一部の情報が失われた • クラスタの幅が2wか∞かの２つしかないので、データセットを正確に分割できない • BIRCH : 53.6% • FastDOC : 30.7% 卒論発表会

まとめ • 2つのクラスタリングアルゴリズム • BIRCH : • DOC : • クラスタの数が多く、クラスタ１個あたりに含まれるデータの数が少ないデータセットには不向き • 今後の課題―アルゴリズムの改良― • パラメータの設定方法の検討 • BIRCHとDOCの融合階層構造を用いたボトムアップ的クラスタリング射影を用いたトップダウン的クラスタリング卒論発表会

fin.

データマイニングにおける クラスタリングの研究