1 / 25

データマイニングにおける クラスタリングの研究

データマイニングにおける クラスタリングの研究. 東北大学工学部情報工学科 徳山研究室 4年  鈴木 晶子. 研究の背景 ― データマイニング ―. データマイニング 巨大なデータベースから知識を抽出する技術 データマイニング技術の1つ⇒ クラスタリング. 膨大な量のデータから …. 役に立つ知識を発見 !!. クラスタリング. 入力されたデータを 「クラスタ」 に分割すること クラスタ データの部分集合 類似したパターンを持つデータのみが含まれる. 本研究で扱うクラスタリング. 数値属性をもつデータに対するクラスタリング d 個の属性をもつデータ

Download Presentation

データマイニングにおける クラスタリングの研究

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. データマイニングにおけるクラスタリングの研究データマイニングにおけるクラスタリングの研究 東北大学工学部情報工学科 徳山研究室 4年  鈴木 晶子

  2. 研究の背景―データマイニング― • データマイニング • 巨大なデータベースから知識を抽出する技術 • データマイニング技術の1つ⇒クラスタリング 膨大な量のデータから… 役に立つ知識を発見!! 卒論発表会

  3. クラスタリング • 入力されたデータを「クラスタ」に分割すること • クラスタ • データの部分集合 • 類似したパターンを持つデータのみが含まれる 卒論発表会

  4. 本研究で扱うクラスタリング • 数値属性をもつデータに対するクラスタリング • d 個の属性をもつデータ ⇒d 次元空間に存在する点 表. ある商店の売り上げ 売れた数 D F A G B E C 価格 卒論発表会

  5. 本研究の目的 • 大規模データを扱う2つのクラスタリングアルゴリズムを取り上げる • BIRCH [Zhang et al. 1996] • 全ての要素によって特徴づけられたクラスタを作る • DOC [Procopiuc et al. 2002] • 一部の要素のみによって特徴づけられたクラスタを作る • 実験を行い、各手法の特徴を明らかにする 卒論発表会

  6. 発表の流れ • BIRCHの紹介 • Clustering Feature(CF)とCF木 • アルゴリズム • DOCの紹介 • 最適なクラスタの定義 • アルゴリズム • 実験 • まとめ 卒論発表会

  7. BIRCH [Zhang et al. 1996] • “Clustering Feature”という概念を用いて 階層木構造を作る 全てのデータ 集合 A∪B データの集合 A データの集合 B 卒論発表会

  8. CF Clustering Feature (CF) • クラスタに含まれるデータの情報を要約したもの • d次元データ(d 次元実ベクトル) : N個のデータからなるクラスタ : • クラスタのCFベクトル • N : クラスタに含まれるデータの数 • : N個のデータの線形和 • SS : N個のデータの二乗和 卒論発表会

  9. [CFA + CFB] [CFX + CFY] [CFA] [CFB] [CFX] [CFY] A B CF木 • 各ノードが“エントリー” を持った平衡木 • エントリー : CFベクトルによって表される • 各ノードのエントリー数には上限がある A∪B A B 卒論発表会

  10. CF木の構築 • CF木は、初めは1つのノードしかない。 • 葉ノードに1つずつデータを挿入していくことにより、動的に木を構築する。 卒論発表会

  11. [CF1] [CF2] [CF3] data CF木の構築方法 (1/2) 1つのデータ“data”を CF木に挿入するまでの過程 data • データを挿入する葉ノードを決定する • “data”とエントリーとの距離に基づき決定される • 辿り着いた葉のエントリーに“data”を挿入する • 既存のエントリーに挿入できない場合は新しいエントリーを追加 [CF1] [CF2] 卒論発表会

  12. CF木の構築方法 (2/2) • ノードの持つエントリーが増えすぎた場合、木のバランシングを行う 以上の操作をデータが なくなるまで繰り返し、 CF木を構築 [CF1] [CF2] [CF3] [CF4] data [CF5] [CF6] 卒論発表会

  13. BIRCHアルゴリズム データ Phase 1 : CF木を構築する CF木 Phase 2(optional) : CF木を縮小する Phase 3 : 大域的クラスタリング クラスタ Phase 4(optional) : クラスタを精錬する 卒論発表会

  14. DOC [Procopiuc et al. 2002] • 射影を用いたクラスタリング • データを低次元の部分空間に射影 • その射影に対してクラスタリングを行う 卒論発表会

  15. 射影クラスタの定義 • 幅wの射影クラスタ : (C, D) • C : データの集合 • D : 座標軸の集合 • 集合C : クラスタに含まれるデータの集合 • 集合D : クラスタの幅がwに制限される座標軸の集合 : 集合Cの要素 : 集合Dの要素 卒論発表会

  16. 最適な射影クラスタの定義 • 射影クラスタの良さ : • |C|が大きいほど  も大きい (⇒クラスタに含まれるデータ数が多いほど良いクラスタ) • |D|が大きいほど  も大きい   (⇒幅を制限する座標軸の数が多いほど良いクラスタ) • “最適なクラスタ” • 幅wをもつ射影クラスタのうち、良さ  が最大となるもの しかし最適なクラスタを求めることはNP困難 ⇒ランダムアルゴリズムを用いて近似的に求める 卒論発表会

  17. 3 3 4 1 2 3 q1∈X p p q2∈X p p クラスタの 中心 p q3∈X x1軸方向の幅は2w x2軸方向の幅は∞ DOCアルゴリズム • データの中からランダムに1点 pを選ぶ • さらにデータの中からランダムに数点選び、集合Xとする • 点pと点q∈Xの射影について距離を測り、クラスタの形を決める • 全データをスキャンし、クラスタの中に入る点を求める • 2~4の操作を繰り返す • 点pを選びなおして、さらに2~4の操作を繰り返す • 最後に、クラスタの“良さ”が最大となるものを1つ出力する 卒論発表会

  18. p DOCアルゴリズムの出力 • DOCアルゴリズムによって得られるクラスタ ⇒幅2wをもつクラスタ • 定理 DOCアルゴリズムは1/2より高い確率で、 最適なクラスタよりも“良さ”の値が大きい クラスタを出力する。 • 最適なクラスタより“良さ”が大きくなる例 • 最適なクラスタ に含まれる 点 p を中心としたクラスタ • 形は最適なクラスタと同じ • 最適なクラスタを全て含む 卒論発表会

  19. アルゴリズムの計算時間 n : データ数, d : データの次元数 とすると、 全体の計算時間 : O(ndC+1) (ただし、Cは定数) 卒論発表会

  20. 実験 • 目的 BIRCH, DOCのクラスタリング精度を測定する • 方法 • 各アルゴリズムにデータセットを入力し、クラスタリングを行う • FastDOCでは、一度クラスタリングされた点を取り除くことにする ただしDOCアルゴリズムは時間がかかるため、 アルゴリズムを高速化させるヒュ―リスティクス FastDOCを用いた 卒論発表会

  21. 実験に用いたデータセット • 実験1 : 人工生成データを用いた実験 • データ数 : 100,000 • 次元数 : 10~200 • クラスタ数 : 5 • 20,000点 / 1クラスタ • 実験2 : 実際のデータを用いた実験 • アルファベットの発音に関する音声データ • データ数 : 6,238 ; 属性数 : 617; クラス数 : 26 卒論発表会

  22. 実験結果(実験1) • 人工生成データに対する実験結果 卒論発表会

  23. 実験結果(実験2) • 実際のデータに対する実験結果 • 音声データに対するクラスタリング精度 • FastDOCのほうが精度が低い原因 • データを射影することにより考慮する属性の数が減り、一部の情報が失われた • クラスタの幅が2wか∞かの2つしかないので、データセットを正確に分割できない • BIRCH : 53.6% • FastDOC : 30.7% 卒論発表会

  24. まとめ • 2つのクラスタリングアルゴリズム • BIRCH : • DOC : • クラスタの数が多く、クラスタ1個あたりに含まれるデータの数が少ないデータセットには不向き • 今後の課題―アルゴリズムの改良― • パラメータの設定方法の検討 • BIRCHとDOCの融合 階層構造を用いた ボトムアップ的クラスタリング 射影を用いた トップダウン的クラスタリング 卒論発表会

  25. fin.

More Related