理学系研究科　情報科学専攻データベース特論 II １０：１５－１２：１５新領域創成科学研究科　複雑理工学専攻複雑計算論１０：１５－１１：５５オリエンテーション森下　真一

理学系研究科　情報科学専攻 データベース特論 II １０：１５－１２：１５新領域創成科学研究科　複雑理工学専攻複雑計算論１０：１５－１１：５５オリエンテーション森下　真一

データマイニング • 　理論 • 　アルゴリズム • 　実装 • 　応用

大規模生データの存在 • 数ギガ～テラの生データ • ＰＯＳデータ • 顧客データ • 受注データ　等市場のニーズ技術的シーズデータ読取装置の普及 • バーコード • クレジットカード • ＯＣＲ記憶装置の低価格化検索可能状態　（大福帳システム　 Data Warehouse）プロセッサーの高速化並列計算機の商用化関係ＤＢの普及多次元的問合せ OLAP • 検索･集計･チャート化 • 経験的ルールの検証ルールの収集･発見（データマイニング）知識発見技術の高速化 • データベース問合せ最適化 • 組合せ論的アルゴリズム • 並列処理 • 商品間関連　 • 危険度分析 • 顧客分類 • ゲノム情報　 • 検索エンジン • 発見科学

Association Rules

当座取引有無定期口座有無血液型 職業コードカードローン延滞有無結合ルールＸ ⇒ Ｙ定期口座有無＝Ｎｏ ⇒ カードローン延滞有無＝ＹｅｓサポートＰｒ(XかつY) 例５％確信度Ｐｒ(Y|X) 例３２％閾値を設け、上回るルールを “interesting”と考える Interesting Rules を枚挙したい観察 B ⇒ C が interesting Ｐｒ(BC) は閾値以上Ｐｒ(B) とＰｒ(C) も閾値以上

HIC Provides A Healthier Future With IBM IBM data warehousing and data mining technologies are enabling the Health Insurance Commission (HIC) to save the Australian healthcare systems tens of millions of dollars a year. The HIC is a Federal Government agency which processes claims for Medicare, Medibank Private and the Pharmaceutical Benefits and Child Care Programs. Every year, it deals with 300 million transactions and pays out eight billion dollars worth of funds. Healthcare systems around the world are attempting to find ways to reduce the millions of taxpayers' dollars which are wasted by fraud and the inappropriate use of medical tests and services. The HIC, together with IBM has implemented a world-leading data mining solution, which analyzes data and detects unnecessary prescriptions or referrals by medical practitioners then intervene to reduce the incidence. http://www.software.ibm.com/data/intelli-mine/applbrief.html 成功例 • オーストラリア健康保険委員会年間数千万ドルの節約に成功 • 開業医が不必要な処方箋を出すケースを見つけ出す規則の発見

ABCD ABC ABD ACD BCD AB AC BC AD BD CD A B C D φ まずサポートが閾値以上の条件集合（大きい条件集合）を枚挙条件数が少ない集合から徐々にサポートを計算条件集合｛A,B,C｝をＡＢＣと簡略に記述

ABCD まずサポートが閾値以上の条件集合（大きい条件集合）を枚挙条件数が少ない集合から徐々にサポートを計算枝狩り：Ｐｒ(AB) < 閾値 ⇒ Ｐｒ(ABC) < 閾値ルール B ⇒ C は確信度Ｐｒ（Ｃ|Ｂ）＝Ｐｒ(BC)／Ｐｒ(B) が閾値以上のとき生成 ABC ABD ACD BCD AB AC BC AD BD CD A B C D φ A Ｐｒ（Ａ）≧閾値ＡＢＰｒ（ＡＢ）＜閾値

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE AB AC AD AE BC BD BE CD CE DE サポート計算の効率化大きい条件集合の候補を枚挙各レコードが満たす条件集合を見つけ、サポートを増加 ACDE

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE AB AC AD AE BC BD BE CD CE DE A B B D C D ADE BCE BDE D E ABD ABE サポート計算の効率化大きい条件集合の候補を枚挙各レコードが満たす条件集合を見つけ、サポートを増加 ACDE Hash table

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE AB AC AD AE BC BD BE CD CE DE AB BD C D ADE BCE BDE DE ABD ABE サポート計算の効率化大きい条件集合の候補を枚挙各レコードが満たす条件集合を見つけ、サポートを増加 ABDE Hash table

ABCD ABC ABD ACD BCD AB AC BC AD BD CD A B C D φ 条件集合の枝狩りの効率化データベースの走査回数を減らせないか？例サポートの閾値が５％のとき

A A A A 落選出馬当確当選条件集合の枝狩りの効率化 ABCD ABC ABD ACD BCD AB AC BC AD BD CD A B C D φ サイズ１の条件集合の計算を開始

A A A A 落選出馬当確当選 ABCD ABC ABD ACD BCD AB AC BC AD BD CD サイズ２を開始読込済 A B C D φ サイズ１の条件集合の計算を開始

A A A A 落選出馬当確当選 ABCD ABC ABD ACD BCD 読込済サイズ３を開始 AB AC BC AD BD CD サイズ２を開始 A B C D φ

A A A A 落選出馬当確当選 ABCD サイズ１のサポート計算終了読込済 ABC ABD ACD BCD サイズ３を開始 AB AC BC AD BD CD サイズ２を開始 A B C D φ

A A A A 落選出馬当確当選サイズ１のサポート計算終了 ABCD 第１回読込済 ABC ABD ACD BCD サイズ３も開始 AB AC BC AD BD CD サイズ２の計算終了読込済 A B C D φ サイズ１の条件集合のサポート計算を開始

A A A A 落選出馬当確当選 A priori に比べ２０％から４倍の性能向上との報告されている ABCD サイズ１のサポート計算終了第１回読込済 ABC ABD ACD BCD 読込済サイズ３の計算終了 AB AC BC AD BD CD サイズ２の計算終了 A B C D φ サイズ１の条件集合のサポート計算を開始

預金残高∈Ｒ ⇒ クレジットカード＝Yes 預金残高Ｐｒ（預金残高∈Ｒ）≧１０％で確信度最大少しでも精度を上げたい

預金残高∈Ｒ ⇒ クレジットカード＝Yes 預金残高Ｐｒ（預金残高∈Ｒ）≧１０％で確信度最大少しでも精度を上げたい確信度８０％以上でＰｒ（預金残高∈Ｒ）最大

確信度 閾値預金残高∈Ｒ ⇒ クレジットカード＝Yes 入力：Ｐｒ(預金残高∈Ｒ) の閾値出力：確信度を最大化する区間Ｒ預金残高 X → （Ｐｒ(預金残高≦Ｘ) ，Ｐｒ(｛預金残高≦Ｘ，クレジットカード＝Yes｝)

確信度 Ｒの候補預金残高∈Ｒ ⇒ クレジットカード＝Yes 入力：Ｐｒ(預金残高∈Ｒ) の閾値出力：確信度を最大化する区間Ｒ預金残高 X → （Ｐｒ(預金残高≦Ｘ) ，Ｐｒ(｛預金残高≦Ｘ，クレジットカード＝Yes｝) O(M log M) M: number of records

Clockwise Search

Counter Clockwise Search Clockwise, Counter Clockwise はともに、点を高々１回だけ走査する

預金残高 年齢（年齢,預金残高）∈Ｓ ⇒ カードローン延滞＝Yes

領域族 矩形領域Ｘ単調領域直交凸領域 p( (年齢,預金残高)∈Ｓ ) を「領域Ｓのサポート」最大確信度領域閾値以上のサポートをもち、確信度を最大にする領域Ｓ最大サポート領域閾値以上の確信度を導き、サポートを最大にする領域Ｓ

（年齢,預金残高）∈ Ｓ ⇒ カードローン延滞＝Yes データ数 M, ピクセル数 n 領域族：矩形領域最大サポート・最大確信度領域を O(n1.5) で計算可能預金残高領域族：X単調領域または直交凸領域最大サポート・最大確信度領域を X単調はO(n M)、直交凸はO(n 1.5 M) で計算可能。 n と log M の多項式時間で計算することは P = NP でない限り不可能。年齢グリッド領域へ近似アルゴリズム

確信度 （年齢,預金残高）∈ Ｓ ⇒ カードローン延滞＝Yes Ｓ p( {年齢,預金残高）∈Ｓ, カードローン延滞＝Yes} ) p(（年齢,預金残高）∈Ｓ)

近似解 確信度サポート値の閾値（年齢,預金残高）∈ Ｓ ⇒ カードローン延滞＝Yes Ｓ p( {年齢,預金残高）∈Ｓ, カードローン延滞＝Yes} ) p(（年齢,預金残高）∈Ｓ)

１凸閉包上の探索３確信度２サポート値の閾値 Hand Probing による解の探索１回の hand probing のコストＸ単調領域Ｏ(ｎ) 直交凸領域Ｏ(ｎ1.5) hand probing の回数はＯ(log Ｍ)

ｙ =θｘ＋ a 切片ａの最大化 • 各ピクセルに実数で表現される濃度 • 濃度の和を最大化する領域を計算

ルールの評価－領域族別、メッシュ粒度別 データを平面中に一様に生成ガードローン延滞となる確率を対角線からの距離に関して一様分布 10-fold Cross Validation

Classification

決定木 入力データ例健康な人と心臓疾患の患者のデータ血圧心拍数中性脂肪肥満度ＧＰＴＧＯＴ心臓疾患

ＧＰＴ 血圧決定木入力データ例健康な人と心臓疾患の患者のデータ血圧＜ 125 Yes No Yes No 領域分割 Yes 訓練データで木を生成評価基準：未知データでの予測精度動機：領域分割は予測精度向上に効くか？ No

決定木データ分割の評価方法 正のデータ負のデータ

n2 n1 Ent1 Ent2 n n 決定木データ分割の評価方法Ｑｕｉｎｌａｎのエントロピー最小化正のデータ負のデータ n Ent1=- (p log p + q log q) Ent2 n1 n2 ｐｑ +

Ｓエントロピー関数は凸関数エントロピー最小の領域は凸包の境界上に存在 Hand Probing で探索単純な二分探索は困難（凸包上の全ての点のエントロピーが一致する例）Ｓ中の正のデータ数Ｓ中のデータ数

Y Ｚ X Ｅｎｔ（三角形ＸＹＺ内の任意の点） ≧ ｍｉｎ（Ｅｎｔ（Ｘ），Ｅｎｔ（Ｙ），ＥＮＴ（Ｚ））もしＥｎｔ（Ｚ）≧ 現時点の最小エントロピーならば枝狩りＢｒａｎｃｈａｎｄＢｏｕｎｄＳｅａｒｃｈ実用上はほぼ、Ｏ（ｌｏｇＭ）のＨａｎｄＰｒｏｂｉｎｇ

エラー率 データベースﾚｺｰﾄﾞ数属性数ｸﾗｽ数Ｘ単調直交凸矩形二分割 balance scale 625 4 3 15.52 15.52 19.34 20.95 breast-cancer-wisc 699 9 2 5.01 4.15 4.58 5.72 german credit 1000 24 2 27.30 23.80 26.90 25.60 liver disorder 345 6 2 34.81 33.36 31.08 34.87 pima diabetes 768 8 2 24.47 25.12 23.69 26.82 segmentation 2310 19 7 4.81 4.37 4.89 4.50 vehicle 846 18 4 30.02 28.47 27.65 26.23 waveform 5000 20 3 21.74 20.98 22.36 22.74 waveform+noise 5000 40 3 22.54 21.32 22.94 24.36 決定木性能評価ＵＣ Irvine, ＲｅｐｏｓｉｔｏｒｙｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇｄａｔａｂａｓｅｓ http://www.ics.uci.edu/~mlearn/MLRepository.html 10-fold Cross Validation

回帰木 (Regression Tree) ＢＰＳＧＤＭＹＥＮＴＢ３ＭＴＢ３０Ｙ SP500 GOLD 1.443530 0.407460 0.004980 7.02 9.31 210.88 326.00 1.446120 0.408050 0.004950 7.04 9.28 205.96 339.45 : : : : : : :

Ｙｅｓ ＮｏＮｏＹｅｓ

外Ｄ２Ｄ１領域中 μ１ μ２誤差二乗平均を最小化する領域

理学系研究科 情報科学専攻 データベース特論 II １０：１５－１２：１５ 新領域創成科学研究科 複雑理工学専攻 複雑計算論 １０：１５－１１：５５ オリエンテーション 森下 真一