720 likes | 876 Views
理学系研究科 情報科学専攻 データベース特論 II 10:15-12:15 新領域創成科学研究科 複雑理工学専攻 複雑計算論 10:15-11:55 オリエンテーション 森下 真一. データマイニング 理論 アルゴリズム 実装 応用. 大規模生データの存在. 数ギガ~テラの生データ POSデータ 顧客データ 受注データ 等. 市場のニーズ. 技術的シーズ. データ読取装置の普及. バーコード クレジットカード OCR. 記憶装置の低価格化. 検索可能状態 (大福帳システム Data Warehouse ).
E N D
理学系研究科 情報科学専攻 データベース特論 II 10:15-12:15 新領域創成科学研究科 複雑理工学専攻 複雑計算論 10:15-11:55 オリエンテーション 森下 真一
データマイニング • 理論 • アルゴリズム • 実装 • 応用
大規模生データの存在 • 数ギガ~テラの生データ • POSデータ • 顧客データ • 受注データ 等 市場のニーズ 技術的シーズ データ読取装置の普及 • バーコード • クレジットカード • OCR 記憶装置の低価格化 検索可能状態 (大福帳システム Data Warehouse) プロセッサーの高速化 並列計算機の商用化 関係DBの普及 多次元的問合せ OLAP • 検索・集計・チャート化 • 経験的ルールの検証 ルールの収集・発見 (データマイニング) 知識発見技術の高速化 • データベース問合せ最適化 • 組合せ論的アルゴリズム • 並列処理 • 商品間関連 • 危険度分析 • 顧客分類 • ゲノム情報 • 検索エンジン • 発見科学
当座取引有無 定期口座有無 血液型 職業コード カードローン延滞有無 結合ルール X ⇒ Y 定期口座有無=No ⇒ カードローン延滞有無=Yes サポート Pr(XかつY) 例 5% 確信度 Pr(Y|X) 例 32% 閾値を設け、上回るルールを “interesting”と考える Interesting Rules を枚挙したい 観察 B ⇒ C が interesting Pr(BC) は閾値以上 Pr(B) と Pr(C) も閾値以上
HIC Provides A Healthier Future With IBM IBM data warehousing and data mining technologies are enabling the Health Insurance Commission (HIC) to save the Australian healthcare systems tens of millions of dollars a year. The HIC is a Federal Government agency which processes claims for Medicare, Medibank Private and the Pharmaceutical Benefits and Child Care Programs. Every year, it deals with 300 million transactions and pays out eight billion dollars worth of funds. Healthcare systems around the world are attempting to find ways to reduce the millions of taxpayers' dollars which are wasted by fraud and the inappropriate use of medical tests and services. The HIC, together with IBM has implemented a world-leading data mining solution, which analyzes data and detects unnecessary prescriptions or referrals by medical practitioners then intervene to reduce the incidence. http://www.software.ibm.com/data/intelli-mine/applbrief.html 成功例 • オーストラリア健康保険委員会 年間 数千万ドルの節約に成功 • 開業医が不必要な処方箋を出す ケースを見つけ出す規則の発見
ABCD ABC ABD ACD BCD AB AC BC AD BD CD A B C D φ まずサポートが閾値以上の条件集合(大きい条件集合)を枚挙 条件数が少ない集合から徐々に サポートを計算 条件集合{A,B,C} を ABC と簡略に記述
ABCD まずサポートが閾値以上の条件集合(大きい条件集合)を枚挙 条件数が少ない集合から徐々に サポートを計算 枝狩り: Pr(AB) < 閾値 ⇒ Pr(ABC) < 閾値 ルール B ⇒ C は確信度 Pr(C|B)=Pr(BC)/ Pr(B) が閾値以上のとき生成 ABC ABD ACD BCD AB AC BC AD BD CD A B C D φ A Pr(A)≧閾値 AB Pr(AB)<閾値
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE AB AC AD AE BC BD BE CD CE DE サポート計算の効率化 大きい条件集合の候補を枚挙 各レコードが満たす条件集合を見つけ、サポートを増加 ACDE
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE AB AC AD AE BC BD BE CD CE DE A B B D C D ADE BCE BDE D E ABD ABE サポート計算の効率化 大きい条件集合の候補を枚挙 各レコードが満たす条件集合を見つけ、サポートを増加 ACDE Hash table
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE AB AC AD AE BC BD BE CD CE DE A B B D C D ADE BCE BDE D E ABD ABE サポート計算の効率化 大きい条件集合の候補を枚挙 各レコードが満たす条件集合を見つけ、サポートを増加 ACDE Hash table
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE AB AC AD AE BC BD BE CD CE DE AB BD C D ADE BCE BDE DE ABD ABE サポート計算の効率化 大きい条件集合の候補を枚挙 各レコードが満たす条件集合を見つけ、サポートを増加 ABDE Hash table
ABCD ABC ABD ACD BCD AB AC BC AD BD CD A B C D φ 条件集合の枝狩りの効率化 データベースの走査回数を減らせないか? 例 サポートの閾値が5%のとき
A A A A 落選 出馬 当確 当選 条件集合の枝狩りの効率化 ABCD ABC ABD ACD BCD AB AC BC AD BD CD A B C D φ サイズ1の 条件集合の 計算を開始
A A A A 落選 出馬 当確 当選 ABCD ABC ABD ACD BCD AB AC BC AD BD CD サイズ2 を開始 読込済 A B C D φ サイズ1の 条件集合の 計算を開始
A A A A 落選 出馬 当確 当選 ABCD ABC ABD ACD BCD 読込済 サイズ3 を開始 AB AC BC AD BD CD サイズ2 を開始 A B C D φ
A A A A 落選 出馬 当確 当選 ABCD サイズ1の サポート計算 終了 読込済 ABC ABD ACD BCD サイズ3 を開始 AB AC BC AD BD CD サイズ2 を開始 A B C D φ
A A A A 落選 出馬 当確 当選 サイズ1の サポート計算 終了 ABCD 第 1 回 読 込 済 ABC ABD ACD BCD サイズ3 も開始 AB AC BC AD BD CD サイズ2の 計算終了 読 込 済 A B C D φ サイズ1の 条件集合の サポート計算 を開始
A A A A 落選 出馬 当確 当選 A priori に比べ 20%から4倍の性能向上との報告されている ABCD サイズ1の サポート計算 終了 第 1 回 読 込 済 ABC ABD ACD BCD 読 込 済 サイズ3の 計算終了 AB AC BC AD BD CD サイズ2の 計算終了 A B C D φ サイズ1の 条件集合の サポート計算 を開始
預金残高∈R ⇒ クレジットカード=Yes 預金残高 Pr(預金残高∈R)≧10%で確信度最大 少しでも精度を上げたい
預金残高∈R ⇒ クレジットカード=Yes 預金残高 Pr(預金残高∈R)≧10%で確信度最大 少しでも精度を上げたい 確信度80%以上で Pr(預金残高∈R)最大
確信度 閾値 預金残高∈R ⇒ クレジットカード=Yes 入力: Pr(預金残高∈R) の閾値 出力: 確信度を最大化する区間 R 預金残高 X → ( Pr(預金残高≦X) , Pr({預金残高≦X,クレジットカード=Yes})
確信度 R の候補 預金残高∈R ⇒ クレジットカード=Yes 入力: Pr(預金残高∈R) の閾値 出力: 確信度を最大化する区間 R 預金残高 X → ( Pr(預金残高≦X) , Pr({預金残高≦X,クレジットカード=Yes}) O(M log M) M: number of records
Counter Clockwise Search Clockwise, Counter Clockwise はともに、点を高々1回だけ走査 する
預金残高 年齢 (年齢,預金残高)∈S ⇒ カードローン延滞=Yes
預金残高 年齢 (年齢,預金残高)∈S ⇒ カードローン延滞=Yes
預金残高 年齢 (年齢,預金残高)∈S ⇒ カードローン延滞=Yes
預金残高 年齢 (年齢,預金残高)∈S ⇒ カードローン延滞=Yes
領域族 矩形領域 X単調領域 直交凸領域 p( (年齢,預金残高)∈S ) を「領域Sのサポート」 最大確信度領域 閾値以上のサポートをもち、確信度を最大にする領域S 最大サポート領域 閾値以上の確信度を導き、サポートを最大にする領域S
(年齢,預金残高)∈ S ⇒ カードローン延滞=Yes データ数 M, ピクセル数 n 領域族:矩形領域 最大サポート・最大確信度領域を O(n1.5) で計算可能 預金残高 領域族:X単調領域または直交凸領域 最大サポート・最大確信度領域を X単調はO(n M)、直交凸はO(n 1.5 M) で計算可能。 n と log M の多項式時間で計算することは P = NP でない限り不可能。 年齢 グリッド領域へ 近似アルゴリズム
確信度 (年齢,預金残高)∈ S ⇒ カードローン延滞=Yes S p( {年齢,預金残高)∈S, カードローン延滞=Yes} ) p((年齢,預金残高)∈S)
近似解 確信度 サポート値の閾値 (年齢,預金残高)∈ S ⇒ カードローン延滞=Yes S p( {年齢,預金残高)∈S, カードローン延滞=Yes} ) p((年齢,預金残高)∈S)
1 凸閉包上の探索 3 確信度 2 サポート値の閾値 Hand Probing による解の探索 1回の hand probing のコスト X単調領域 O(n) 直交凸領域 O(n1.5) hand probing の回数はO(log M)
y =θx + a 切片 a の最大化 • 各ピクセルに実数で表現される濃度 • 濃度の和を最大化する領域を計算
ルールの評価 - 領域族別、メッシュ粒度別 データを平面中に一様に生成 ガードローン延滞となる確率を 対角線からの距離に関して一様分布 10-fold Cross Validation
決定木 入力データ例 健康な人と心臓疾患の患者のデータ 血圧 心拍数 中性脂肪 肥満度 GPT GOT 心臓疾患
GPT 血圧 決定木 入力データ例 健康な人と心臓疾患の患者のデータ 血圧 < 125 Yes No Yes No 領域分割 Yes 訓練データで木を生成 評価基準: 未知データでの予測精度 動機: 領域分割は予測精度向上に効くか? No
決定木 データ分割の評価方法 正のデータ 負のデータ
n2 n1 Ent1 Ent2 n n 決定木 データ分割の評価方法 Quinlanのエントロピー 最小化 正のデータ 負のデータ n Ent1=- (p log p + q log q) Ent2 n1 n2 p q +
S エントロピー関数は凸関数 エントロピー最小の領域は 凸包の境界上に存在 Hand Probing で探索 単純な二分探索は困難 (凸包上の全ての点の エントロピーが一致する例) S中の正のデータ数 S中のデータ数
Y Z X Ent(三角形XYZ内の任意の点) ≧ min(Ent(X),Ent(Y),ENT(Z)) もし Ent(Z)≧ 現時点の最小エントロピー ならば枝狩り Branch and Bound Search 実用上はほぼ、O(logM)のHand Probing
エラー率 データベース レコード数 属性数 クラス数 X単調 直交凸 矩形 二分割 balance scale 625 4 3 15.52 15.52 19.34 20.95 breast-cancer-wisc 699 9 2 5.01 4.15 4.58 5.72 german credit 1000 24 2 27.30 23.80 26.90 25.60 liver disorder 345 6 2 34.81 33.36 31.08 34.87 pima diabetes 768 8 2 24.47 25.12 23.69 26.82 segmentation 2310 19 7 4.81 4.37 4.89 4.50 vehicle 846 18 4 30.02 28.47 27.65 26.23 waveform 5000 20 3 21.74 20.98 22.36 22.74 waveform+noise 5000 40 3 22.54 21.32 22.94 24.36 決定木性能評価 UC Irvine, Repository of Machine Learning databases http://www.ics.uci.edu/~mlearn/MLRepository.html 10-fold Cross Validation
回帰木 (Regression Tree) BPS GDM YEN TB3M TB30Y SP500 GOLD 1.443530 0.407460 0.004980 7.02 9.31 210.88 326.00 1.446120 0.408050 0.004950 7.04 9.28 205.96 339.45 : : : : : : :
Yes No No Yes
外 D2 D1 領域中 μ1 μ2 誤差二乗平均を最小化する領域