1.57k likes | 1.7k Views
人工知能特論 2011 平成24年1月13日(金). 東京工科大学大学院 亀田 弘之. 全体のまとめ. なぜ論理学の話をしたのか? 今までの話がどのように人工知能に関わっているのか? 最近はやりの Data Mining ( Text Mining, Web Mining Knowledge Discovery ) の側面から話をしましょう! ( DM は今や AI の一分野とも考えられる). 知識の発見. 知識 = 普遍の真理 真理の探究 こんなことが自動的にできると凄いよね!. 真実. Web. “高度データマイニング 2005 ”より.
E N D
人工知能特論2011平成24年1月13日(金)人工知能特論2011平成24年1月13日(金) 東京工科大学大学院 亀田 弘之
全体のまとめ • なぜ論理学の話をしたのか? • 今までの話がどのように人工知能に関わっているのか? • 最近はやりのData Mining ( Text Mining, Web Mining Knowledge Discovery)の側面から話をしましょう!(DMは今やAIの一分野とも考えられる)
知識の発見 • 知識=普遍の真理 • 真理の探究こんなことが自動的にできると凄いよね!
真実 Web
“高度データマイニング2005”より Advanced Data Mining高度データマイニング 東京工科大学大学院 バイオニクス・情報メディア学専攻科 Version 2
DM Methodology • Exploratory data analysis(探索的データ解析) • Computational data mining(計算論的データマイニング) • Statistical data mining(統計的データマイニング)
DM Methodology • Exploratory data analysis(探索的データ解析) • Computational data mining(計算論的データマイニング) • Statistical data mining(統計的データマイニング)
1.Exploratory data analysis • 統計的データ解析(SDA) • 探索的データ解析(EDA)
統計的データ解析(SDAの基礎) • 視覚的分析 • 表: 度数分布表(frequency table) • 図: ヒストグラム(histogram) • 数値的分析 • 代表値: 平均 (mean)中央値 (median)モード (mode,最頻値) • ばらつき度:分散(variance)平均偏差(mean deviation; MD)標準偏差(standard deviation)範囲(range = 最大値ー最小値) • その他 四分位数(quartile,第一・二・三) 外れ値
統計的データ解析(EDAの基礎) • 視覚的分析 • 表: 度数分布表(frequency table) • 図: ヒストグラム(histogram) • 数値的分析 • 代表値: 平均(mean)中央値(median)モード (mode,最頻値) • ばらつき度:分散(variance)平均偏差(mean deviation; MD)標準偏差(standard deviation)範囲(range = 最大値ー最小値) • その他 四分位数(quartile,第一・二・三)外れ値
探索的データ解析(EDA) • 幹葉表示(stem-and-leaf display) • 要約値(letter value display) • 箱ヒゲ図(box-whisker plots) • X-Y表示(X-Y plotting) • 抵抗性のある直線回帰(registant line) • 中央値分散分析(median polish) • 時系列データのならし(smoothing)
探索的データ解析(EDA) • 幹葉表示(stem-and-leaf display)ヒストグラムに代わる手法 • 要約値(letter value display)平均値・標準偏差に代わるもの • 箱ヒゲ図(box-whisker plots)分布の形と外れ値の図的表示
DM Methodology • Exploratory data analysis(探索的データ解析) • Computational data mining(計算論的データマイニング) • Statistical data mining(統計的データマイニング)
3.Statistical data mining • Statistic models(統計モデル) • Statistic inference(統計的推論) • Non-parametric model • General linear model • Log-linear model • Graphical modeletc.
DM Methodology • Exploratory data analysis(探索的データ解析) • Computational data mining(計算論的データマイニング) • Statistical data mining(統計的データマイニング)
2.Computational data mining • Cluster analysis(クラスター分析) • Tree models(木モデル) • Linear regression(線形回帰) • Logistic regression(ロジスティック回帰) • Neural networks(ニューラルネットワーク) • ILP(Inductive Logic Programming; 帰納論理プログラミング) • SVM(support vector machines) etc.
2.Computational data mining • Tree models(木モデル) • Cluster analysis(クラスター分析) • Linear regression(線形回帰) • Logistic regression(ロジスティック回帰) • Neural networks(ニューラルネットワーク) • ILP(Inductive Logic Programming; 帰納論理プログラミング) etc.
a.クラスター分析 • Hierarchical methods(階層型法) • Non-hierarchical methods(非階層型法)
a.クラスター分析(2) • 基本的考え方: • 近いデータをかき集めてグループを作る。 • 近いグループ同士をかき集めて新たなグループを作る。 • これの繰り返し。
クラスター分析(2) • 基本的考え方: • 近いデータをかき集めてグループを作る。 • 近いグループ同士をかき集めて新たなグループを作る。 近い => 距離(distance)が主要な役割を果たす
距離(distance) • 空間Sの任意の2点x,yの間に、1つの実数d(x,y)が定義されていて、これが次の4つの条件を満たしているとき、d(x,y)を2点x,y間の距離という。
2点間の距離 空間S x 2点間の距離d(x,y) y
2グループ間の距離は? グループA グループB
2グループ間の距離 グループA グループB 距離d(A,B)
2グループ間の距離 グループA 平均値・中央値 グループB 距離d(A,B)
2グループ間の距離 グループA 平均値・中央値 グループB 距離d(A,B) 代表値間の距離
いろいろな距離(関数)(2) • Euclidean distance(ユークリッド距離) • Mahalanobis disntance(マハラノビス距離) • Edit distance(エディト距離) etc.
b.木モデル • 決定木(decision tree)
決定木の用途 • 分類問題 • 診断問題 • 予測問題 • 制御問題 • パターン認識問題 etc.
木とは(2) 枝(branch)
木とは 根(root) 節(node)