人工知能特論 2011 平成２４年１月１３日（金）

人工知能特論2011平成２４年１月１３日（金）人工知能特論2011平成２４年１月１３日（金）東京工科大学大学院亀田　弘之

全体のまとめ • なぜ論理学の話をしたのか？ • 今までの話がどのように人工知能に関わっているのか？ • 最近はやりのData Mining ( Text Mining, Web Mining  Knowledge Discovery)の側面から話をしましょう！（DMは今やAIの一分野とも考えられる）

知識の発見 • 知識=普遍の真理 • 真理の探究こんなことが自動的にできると凄いよね！

真実 Web

“高度データマイニング2005”より Advanced Data Mining高度データマイニング東京工科大学大学院バイオニクス・情報メディア学専攻科 Version 2

ＤＭ Methodology

ＤＭ Methodology • Exploratory data analysis（探索的データ解析） • Computational data mining（計算論的データマイニング） • Statistical data mining（統計的データマイニング）

１．Exploratory data analysis • 統計的データ解析(SDA) • 探索的データ解析(EDA)

統計的データ解析(SDAの基礎) • 視覚的分析 • 表：度数分布表(frequency table) • 図：ヒストグラム(histogram) • 数値的分析 • 代表値：平均 (mean)中央値 (median)モード (mode,最頻値） • ばらつき度：分散(variance)平均偏差(mean deviation; MD)標準偏差(standard deviation)範囲(range = 最大値ー最小値) • その他四分位数(quartile,第一・二・三）外れ値

統計的データ解析(EDAの基礎) • 視覚的分析 • 表：度数分布表(frequency table) • 図：ヒストグラム(histogram) • 数値的分析 • 代表値：平均(mean)中央値(median)モード (mode,最頻値） • ばらつき度：分散(variance)平均偏差(mean deviation; MD)標準偏差(standard deviation)範囲(range = 最大値ー最小値) • その他四分位数(quartile,第一・二・三）外れ値

探索的データ解析(EDA) • 幹葉表示(stem-and-leaf display) • 要約値(letter value display) • 箱ヒゲ図(box-whisker plots) • Ｘ－Ｙ表示(X-Y plotting) • 抵抗性のある直線回帰(registant line) • 中央値分散分析(median polish) • 時系列データのならし(smoothing)

探索的データ解析(EDA) • 幹葉表示(stem-and-leaf display)ヒストグラムに代わる手法 • 要約値(letter value display)平均値・標準偏差に代わるもの • 箱ヒゲ図(box-whisker plots)分布の形と外れ値の図的表示

３．Statistical data mining • Statistic models（統計モデル） • Statistic inference（統計的推論） • Non-parametric model • General linear model • Log-linear model • Graphical modeletc.

２．Computational data mining • Cluster analysis（クラスター分析） • Tree models（木モデル） • Linear regression（線形回帰） • Logistic regression（ロジスティック回帰） • Neural networks（ニューラルネットワーク） • ILP(Inductive Logic Programming;　　帰納論理プログラミング） • SVM(support vector machines) etc.

２．Computational data mining • Tree models（木モデル） • Cluster analysis（クラスター分析） • Linear regression（線形回帰） • Logistic regression（ロジスティック回帰） • Neural networks（ニューラルネットワーク） • ILP(Inductive Logic Programming;　　帰納論理プログラミング） etc.

a．クラスター分析 • Hierarchical methods（階層型法） • Non-hierarchical methods（非階層型法）

a．クラスター分析（２） • 基本的考え方： • 近いデータをかき集めてグループを作る。 • 近いグループ同士をかき集めて新たなグループを作る。 • これの繰り返し。

クラスター分析（例）

クラスター分析（２） • 基本的考え方： • 近いデータをかき集めてグループを作る。 • 近いグループ同士をかき集めて新たなグループを作る。近い　＝＞　距離(distance)が主要な役割を果たす

距離って何だっけ？

距離(distance) • 空間Ｓの任意の２点x,yの間に、１つの実数d(x,y)が定義されていて、これが次の4つの条件を満たしているとき、d(x,y)を２点x,y間の距離という。

２点間の距離 空間Ｓ x ２点間の距離d(x,y) y

２グループ間の距離は？

２グループ間の距離は？ グループA グループＢ

２グループ間の距離 グループA グループＢ距離d(A,B)

２グループ間の距離 グループA 平均値・中央値グループＢ距離d(A,B)

２グループ間の距離 グループA 平均値・中央値グループＢ距離d(A,B) 代表値間の距離

いろいろな距離（関数）

いろいろな距離（関数）（２） • Euclidean distance（ユークリッド距離） • Mahalanobis disntance（マハラノビス距離） • Edit distance（エディト距離） etc.

b．木モデル • 決定木(decision tree)

決定木の用途 • 分類問題 • 診断問題 • 予測問題 • 制御問題 • パターン認識問題 etc.

その前に、ちょっと復習

木とは？

これらをひっくり返すると…

これらを抽象化すると…

木とは

木とは（２） 枝(branch)

木とは 根(root) 節(node)

人工知能特論 2011 平成２４年１月１３日（金）

人工知能特論 2011 平成２４年１月１３日（金）

Presentation Transcript

2011

2000 – 2011 April, 2011

2010-2011 2011-2012

2011

2011

2011

2011

2011

2011

2011

2011

2011

2011

2011

Mathematics Syllabus 2011/2011

2011

2011

2011

2011

2011

2011

2011