160 likes | 342 Views
ACE KG 発表 ベイジアンネットワーク ~ spam フィルタを作ってみよう~. 発表者 ide , ryo. spam メール. 元ネタ 味付き豚肉の缶詰 Homel Foods 社 イギリスのコメディ 同じ言葉を連呼 妨害行為 しつこい= SPAM. 発表の流れ. コンピュータが扱う複雑な問題 問題のモデリング SPAM フィルタリング ベイジアンネットワーク ベイジアンについての基礎知識 確率の話,ベイズの定理 実習 ベイジアンネットワークを構築してみよう まとめ. コンピュータが扱う複雑な問題. 実世界の現象など
E N D
ACE KG発表ベイジアンネットワーク~spamフィルタを作ってみよう~ 発表者 ide,ryo
spamメール • 元ネタ • 味付き豚肉の缶詰 • Homel Foods社 • イギリスのコメディ • 同じ言葉を連呼 • 妨害行為 • しつこい=SPAM
発表の流れ • コンピュータが扱う複雑な問題 • 問題のモデリング • SPAMフィルタリング • ベイジアンネットワーク • ベイジアンについての基礎知識 • 確率の話,ベイズの定理 • 実習 • ベイジアンネットワークを構築してみよう • まとめ
コンピュータが扱う複雑な問題 • 実世界の現象など • 経済システム,社会システム,自然科学 • 全体の構造が把握できない • 様々な要素が絡み合って結果が出る • 不確定な要素が多いが,ある程度規則性がある • 部分的なデータからある程度は予測可能
複雑な問題を扱うのに適している 厳密なモデルと柔軟なモデル • 厳密なモデル • 確定的な表現 • rule base(if thenや述語論理),決定木 • 柔軟なモデル • 曖昧さを許す表現 • 確率,マルコフモデル,ベイジアンネットワーク
ベイジアンネットワーク • 以前に使われてきた多くのモデルを包含し,表現力が高い • 決定木,マルコフモデル • ベイジアンの適用分野 • ヒューマンモデリング • カイル君 • トラブルシューティング • spamメールのフィルタリング
従来のspamフィルタリング • 『spam/spamではない』を定義する規則 • spam送信業者アドレスブラックリスト • タイトルでのフィルタリング • 送信側と受信側のいたちごっこ • 許可したアドレス以外のメールは受け取らない • PCアドレスから携帯に宛てたメールは届かない • 厳しすぎる制約
最近のspamフィルタリング • ベイジアンフィルタを使ったフィルタリング • 使用されている単語や単語列からspamである確率を算出 • 学習機能付き • ベイジアンフィルタを使っているソフトウェアたち • SpamBayes,POPFile,bayespam,Mozilla Spam Filtering,BOGOFILTER,BkASPil,bsfilter,ifile,PASP,spamoracle,Spam Assassin,Annoyance Filter,Bspam
ベイジアンネットワークの動作概要 • 確率についての簡単な説明 • 独立と従属 • ベイズの定理 • ベイジアンネットワークの説明 • モデルの作成
確率の独立と従属 • 独立 • 2つ以上の事象の確率が互いの結果によって変化しない • 2つのさいころA,Bを振ったときに,Aは6が出る確率,Bは2以下が出る確率
確率の独立と従属 • 従属 • 2つ以上の事象の確率が互いの結果によって変化する • 10本中3本の当たりくじがある宝くじを,A君B君が順番に引く確率
ベイズの定理 • 従属の関係にある事象で,一方が判明したときに,他方の確率を求められる • advertisementという単語が含まれると判明したときに,そのメールがspamである確率
まとめ • ベイジアンネットワークで柔軟なモデルを作ってみました • 複雑な問題を単純化 • 実世界の情報を扱うために利用 • コンテキストアウェア • 環境モデリング • ユーザモデリング