1 / 32

情報技術( IT) から 知識技術( KT) へ

情報技術( IT) から 知識技術( KT) へ. 山口 高平 (やまぐち たかひら) 慶應義塾大学理工学部管理工学科. プロフィール. 1957年:大阪生まれ 1979年:大阪大学工学部通信工学科卒業 卒論から計算機に知的なことをさせる人工知能の研究に興味 1984年:定理証明システムの高速化に関する研究(博士論文) 1984年~1989年:大阪大学産業科学研究所助手 1989年~1996年:静岡大学工学部助教授 1997年~2004年3月:静岡大学情報学部教授. データマイニング. システム構成的アプローチ. A01 アクティブ   情報収集.

niles
Download Presentation

情報技術( IT) から 知識技術( KT) へ

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 情報技術(IT)から知識技術(KT)へ 山口 高平 (やまぐち たかひら) 慶應義塾大学理工学部管理工学科

  2. プロフィール 1957年:大阪生まれ 1979年:大阪大学工学部通信工学科卒業 卒論から計算機に知的なことをさせる人工知能の研究に興味 1984年:定理証明システムの高速化に関する研究(博士論文) 1984年~1989年:大阪大学産業科学研究所助手 1989年~1996年:静岡大学工学部助教授 1997年~2004年3月:静岡大学情報学部教授

  3. データマイニング システム構成的アプローチ

  4. A01 アクティブ   情報収集 平成13年度~16年度 科研費特定領域研究 アクティブマイニング 元田浩教授(阪大) AM=アクティブ情報収集 + マイニング + ユーザリアクション A03 ユーザリアクション 発見 A02 マイニング 3つを有機的に連携するシステムがなかった.

  5. WWW 共通データ A03-09 津本,高林 A03-10 岡田,高橋 A03-11 寺野 肝炎データ ユーザ・リアクション 化学薬品データ A02-05 Bao A03-11 大澤 MEDLINE 視覚化 文献収集・ 解析 興味深い知識の発見 A01-02 山田 A02-08 松本 A01-03 北村 マイニング重み付け 知識フィルタリング 前処理・マイニング A01-04 沼尾 共起パタン A02-05 元田,鷲尾 A02-06 山口 A02-07 鈴木,鍾 A03-09 津本 A03-10 岡田,高橋 A03-11 寺野 前処理ノウハウ蓄積交換 時系列 データ取得 前処理 例外知識

  6. メソッド切出し C4.5 AQ15 CS NN 帰納メソッド 体系化 帰納システム の分析 帰納メソッドに 仕様とコードを与え リポジトリ-を開発 帰納アプリケーション構築支援環境: CAMLET (a Computer Aided Machine Learning Engineering Tool) CAMLET:ラクダの毛から紡いだ高級織物 →CAMELじゃないのよ!(システム名は単純に!) 探索・合成 帰納アプリ ケーション の自動合成

  7. エントロピー 集合評価 訓練集合 更新 重複可 ブートストラップ テスト集合同一型 重複不可 ランダム 訓練・テスト 集合生成 非共有型 テスト集合サブセット型 ランダム 共有型 ランダム 空テスト集合生成 バージョン空間 表現空間利用型 star 訓練集合 依存型 表現空間 非利用型 分類器 集合生成 分類器 集合更新 エントロピー 決定木 エントロピー+情報レシオ ランダム生成 訓練集合独立型 プロセス FP 累積評価 配当分配アルゴリズム 評価 集合評価 要素の重み更新 非参照型更新 訓練集合 更新 ホモジニアス操作 ピッツァGA 参照型更新 ヘトロジニアス操作 反例参照更新 ミシガンGA ピッツァGA 分類器 集合更新 非参照型更新 BP 削除 ホモジニアス操作 参照型更新 合成 削除 ヘトロジニアス操作 合成 帰納アプリケーションの合成 空テスト 集合生成 スタート 訓練・テスト 集合生成 分類器 集合生成 エンド 評価

  8. Learning Start Data-Generation Default-Generation Selective-Learning Random-Feature-Selection Feature-Selection CLS (Gain Ratio) If-Then-Rules-Generation If-Then-Rules-Evaluation Knowledge-Evaluation Loop Simulated-Annealing Knowledge-squeezing If-Then-Rules-Evaluation Knowledge-Evaluation End CAMLETの処理の流れ 自動生成されたマイニングソフトウェア (実際はC言語のプログラムコード) ID,SEX,Birthday,Description,First Date,Admission,Diagnosis 2110,F,1934/2/13,94.02.14,93.02.10,+,RA susp. 11408,F,1937/5/2,96.12.01,73.01.01,+,PSS 12052,F,1956/4/14,91.08.13,,+,SLE 14872,F,1953/9/21,97.08.13,,+,MCTD 27654,F,1936/3/25,,92.02.03,+,"RA, SLE susp" 30609,F,1944/7/13,91.08.13,,-,"SLE, MCTD" 43003,M,1937/11/24,94.03.08,94.03.08,-,Raynaud's phenomenon 48473,F,1948/10/7,97.08.13,,+,SLE 52199,F,1954/3/16,,,-,PM/DM 57266,M,1923/7/25,97.02.03,93.02.05,+,RA 58139,F,1972/12/23,,,-,SJS 71417,F,1929/10/20,96.12.03,95.06.20,-,RA 81043,M,1967/3/25,,,-,MCTD 102490,F,1982/4/1,94.02.22,,+,PSS 108788,F,1942/3/15,,,+,SJS 115272,F,1968/4/8,98.07.16,89.03.17,-,BEHCET 115562,,1943/3/17,97.08.20,,+,SLE 115575,F,1970/12/4,94.02.24,,-,SLE 122320,F,1945/10/27,97.07.31,1972.10.19,+,relapsing髜polychondritis 122405,F,1961/5/22,,,-,SJS 125619,F,1917/4/18,96.11.01,86.11.06,+,SJS 128012,F,1958/1/28,94.02.24,83.01.20,-,PSS 128041,F,1923/9/20,94.02.14,1973.4.8,-,SLE 130312,F,1948/2/23,91.08.12,73.01.30,+,RA 130370,F,1952/8/22,97.08.20,,+,RA 130758,F,1937/8/17,,,-,seronegative RA 133382,M,1934/9/3,96.12.05,92.10.13,+,SLE 133760,F,1935/4/5,97.08.02,1984.5.28,-,SLE 138824,F,1939/4/8,94.02.06,74.07.23,+,"SLE, SJS" 138938,F,1952/10/14,94.02.07,1973.11.1,-,PM 154143,F,1933/10/11,91.08.13,72.08.02,+,RA 154909,F,1935/1/21,96.12.04,94.08.10,-,SJS 163109,F,1950/10/16,97.08.20,,+,SLE 166850,F,1949/1/2,,,+,"SLE, SJS" 174116,F,1973/2/1,91.08.13,76.12.09,+,"SLE, AIHA" 179212,F,1978/5/27,91.08.13,,+,SLE 189721,F,1970/2/2,98.07.08,92.12.03,-,SJS susp 205391,,1929/9/11,98.05.18,92.03.16,+,"BEHCET (覺硤), RA susp" 213279,F,1973/3/12,91.08.13,80.01.03,+,SLE 213370,F,1956/7/17,1991/6/10,1992.05.11,+,MCTD 215972,F,1948/7/30,94.02.19,,+,BEHCET 230650,F,1954/12/10,97.07.30,94.12.02,+,"RA, SJS" 233604,F,1966/9/23,96.12.12,91.11.21,-,BEHCET 250391,F,1967/12/15,94.02.22,78.10.12,-,SLE 283032,F,1951/11/24,94.02.19,85.10.01,-,SLE 287122,F,1953/5/26,,,-,SLE 287861,F,1943/7/6,94.02.19,,-,PSS 298520,F,1936/9/29,98.01.13,1998/1/9,,"BEHCET, SJS" 299839,F,1940/2/19,97.07.31,1975.3.6,-,PN (vasculitis) 304157,F,1920/8/22,94.03.01,91.04.26,-,"RA, SJS" (適合率=0.86,復元率=0.96) メタ学習機構(マイニング ソフトウェア自動生成ツール) (適合率=0.33,復元率=0.75) 髄膜脳炎DB 専門家が興味深いと 判断したルールの例 従来,試行錯誤を伴い手作業でマイニングソフトウェアを開発. 本自動作成ツールを使えば,開発期間が1/5以下に短縮!

  9. パラレルCAMLETマシン  ・16CPU  ・CPU 1-2GHz  ・メモリ 1GB

  10. 共通医療データ:肝炎データ 提供元:千葉大学医学部第一内科 約800人の患者の20年間に亘る病歴データ • データの特徴 • 大規模な未整備時系列データ • 最大 160 万件 • 膨大な数の表記揺れが存在 • 検査項目数が非常に多い • 最大 950 項目 • 時期により検査項目の再現性が変化,欠損値が多い • 検査機器・医学の進歩 • 医者によるバイアスが存在 • 重病患者には特殊な検査 院内検査項目 (459 項目) 生検結果 (960 例) インターフェロン投与情報 (198 例) Hepatitis 患者基本情報 (771 例) 院外検査結果 (30.243 件) 院内検査結果 (1.565.877 件)

  11. データの一例 アルブミン 非代償性肝硬変患者 日 インターフェロン投与時点

  12. 肝炎データセットのデータ前処理

  13. 短期時系列パターンの組合せに基づくルール発見支援 • 予測正答率: 60.90% (21/34), 再現率: 1.43% (21/1470) IF 直前24ヶ月のビリルビンの平均値が高く、TTT(チモール混濁試験)が減少する THEN GPTが減少に転じる 医師のコメント「GPTは周期的な多少の上下動があるもののほぼ一定と理解してきた。このルールは、GPTの上下動の転移を説明する可能性があり興味深い。ウィルス活動・バクテリア増殖の周期性とも関連するのか?」

  14. Rule 2 precision: 37.50% recall: 15.96% Rule 1 precision: 55.56% recall: 6.62% ALB ALB GPT GPT GPT GPT 慢性肝炎データセットからのルール発見(2) 得られたルールと専門家の評価 GPTは,微少変化は あるが,単調減少する と一般に言われている しかし,ルールはGPT の約3年の周期変動を 示しており,興味深い

  15. TTT減少→GPT減少:抗体の動きが活発→肝炎が緩和される(常識的なルール?)TTT減少→GPT減少:抗体の動きが活発→肝炎が緩和される(常識的なルール?) • GPTは周期的な多少の上下動があるもののほぼ一定と理解 • してきた。このルールは、GPTの上下動の転移を説明する • 可能性があり興味深い。ウィルス活動・バクテリア増殖の • 周期性とも関連するのか?  (横井,千葉大医学部) • キャリアに対して,TTT検査によりB型ウィルスとC型ウィルスの比較可能Murawaki Y, Ikuta Y, Koda M, Kawasaki H. (School of Medicine, Tottori Univ: • Comparison of clinical liver tests between asymptomatic HBV and HCV carriers • with persistently normal aminotransferase levels, Hepatol Res 2001 Sep;21(1)67-75, • from MEDLINE • このルールは,発症前の人(キャリア)と発症した人の両方に適用可能な点が興味深い(朴先生,大阪市立大医学部)

  16. Semantic Web システム構成的アプローチ

  17. “The Semantic Web will globalize KR, just as the WWW globalized hypertext WWWが登場する以前、ハイパーテキストは一部の「理想家」だけが 熱心に取り組んでいる特殊な道具でした。 知識表現や機械に理解可能な知識というコンセプトの現在も、 とてもよく似た状況と言えそうです。 「絶対の真実、全ての物事を網羅する知識、あらゆる可能性といった 中央集約型のコンセプト」から離れて、限られた知識で何ができるか というところからスタートすることで、知識表現におけるWWW、 すなわちセマンティック・ウェブへの未知が開けてくるというのです。 By TBL

  18. Big Picture for SW (2001) http://www.semanticweb.org/about.html#bigpicture

  19. Semantic Web Stack Enabling Standards & Technologies – Layer Cake (http://www.w3.org/2002/Talks/04-sweb/slide12-0.html)

  20. DAML Ontology Library (Ontology's by Keyword) http://www.daml.org/ontologies/keyword.html academic department http://www.cs.umd.edu/projects/plus/DAML/onts/cs1.0.daml academic department http://www.cs.umd.edu/projects/plus/DAML/onts/cs1.1.daml Academic Positions http://www.daml.ri.cmu.edu/ont/homework/cmu-ri-employmenttypes-ont.daml access control primitives http://www.w3.org/2000/10/swap/pim/doc.rdf acronym http://orlando.drc.com/daml/Ontology/Thesaurus/CALL/current/ activity http://www.kestrel.edu/DAML/2000/12/OPERATION.daml Actors http://opencyc.sourceforge.net/daml/cyc.daml Actors http://www.cyc.com/2002/04/08/cyc.daml Actors http://www.cyc.com/cyc-2-1/cyc-vocab.daml address book http://www.w3.org/2000/10/swap/pim/contact.rdf agenda http://www.daml.org/2001/10/agenda/agenda-ont

  21. 構築モジュール 入力モジュール 入力概念選択 テキスト コーパス 階層構築 関係構築 照合&剪定 共起性に基づく 統計処理 電子化辞書 入力領域概念 WordSpace 相関ルール WordNet 初期概念階層 概念対集合 洗練モジュール 階層洗練 関係洗練 照合結果分析 評価値算出 評価値算出 概念階層 概念定義 剪定結果分析 階層参照 階層参照 構文解析 変換モジュール 視覚化 モジュール 領域オントロジー (OWL-Lite) 科研費基盤研究(B) 平成15~17年度 DODDLE-R

  22. DODDLEis a Domain Ontology rapiD DeveLopment Environment. Take it easy ! D 俗語なので伝わりずらい 名前はシンプルに!

  23. (1) Input Module Input Concept List WordNet Concepts Text Corpus

  24. (2) Construction&Refinement Modules for Hierarchy Concept Drift Management Taxonomy

  25. (4) Visualization Module MR3: a Meta-Model Management Tool

  26. (3) Construction&Refinement Modules for Relationships Related Concept Pairs

  27. (5) Translation Module into OWL-Lite

  28. Case Study • Application Domain: Contracts for the International Sale of Goods • Document: CISG text (about 10,000 words) • Input Concepts: 46 legal concepts from CISG Part-II <Parameters WordSpace Association Rule

  29. Final Legal Concept Hierarchy

  30. Modifying Concept Specification Templates with Domain Experts ex) non-Taxonomic Relationships for “assent” Concept Specification Template assent assent AGENT : person non-TAXONOMY? : offeror LEGAL-SEQUENCE : offer TAXONOMY : act ANTONYM : withdrawal non-TAXONOMY? : effect non-TAXONOMY? : offer non-TAXONOMY? : person Final Concept Specification with Domain Experts non-TAXONOMY? : offeree non-TAXONOMY? : withdrawal non-TAXONOMY? : time TAXONOMY : proposal

  31. DODDLE Ontology Development MR3 RDF & RDFS Visual Editing LordBader Meta-level BPM for Web Services MMM Project • Goal: Building up a total environment of Meta-Model Management (MMM) for Semantic Web MMM WWW Meta-Model Management Project http://mmm.semanticorg.com

  32. 今後の研究方針 データ爆発時代に応えるKT今後の研究方針 データ爆発時代に応えるKT • Semantic Web:欧米で多くのプロジェクト発足企業も電子政府を睨んで参入テクノロジーベンチャー • Semantic Web を普及させるためのツール,アプリケーションの開発:新規性と有用性のバランス,国際交流,学生

More Related