大規模データベースの使い方

大規模データベースの使い方 師　茂樹（花園大学）漢籍の情報化−これからの出版文化−

大規模漢籍DB • 中央研究院漢籍データベース • 3億字（さらに増加中） • 『四庫全書』 • 7億字 • 『中国基本古籍庫』 • 20億字漢籍の情報化−これからの出版文化−

大規模DBの問題 (1) • 仮説形成の困難さ • 検索ができない！ • マクロな視点 • 「火事になったら勉強できないような学者なのか」（司馬遼太郎『対談集九つの問答』朝日文芸文庫、1997）漢籍の情報化−これからの出版文化−

大規模DBの問題 (2) • 情報量の貧しさ • 文字コードの貧困さ • マークアップが必要？ • 細かいマークアップは無理 • 量の問題 • 概念の問題漢籍の情報化−これからの出版文化−

大規模DBからの知識の獲得 • 仮説形成 • 大まかな知識獲得 • 検証が必要 • 先入見の相対化・対象化 • これまでにない問題意識、分析手段の喚起 • 方法 • データ（テキスト）マイニング • 視覚化漢籍の情報化−これからの出版文化−

確率モデルによる仮説形成 • 実例 • 師茂樹「大規模仏教文献群に対する確率統計的分析の試み」（京大人文研創立75周年記念シンポジウム、2004/11/21、京大百周年時計臺記念館國際交流ホール） • 全玄奘訳をN-gram＋クラスタ分析で分類漢籍の情報化−これからの出版文化−

実例（続き） 1a 大乗経典密教経典因明論書菩薩戒本 1b 1c 密教経典 1d 大乗経論阿毘達磨 1e 甚希有経阿毘達磨対法論系 2a 2b 摂大乗論 2c 漢籍の情報化−これからの出版文化−

視覚化 • 実例 • 師茂樹「NGSM結果のばねモデルによる視覚化」（『漢字文献情報処理研究』5, 2004）漢籍の情報化−これからの出版文化−

豊かなテキストへ • CHISEプロジェクト漢籍の情報化−これからの出版文化−

大規模DBの問題 (3) • 不自由なデータ • お仕着せの検索のみ • 自由に加工、分析ができない漢籍の情報化−これからの出版文化−

課題 • 仮説形成技術 • 「豊かなテキスト」処理技術 • 自由なデータ漢籍の情報化−これからの出版文化−