110 likes | 240 Views
大規模データベースの使い方. 師 茂樹(花園大学). 大規模漢籍 DB. 中央研究院 漢籍データベース 3 億字(さらに増加中) 『 四庫全書 』 7 億字 『 中国基本古籍庫 』 20 億字. 大規模 DB の問題 (1). 仮説形成の困難さ 検索ができない! マクロな視点 「火事になったら勉強できないような学者なのか」 (司馬遼太郎 『 対談集九つの問答 』 朝日文芸文庫、 1997 ). 大規模 DB の問題 (2). 情報量の貧しさ 文字コードの貧困さ マークアップが必要? 細かいマークアップは無理 量の問題 概念の問題.
E N D
大規模データベースの使い方 師 茂樹(花園大学) 漢籍の情報化−これからの出版文化−
大規模漢籍DB • 中央研究院 漢籍データベース • 3億字(さらに増加中) • 『四庫全書』 • 7億字 • 『中国基本古籍庫』 • 20億字 漢籍の情報化−これからの出版文化−
大規模DBの問題 (1) • 仮説形成の困難さ • 検索ができない! • マクロな視点 • 「火事になったら勉強できないような学者なのか」(司馬遼太郎『対談集九つの問答』朝日文芸文庫、1997) 漢籍の情報化−これからの出版文化−
大規模DBの問題 (2) • 情報量の貧しさ • 文字コードの貧困さ • マークアップが必要? • 細かいマークアップは無理 • 量の問題 • 概念の問題 漢籍の情報化−これからの出版文化−
大規模DBからの知識の獲得 • 仮説形成 • 大まかな知識獲得 • 検証が必要 • 先入見の相対化・対象化 • これまでにない問題意識、分析手段の喚起 • 方法 • データ(テキスト)マイニング • 視覚化 漢籍の情報化−これからの出版文化−
確率モデルによる仮説形成 • 実例 • 師茂樹「大規模仏教文献群に対する確率統計的分析の試み」(京大人文研創立75周年記念シンポジウム、2004/11/21、京大百周年時計臺記念館國際交流ホール) • 全玄奘訳をN-gram+クラスタ分析で分類 漢籍の情報化−これからの出版文化−
実例(続き) 1a 大乗経典密教経典 因明論書 菩薩戒本 1b 1c 密教経典 1d 大乗経論阿毘達磨 1e 甚希有経阿毘達磨 対法論系 2a 2b 摂大乗論 2c 漢籍の情報化−これからの出版文化−
視覚化 • 実例 • 師茂樹「NGSM結果のばねモデルによる視覚化」(『漢字文献情報処理研究』5, 2004) 漢籍の情報化−これからの出版文化−
豊かなテキストへ • CHISEプロジェクト 漢籍の情報化−これからの出版文化−
大規模DBの問題 (3) • 不自由なデータ • お仕着せの検索のみ • 自由に加工、分析ができない 漢籍の情報化−これからの出版文化−
課題 • 仮説形成技術 • 「豊かなテキスト」処理技術 • 自由なデータ 漢籍の情報化−これからの出版文化−