1 / 11

大規模データベースの使い方

大規模データベースの使い方. 師 茂樹(花園大学). 大規模漢籍 DB. 中央研究院 漢籍データベース 3 億字(さらに増加中) 『 四庫全書 』 7 億字 『 中国基本古籍庫 』 20 億字. 大規模 DB の問題 (1). 仮説形成の困難さ 検索ができない! マクロな視点 「火事になったら勉強できないような学者なのか」 (司馬遼太郎 『 対談集九つの問答 』 朝日文芸文庫、 1997 ). 大規模 DB の問題 (2). 情報量の貧しさ 文字コードの貧困さ マークアップが必要? 細かいマークアップは無理 量の問題 概念の問題.

idra
Download Presentation

大規模データベースの使い方

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 大規模データベースの使い方 師 茂樹(花園大学) 漢籍の情報化−これからの出版文化−

  2. 大規模漢籍DB • 中央研究院 漢籍データベース • 3億字(さらに増加中) • 『四庫全書』 • 7億字 • 『中国基本古籍庫』 • 20億字 漢籍の情報化−これからの出版文化−

  3. 大規模DBの問題 (1) • 仮説形成の困難さ • 検索ができない! • マクロな視点 • 「火事になったら勉強できないような学者なのか」(司馬遼太郎『対談集九つの問答』朝日文芸文庫、1997) 漢籍の情報化−これからの出版文化−

  4. 大規模DBの問題 (2) • 情報量の貧しさ • 文字コードの貧困さ • マークアップが必要? • 細かいマークアップは無理 • 量の問題 • 概念の問題 漢籍の情報化−これからの出版文化−

  5. 大規模DBからの知識の獲得 • 仮説形成 • 大まかな知識獲得 • 検証が必要 • 先入見の相対化・対象化 • これまでにない問題意識、分析手段の喚起 • 方法 • データ(テキスト)マイニング • 視覚化 漢籍の情報化−これからの出版文化−

  6. 確率モデルによる仮説形成 • 実例 • 師茂樹「大規模仏教文献群に対する確率統計的分析の試み」(京大人文研創立75周年記念シンポジウム、2004/11/21、京大百周年時計臺記念館國際交流ホール) • 全玄奘訳をN-gram+クラスタ分析で分類 漢籍の情報化−これからの出版文化−

  7. 実例(続き) 1a 大乗経典密教経典 因明論書 菩薩戒本 1b 1c 密教経典 1d 大乗経論阿毘達磨 1e 甚希有経阿毘達磨 対法論系 2a 2b 摂大乗論 2c 漢籍の情報化−これからの出版文化−

  8. 視覚化 • 実例 • 師茂樹「NGSM結果のばねモデルによる視覚化」(『漢字文献情報処理研究』5, 2004) 漢籍の情報化−これからの出版文化−

  9. 豊かなテキストへ • CHISEプロジェクト 漢籍の情報化−これからの出版文化−

  10. 大規模DBの問題 (3) • 不自由なデータ • お仕着せの検索のみ • 自由に加工、分析ができない 漢籍の情報化−これからの出版文化−

  11. 課題 • 仮説形成技術 • 「豊かなテキスト」処理技術 • 自由なデータ 漢籍の情報化−これからの出版文化−

More Related