170 likes | 270 Views
データベースの構築. 日本における 『 百科全書 』 パリ版デジタルアーカイブ共同研究の現状. 慶應義塾大学 DMC 機構専任講師 大久保 成. まずは現物をご覧ください. http://kdde.dmc.keio.ac.jp/index.html. 従来のアーカイブ系コンテンツの特徴. 独自型 電子辞書など データとインターフェースが一体化 コンテンツごとの独自性を発揮させやすい 他形態への応用が難しい 汎用型 図書館システムなど データは分野を超えて収蔵可能だが、インターフェースが貧弱. 最近の傾向. 「収蔵庫」と「展示場」の分離
E N D
データベースの構築 日本における『百科全書』パリ版デジタルアーカイブ共同研究の現状 慶應義塾大学 DMC機構専任講師 大久保 成
まずは現物をご覧ください http://kdde.dmc.keio.ac.jp/index.html
従来のアーカイブ系コンテンツの特徴 • 独自型 • 電子辞書など • データとインターフェースが一体化 • コンテンツごとの独自性を発揮させやすい • 他形態への応用が難しい • 汎用型 • 図書館システムなど • データは分野を超えて収蔵可能だが、インターフェースが貧弱
最近の傾向 • 「収蔵庫」と「展示場」の分離 • ウェブコンテンツのデータベース化 • 汎用的なデータを格納しつつ、個別のインタフェースを用意 • データベース部分は汎用性を高める • インターフェース部分は個別性を高める
KDDEの基本システム • データベース部分 • PostgreSQL • PHP • UTF-8 • インターフェース部分 • Logosware社のFlipperを利用 • Macromedia(現Adobe社)Flashの応用
Flipper部分の作成 • DMC機構の貴重書撮影技術を活用 • RAWデータで撮影 • 14.6MB(4922×3328 pixel) • JPEGに変換後、Flipperへ取り込み
データベース構築にあたり • PostgreSQLを活用 • フリー(無料) • 多言語処理が得意 • IT業界での「国際化」というのは「日本語化」程度の意味しか持たないことが多いが、PostgreSQLは真の意味でのマルチリンガルな仕様になっている(複数の文字セットを任意に変換可能な仕様) • ただし、Unicode上のギリシア文字とShift-JIS上のギリシア文字(全角)は違う文字で扱われるなど、文字コードに対する一定の理解は必要
データベース構築にあたり • データベースの基礎的考え方 • テーブル=エクセルの表 • レコード=エクセルの行 • フィールド=エクセルの列 • 「ひとつのセル」に「ひとつの情報」
「ひとつの情報」とは? • e.g.「49a-53b」 • 「49ページ」の「左段落」から「始まり」、「53ページ」の「右段落」で「終わる」 • 6つの情報 • e.g.「101a」 • 「101ページ」の「左段落」から「始まり」、「101ページ」の「右段落」で「終わる」 • 「見た目がひとつの情報」であっても、複数の情報を含有している • 構造を明らかにしないといけない • SQLでいうところの「第2正規化」
どこまで分割するか? • 細かく分ければよいか? • →NO • どのレベルで検索をかけたいかによる • 機械的には決められない • 「ART DES ESPRITS, ou ART ANGÉLIQUE 」で「 ART ANGÉLIQUE 」が単独で検索される必要がある場合は、「別名フィールド」などを作り、検索の対象とする
どこまで分割するか? • e.g.「*ARCHANGEL 」 • 2つの情報が含まれている • 「*」:ディドロが執筆した • 「ARCHANGEL」という項目 • 「DIDEROT」というフィールドを作り、「*」が付いた項目にフラグを立てた • 検索すると以下のような順序で処理される • 「前方一致で検索」→「DIDEROTフィールドがOnかOffか?」→「Onの場合、*+項目名で表示」 • 研究者からみて違和感のないようなインターフェースの工夫が必要
どこまでを「同じ内容」とするか • 「包摂」という問題 • 「Géog. 」と「Géogr.」は同じか否か? • SQLでいうところの第一正規化 • 今回は「分類項目(現代表記)」でのみ検索可能にした • 「Géographie」のみが検索語に指定可能 • 「品詞と性」については 今回は正規化を見送り • 「adj.「adject.」「adjectif」はそれぞれ別の項目として検索される
今後の課題 • メニューなどの多言語化 • トップページのみ日英仏から選択可能 • 正規化 • 入力ルールの整理と徹底化 • ユーザ管理 • 誰でも修正可能な状態 • ウェブ上での研究コミュニティつくり
(参考)ページ遷移(ユーザから見える範囲のみ)(参考)ページ遷移(ユーザから見える範囲のみ) index.html トップページ search.php 検索語入力 list.php 結果一覧 (別ウィンドウで開く) allinfo.php 項目のメタデータ book115.php Flipperの呼出 update_list.php 修正用ページ
(参考)ファイル一覧(ルートディレクトリ)(参考)ファイル一覧(ルートディレクトリ)