1 / 17

データベースの構築

データベースの構築. 日本における 『 百科全書 』 パリ版デジタルアーカイブ共同研究の現状. 慶應義塾大学 DMC 機構専任講師 大久保 成. まずは現物をご覧ください. http://kdde.dmc.keio.ac.jp/index.html. 従来のアーカイブ系コンテンツの特徴. 独自型 電子辞書など データとインターフェースが一体化 コンテンツごとの独自性を発揮させやすい 他形態への応用が難しい 汎用型 図書館システムなど データは分野を超えて収蔵可能だが、インターフェースが貧弱. 最近の傾向. 「収蔵庫」と「展示場」の分離

werner
Download Presentation

データベースの構築

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. データベースの構築 日本における『百科全書』パリ版デジタルアーカイブ共同研究の現状 慶應義塾大学 DMC機構専任講師 大久保 成

  2. まずは現物をご覧ください http://kdde.dmc.keio.ac.jp/index.html

  3. 従来のアーカイブ系コンテンツの特徴 • 独自型 • 電子辞書など • データとインターフェースが一体化 • コンテンツごとの独自性を発揮させやすい • 他形態への応用が難しい • 汎用型 • 図書館システムなど • データは分野を超えて収蔵可能だが、インターフェースが貧弱

  4. 最近の傾向 • 「収蔵庫」と「展示場」の分離 • ウェブコンテンツのデータベース化 • 汎用的なデータを格納しつつ、個別のインタフェースを用意 • データベース部分は汎用性を高める • インターフェース部分は個別性を高める

  5. KDDEの基本システム • データベース部分 • PostgreSQL • PHP • UTF-8 • インターフェース部分 • Logosware社のFlipperを利用 • Macromedia(現Adobe社)Flashの応用

  6. Flipper部分の作成 • DMC機構の貴重書撮影技術を活用 • RAWデータで撮影 • 14.6MB(4922×3328 pixel) • JPEGに変換後、Flipperへ取り込み

  7. データベース構築にあたり • PostgreSQLを活用 • フリー(無料) • 多言語処理が得意 • IT業界での「国際化」というのは「日本語化」程度の意味しか持たないことが多いが、PostgreSQLは真の意味でのマルチリンガルな仕様になっている(複数の文字セットを任意に変換可能な仕様) • ただし、Unicode上のギリシア文字とShift-JIS上のギリシア文字(全角)は違う文字で扱われるなど、文字コードに対する一定の理解は必要

  8. データベース構築にあたり • データベースの基礎的考え方 • テーブル=エクセルの表 • レコード=エクセルの行 • フィールド=エクセルの列 • 「ひとつのセル」に「ひとつの情報」

  9. 「ひとつの情報」とは? • e.g.「49a-53b」 • 「49ページ」の「左段落」から「始まり」、「53ページ」の「右段落」で「終わる」 • 6つの情報 • e.g.「101a」 • 「101ページ」の「左段落」から「始まり」、「101ページ」の「右段落」で「終わる」 • 「見た目がひとつの情報」であっても、複数の情報を含有している • 構造を明らかにしないといけない • SQLでいうところの「第2正規化」

  10. どこまで分割するか? • 細かく分ければよいか? • →NO • どのレベルで検索をかけたいかによる • 機械的には決められない • 「ART DES ESPRITS, ou ART ANGÉLIQUE 」で「 ART ANGÉLIQUE 」が単独で検索される必要がある場合は、「別名フィールド」などを作り、検索の対象とする

  11. どこまで分割するか? • e.g.「*ARCHANGEL 」 • 2つの情報が含まれている • 「*」:ディドロが執筆した • 「ARCHANGEL」という項目 • 「DIDEROT」というフィールドを作り、「*」が付いた項目にフラグを立てた • 検索すると以下のような順序で処理される • 「前方一致で検索」→「DIDEROTフィールドがOnかOffか?」→「Onの場合、*+項目名で表示」 • 研究者からみて違和感のないようなインターフェースの工夫が必要

  12. どこまでを「同じ内容」とするか • 「包摂」という問題 • 「Géog. 」と「Géogr.」は同じか否か? • SQLでいうところの第一正規化 • 今回は「分類項目(現代表記)」でのみ検索可能にした • 「Géographie」のみが検索語に指定可能 • 「品詞と性」については 今回は正規化を見送り • 「adj.「adject.」「adjectif」はそれぞれ別の項目として検索される

  13. 今後の課題 • メニューなどの多言語化 • トップページのみ日英仏から選択可能 • 正規化 • 入力ルールの整理と徹底化 • ユーザ管理 • 誰でも修正可能な状態 • ウェブ上での研究コミュニティつくり

  14. (参考)フィールド一覧(basic)

  15. (参考)フィールド一覧(flipper)

  16. (参考)ページ遷移(ユーザから見える範囲のみ)(参考)ページ遷移(ユーザから見える範囲のみ) index.html トップページ search.php 検索語入力 list.php 結果一覧 (別ウィンドウで開く) allinfo.php 項目のメタデータ book115.php Flipperの呼出 update_list.php 修正用ページ

  17. (参考)ファイル一覧(ルートディレクトリ)(参考)ファイル一覧(ルートディレクトリ)

More Related