1 / 23

情報検索演習 第 3 回

情報検索演習 第 3 回. 2005 年 10 月 12 日 後期 水曜 5 限 江草由佳 国立教育政策研究所 yuka@nier.go.jp. 前から 4 列目までに着席すること. 前回のまとめ. 講義内容 レコードと検索フィールド 情報検索の理論 論理演算子( AND,OR,NOT ) 位置演算子(隣接演算子、近接演算子) トランケーション(前方一致、後方一致、中間任意、中間一致) データベースのファイル構成 インバーテッド・ファイル ストップワード シーケンシャル・ファイル 情報検索結果の評価 検索漏れ、ノイズ 再現率 精度.

kay-foreman
Download Presentation

情報検索演習 第 3 回

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 情報検索演習第3回 2005年10月12日 後期 水曜5限 江草由佳 国立教育政策研究所 yuka@nier.go.jp 前から4列目までに着席すること

  2. 前回のまとめ • 講義内容 • レコードと検索フィールド • 情報検索の理論 • 論理演算子(AND,OR,NOT) • 位置演算子(隣接演算子、近接演算子) • トランケーション(前方一致、後方一致、中間任意、中間一致) • データベースのファイル構成 • インバーテッド・ファイル • ストップワード • シーケンシャル・ファイル • 情報検索結果の評価 • 検索漏れ、ノイズ • 再現率 • 精度

  3. 本日のお品書き • 前回の資料の訂正・補足 • 講義 • データベースの定義 • データベースの歴史 • データベースの種類(分類) • データベースの構築 • データベースの流通

  4. 前回の資料の訂正 • スライド8 誤: Aという検索語を持つ情報の集合と 正: Aという検索語を持つ情報の集合から • スライド12 誤: 表1-1 正: 1-1表 誤: 丁度 正: ちょうど • スライド20 誤: 再現率:10/100×10 =10% 正: 再現率:10/100×100 =10%

  5. 前回の資料補足:データベースのファイル構成(1)–p.29前回の資料補足:データベースのファイル構成(1)–p.29 • インバーテッドファイル(inverted file) –p.29 • 転置ファイル、倒置ファイルとも呼ばれる • レコード毎に蓄積されたデータを、検索語を基準にして並べなおしたファイル • レコード番号、検索フィールドおよび検索フィールドの何番目かを示す番号、および検索語の件数が明記される • 図1-9 データベースファイルの構成 –p.30 • ストップワード • レコード中での出現頻度は高いが、検索上あまり重要でないため、検索対象から除外した語

  6. 前回の資料補足: データベースのファイル構成(2)–p.29 • シーケンシャル・ファイル(sequential file) –p.31 • シリアル・ファイル、順次編成ファイル、線形ファイル、リニアファイルなどとも呼ばれる • レコード毎に蓄積されたデータ • 検索結果の出力や一度検索した結果を対象に絞込み検索するときに用いられる

  7. データベースの定義 • 著作権法2条十の三 –p.35 • データベース 論文、数値、図形その他の情報の集合物であって、それらの情報を電子計算機を用いて検索することができるように体系的に構成したもの • 日本工業規格(JIS) –p.35 • 適用業務分野で使用するデータの集まりであって、データの特性とそれに対応する実態の間の関係とを記述した概念的な構造によって編成されたもの(X0017) • 特定の規則に従って電子的な形式で、一か所に蓄積されたデータの集合であって、コンピュータでアクセス可能なもの(X0807) • データベース白書2003 –p.35 • 相互に関連のあるデータの集まり。複数のユーザが種々の目的で利用できるよう、検索や更新の効率化が図られたもの。一般的には情報を統合し、コンピュータ処理が可能なファイルの形で蓄積する。

  8. データベースの歴史 • 表7.1データベース発展の歴史 • 配布資料(B4の紙)

  9. データベースの種類(分類) (1) 配布資料(B4)図7.1参照 • 図7.1データベースの分類 • 配布資料(B4の紙) 1)形態別分類–p.39 • データの形態に注目して分類 • 図7.1:データの形態別分類を参照 2)分野別分類 –p.39 • データベースを扱っている主題分野によって分類 • 一般、自然科学・技術、社会・人文科学、ビジネス、その他

  10. データベースの種類(分類) (2) 配布資料(B4)図7.1参照 3)提供形態別分類 –39p. • オンライン • 遠隔地にあるWWW上のデータベースを手元のコンピュータからネットワークを介して利用するもの • オフライン(スタンドアロン) • 手元のコンピュータのみで利用できるもの。CD-ROMやDVDなどで提供されるパッケージ型のデータベースなど。

  11. データベースの種類(分類) (3) 配布資料(B4)図7.1参照 4)用途別分類 —p.39 • データベースの用途に応じて分類 • 商用データベース • 誰でも利用できるが、課金される • インハウス・データベース • 機関内で構築され、利用に制限があるもの • 社内、業界、学術にさらに分類される • パーソナルデータベース • 個人が構築し、個人が利用するもの • オープン • インターネット上に提供され、一部を除いて無料で広く一般に開放されている

  12. データベースの種類(分類)(4) 配布資料(B4)図7.1参照 5)更新頻度別分類 • データベースの更新頻度で分類 • イミディエート • 時々刻々と変化更新されるもの • 株価情報や気象情報などを扱ったデータベース • ヒストリカル • 一か月、3ヶ月などある程度まとまって更新されるもの • 書誌データベースなど

  13. データベースの種類(分類)(5) 配布資料(B4)図7.1参照 6)利用料金別分類 • 利用料金の有無により分類 • 有料 • 商用のデータベース • 無料 • 商用のデータベースであっても、図書館が一括して契約し、利用者自身には料金がかからないものはこちらにあてはまる • インハウスデータベースもこれに該当する場合がある • 機関内であれば無料だが、他者が利用する場合は課金されるなど • 無料のデータベース

  14. データベースの種類(分類)(6)まとめ 配布資料(B4)図7.1参照 • データベースの種類(分類) • 形態別分類 • 提供形態別分類 • 分野別分類 • 用途別分類 • 更新頻度別分類 • 利用料金別分類

  15. データベースの構築 –p.41 • 構築方法 → 文献データベースorそれ以外 • 文献データベース 1.書誌事項確定(文献情報源を識別可に) 2.主題分析 • 抄録作成、索引作成 • 件名標目、分類付与に必要な中心主題を抽出 • データベース利用者の質問後形成と検索に大きな影響をあたえる • システムごとに詳細なマニュアルが用意される

  16. 商用データベースの流通 (1) 配布資料(B4)図7.5参照 • 商用データベースを概観できる資料 —39p. • データベース白書 • データベース台帳総覧 • 1982年(昭和57)9月に創設された制度に基づいて、データベースサービス企業の申告により作成されるもの • データベースの分野別の概要、利用方法などを記載 • データベースのライフサイクル —40p. • 収集・選択・加工(組織化)・蓄積・検索・利用

  17. 商用データベースの流通 (2) 配布資料(B4)図7.5参照 • データベース作成機関 —40p • プロデューサー、プロバイダーと呼ばれる • データベース作成者(機関)のこと • 文献データベースの場合は情報源収集から検索語を付与し蓄積するまでを行う • インテグレーデッド・プロデューサー • 作成からオンライン情報サービスによる提供まで行うもの • 例:科学技術振興機構 • JSTPlusを作成し • JOISで提供している

  18. 商用データベースの流通 (3) 配布資料(B4)図7.5参照 • データベース提供機関 –40p. • ディストリビュータ、ベンダーと呼ばれる • データベース作成機関から委託されたデータを、自社のコンピュータによってサービスを提供する機関

  19. 商用データベースの流通 (4) 配布資料(B4)図7.5参照 • 代理店(agent) –40p. • プロデューサの著作権事務の代行 • ディストリビュータの営業事務の代理を行う • 具体的には • 情報検索の講習会 • 新規データベースの案内 • 検索マニュアルの日本語化

  20. 商用データベースの流通 (5) 配布資料(B4)図7.5参照 • 検索代行業(information broker) –40p • インフォメーション・ブローカーと呼ばれる • 利用者に代わってデータベースを検索し、結果を利用者に提供する機関 • 形態はさまざま • データベース販売代理店が行うなど • 企業や情報センターなどではサーチャー(検索技術者)が検索を行い、検索結果の評価、分析、報告書作成などを代行する

  21. 商用データベースの流通 (6)まとめ 配布資料(B4)図7.5参照 • データベース作成機関 • プロデューサー、プロバイダー • データベース提供機関 • ディストリビューター、ベンダー • 代理店 • 検索代行業 • インフォメーション・ブローカー

  22. 本日のまとめ • データベースの定義 • 著作権法、JIS、データベース白書 • データベースの歴史 • データベースの種類(分類) • 形態別、提供形態別、分野別、用途別、更新頻度別、利用料金別 • データベースの構築 • データベースの流通 • データベース作成機関(プロデューサー、プロバイダー)、データベース提供機関(ディストリビューター、ベンダー)、代理店、検索代行業(インフォメーション・ブローカー) 配布資料(B4)表7.1参照 配布資料(B4)図7.1参照 配布資料(B4)図7.5参照

  23. 第1回レポート課題 • 今日までの3回の講義を1枚(A4)にまとめ17:45までに提出 • 時間内にできるかぎりでかまわない • 手書きでもかまわない • 以下の項目をレポートの冒頭に付けること • レポートのタイトル:第1回レポート課題 • 授業名:情報検索演習 • 提出した日付 • 学籍番号 • 氏名 • 今までの資料 http://amazon.slis.tsukuba.ac.jp/~yuka/lecture/2005/ir/

More Related