540 likes | 622 Views
1 2 回目 7/1. 先週の続き ④ Web 情報 の特徴 p27 今週1 2 回目 7/1 Web 情報 の量 検索エンジン p26 Google の利用 課題4の作成 p76 検索式(再確認) 他の検索エンジン カテゴリ検索 p30 情報検索と基礎知識 情報のまとめかた. 8 Web 情報 の特徴. (1) ハイパーリンクによる 原文へ の アクセ ス ( 2) 一次情報と二次情報の 混在 ( 3) 匿名の情報 発信 ( 4) 書誌事項の 欠如 ( 5) 断片的な 内容
E N D
12回目 7/1 • 先週の続き ④ Web情報の特徴 p27 • 今週12回目 7/1 • Web情報の量 • 検索エンジン p26 • Google の利用 • 課題4の作成 p76 • 検索式(再確認) • 他の検索エンジン • カテゴリ検索 p30 • 情報検索と基礎知識 • 情報のまとめかた
8Web情報の特徴 (1) ハイパーリンクによる原文へのアクセス (2) 一次情報と二次情報の混在 (3)匿名の情報発信 (4) 書誌事項の欠如 (5) 断片的な内容 (6) 審査を受けない情報発信 (7)「現時点」の情報 (8) 分類のない(全分野の)情報
(1) ハイパーリンクによる原文へのアクセス • YahooやGoogleなどの検索エンジン • 検索エンジンと原文(Webペー)がネット上に存在する • ハイパーリンクにより検索結果から原文を確認できる • 検索エンジンの利便性が非常に高い • データベース • 原文が印刷物のため、情報検索の結果をもとに、再度図書館などで原文を探し出す必要(図書・雑誌記事)
(2) 一次情報と二次情報の混在 • Web情報は匿名で情報発信が容易 • Web情報は著者が作成した一次情報と、伝聞情報である二次情報が混在する • 原文であるWebページを閲覧できても、著者が自ら創作した一次情報とは限らない • Web情報の活用にあたっては慎重な扱いが求められる • 伝聞情報や不正確な情報の割合が高い • 有料のデータベースの原文は全て雑誌記事などの一次情報である。
(3)匿名の情報発信 • Web情報では著者名が記述されない場合が多い • 情報の内容に責任をもつ人を特定できない情報が多くなる • 著者に関する記載があっても現実社会における実態と一致しない場合も多い • 匿名情報がWeb情報の信頼性低下につながる • 情報は人により創造される • 著者が明示されることは情報の内容についての責任の所在が明らかにされることになる • Web情報の活用にあたって著者や所属に関する情報が記載されているか確認する必要がある • 有料データベース • 書誌事項の一部として著者や所属は必ず明示されている
(4) 書誌事項の欠如 • 検索エンジン • データベースの書誌事項がない • 表題 • 著者 • 出版者 • 出版年 • 分類 • 著者・出版年が確認できない情報が多いことを認識したうえでWeb情報を活用する • 一般のデータベース • 検索データとして書誌事項が整備されているのは必須の要件である。
(5) 断片的な内容 • Web情報 • サイト毎ではなく1ページ単位で構成されている。 • 1ページに1000文字を超える文章が記述されるようなページは少ない。 • 印刷物 • 雑誌記事情報 • 1つの話題について2000字から20000字程度の文章からなる • 図書情報 • 数万字からなる • 印刷情報に比べるとWeb情報の内容は断片的 • まとまりのある知識や情報をWebページから得ることは困難 • 簡単な情報やデータを得るには問題ない
(6) 審査を受けない情報発信 • Web情報 • 著者自身の判断に従って発信される情報が多い(ブログ) • 他人によるチェックが無いため、信頼性の低い情報が混在 • 二次情報も混在する可能性が高い • Web情報の信頼性を判断する材料 • ページ作成者、サイト管理者などが特定できること • 比較的信頼性の高いドメイン • go.jp, ac.jp, co.jpドメイン、gov, eduドメイン • 有料のデータベース • 出版社や査読者による事前審査をうけて発信される情報
(7) 「現時点」の情報 • Web情報の出版年月日 • 基本的に現時点における最新情報 • 「現時点」の情報が主体となっているので遡及検索に対応できない (8) 全分野の情報 • Webのページの情報は全ての分野の情報 • 検索エンジンの検索結果にはあらゆる分野の情報が表示される • 有料のデータベースではデータベース毎に扱う情報の分野は限定されている
12回目 7/1①Web情報の量 サーバ数とドメイン数 https://www.isc.org/services/survey/ インターネットのホスト数2012 年全世界で888,239,420台 サーバ数とドメイン数 インターネットのホスト数2012 年全世界で888,239,420台 図9Internet Systems Consortium, Inc.のInternet Domain Survey http://www.isc.org/solutions/survey
第一水準のドメインwww.nuis.ac.jp • 1位.Net 319,311,234 (286276469, 253,853,098/204,683,342/190,267,719)台 • 2位 .com 156,860,679 (151953306 • 142,526,322/ 123,324,475/95,448,209)台、 • 3位 .jp 63,465,680 ( 59,968,541 • 52,081,808 / 43,461,277/36,803,719)台 • 日本語情報 • 国別ドメインは.jp(日本)が第1位 • 全ホスト888,239,420中で占める割合は 7.14 (7.32/7.10/6.95/6.79)% 2012年 • .net, .com, .eduのWebサーバはアメリカの情報 • 日本語より多い英語情報がWeb情報として流通 • 本格的な情報検索では英語情報も必要
Web情報検索で信頼性の高いドメイン • https://www.nic.ad.jp/ja/dom/system.html • 情報発が明示されている公共性の高いサイト • gov • edu • co.jp • ac.jp • go.jp
TLDとjpドメイン • https://www.nic.ad.jp/ja/dom/types.html • gTLD • gov • edu • org • int • JPドメイン名の分類 • AC.JP • CO.JP • GO.JP • OR.JP
ページ数 • Webページ • Google(2008年) • 1,000,000,000,000ページを集めたと報告 • その後総ページ数の公表は中止 • Cuil(2010/4/20現在) • 1,270億web pages検索可能 • cuilは2010年9月にサービスを終了 • Googleの件数 2012/5/07 • A 約25,270,000,000 件 • あ約 557,000,000 件 (あ/a=2.2%) • 総ページ数の表示が停止 • データベースの処理能力の限界
②検索エンジン • 表11:基本機能を持った検索エンジ • 論理式を使った検索機能 • 検索結果の件数表示機能 • 日本語はgoogleに統一
検索エンジン5-1-2 「3種類の機能を含んだシステム」 • インターネットで公開されているWebページを対象とした情報検索システムで、データベースではなくSearch Engineと呼ばれる 1. Spiders クモ • リンクをたどって新しいページを探し出す機能 • 2. Index • 探し出したページを読み込み検索に必要なインデックスを作成する機能 3. Search • 検索を実行しウエート付けを行い結果を表示する機能
Spiders新しいページを探し出す機能 • a spider('s) web クモの巣 • www: world wide web • ロボット • Web情報収集ソフトがWebサイトを巡回して情報を収集する • 人の代わりに作業を行う機械的ロボットと同じ概念 • 機械的ロボットと区別するためコンピュータロボットはbotとも呼ばれる。 • データベースの概念との違い • 新しいページを探し出す機能(spiders)は,通常のデータベースの概念に含まれない
Index索引インデックスを作成する機能 • 索引 • ある書物の中の語句や事項などを、容易に探し出せるように抽出して一定の順序に配列し、その所在を示した表。大辞泉 • キーワード(テキスト)でインデックスを作成 • 検索は一般のデータベース同様にテキスト • データはテキスト、画像、映像など多様 • 書誌事項が存在しない • HTMLタグを利用 • 書誌事項とみなしインデックスを作成 • title • bodyなど
GoogleのIndex • 検索結果から推定(2010/4/23現在) • 見出し • Webページの<TITLE>部分 • <meta name=“Description” content= >部分を使用 • 抄録 • <body>部分の検索キーワードが含まれる前後約130字(日本語, スペースを含む)が表示される • 出典部分 • WebページのURL • 著者 • 相当するインデックスは無い
Search 検索検索を実行しウエート付けを行い結果を表示する機能Search 検索検索を実行しウエート付けを行い結果を表示する機能 • 検索結果にウエート付けを行う • 利用価値の高いと思われる順にWebページを表示 • Googleのウエート付け P31 • 言語 • 検索エンジンは多言語に対応している • 同じ検索エンジンで英語情報検索も可能 • 同じ検索式を使っても検索結果が異なる • 情報を探し出す機能(spiders)、インデックスを作成する機能(index)、結果を表示する機能(search)は、それぞれ検索エンジン毎に特徴を有する • Retrieve は使用されない • リンクの機能が対応
検索エンジンの公正さ • 広告収入により商業ベースで運営 • 利用者に費用負担は生じない • 中立な情報ではない • 情報の扱いに偏りが出る可能性が存在する • 恣意的な検索結果となる可能性が存在する • Web利用の前提 • 検索エンジンを使用する場合公正な結果ではない可能性があることを意識して利用する必要 • 複数の検索エンジンの使用 • 個々の検索エンジンの偏りを正すためにも有効である。
③ Google の利用5-4 • 【日本語】Google 69)www.google.co.jp (2010/04/23現在) • 1996年から活動を開始した • 日本では日本語サービスが充実してきた2002年ごろから認知される • PageRankTMのコンセプト • 「多くの良質なページからリンクされているページは、やはり良質なページである」 • リンクが多く張られているWebページを結果の上位に出力した • Google登場以前の検索エンジンと比べると、Googleの検索結果は検索者の求める順序と良く一致するようになった • 10億ページを越す収集件数を初めて実現した
サービス開始当時のウエート付け • ①リンクが張られている数(バックリンクの数,link juice) • ②リンクが張られているときの説明文(アンカーテキスト) • ③Webページ内のキーワード • ④ドメインの信頼性 • 現在 • ④のウエートを高くし、④、②、③、①の順でWebページがウエート付けされている • 当初重視された①バックリンクのウエートは低くなる • ④ドメインの信頼性が最も重要視されるようになっている
問題5-3 • 環境 破壊 OR 汚染 • 環境 破壊 OR 汚染 世界遺産 OR 自然遺産 • 環境 破壊 |汚染 世界遺産 | 自然遺産
【英語】Google 68) • www.google.com (2010/04/23現在) • 英語で検索する場合は、www.google.comで英語のキーワードを使って日本語と同様に検索する • www.google.comとwww.google.co.jpの検索結果は異なる • 検索対象となるもとの情報の集合は同じであるが、結果を表示するアルゴリズムが異なると推定される • 最も多くの件数が該当する「a」の検索件数 • About 25,310,000,000 results • 約 25,310,000,000 件 で一致する • (2011/1/30現在) • 2年前から件数は増えていない
接続方法 • http://www.google.com/ncr で接続する。 • [Google.com in English] で接続(不完全) • Google.com usaで検索し、キャッシュから入る(2012/5/14) • 無意識のうちに情報がコントロールされている
Censorship by Google 検閲 • Googleの基準により、情報が検索対象からはずされる、検索しても対象になっていないこと • 偏りの認識の必要 • 提供された環境を単に利用しているすぎないこと • 情報が常に公平に扱われている訳ではないこと • 、
結果として情報が公正に扱われない場合 • 国内からgoogle.comの検索ができなくなる • 2009/05/04時点でhttp://www.google.comに接続すると、自動的にhttp://www.google.co.jpに切り替わり、www.google.comは表示できなかった。 • Google.com in Englishも表示されなくなっていたが、2010/04/24時点で再び表示されようになった • www.google.com/ncrでないと表示されない。2013/7/1
④課題4の作成 • 提出ページの確認
⑤検索式 • 回答144 • 全問正解です • 15 • 回答の一部に間違いが認められました • 26 • 回答が不完全です • 課題が正確に実行できない • 103 • 先週の回答
アルバイト募集 • 卒論DB • 2012年度のUP用データの整備 • 850円/時間 10~20時間程度 • 1-2名
⑥他の検索エンジンとカテゴリ検索 • Yahoo • goo • ASK • Bing
Yahooによる情報検索【日本語】 5-5 • Yahoo!Japan94)www.yahoo.co.jp(2010/04/22現在) • 1994年にアメリカでYahooが設立 • 当初はキーワード方式よりカテゴリ方式が主体 • 1996年にYahoo Japnanが設立 • 日本語サービスが開始された。国別に現地化されたサイトからサービスが提供されている • 現在に至るまで日本国内において最も利用頻度の高いポータルサイト • 日本においてグーグルと提携(2010/7/27現在) • 日本の検索サイトはgoogoleの検索結果と類似の結果を表示するようになった(2010/12/26現在)が、その後修正が行われている
Yahooによる情報検索【英語】 • Yahoo! • www.yahoo.com (2010/04/22現在) • 日本語同様に1回目の検索を実行すると検索結果が表示され、検索ボタンの隣に「options」が表示される • 「options」をクリックし「Advanced Search」を選択すると論理式を使った検索が可能な検索画面が表示される
goo 【日本語】 • http://www.goo.ne.jp/(2010/04/24現在) • NTTレゾナントが運営するポータルサイト • 検索オプションを示す。 • トップページの検索ボタンの右上にある検索オプションをクリックすると表示される • OR検索, AND検索, NOT検索, フレーズ検索に対応している。 • 文章で検索する(自然文検索機能) • 文章からキーワードを切り出して検索する機能 • カテゴリ検索機能も有する
ASK 【日本語・英語】 • http://www.ask.com/ (2010/04/24現在) • Advanced Search • トップページの検索窓の下のAdvanced をクリックすると論理演算子による検索が可能なAdvanced Searchのページが表示される。 • AND検索、フレーズ検索、OR検索、NOT検索に対応 • Location of words • ページ全体(Anywhere on the page)、タイトル(in page title)とURL(in URL)を検索対象範囲に指定できる • 日本語も英語も同様に実行できる。
Bing • Japan http://jp.msn.com/(2010/04/24現在) • 4大検索エンジン • Google • Yahoo! • Ask • Bing (MSN Search) • 演算子による検索 • 対応していない
⑦カテゴリ検索 • カテゴリ方式による検索 • 予め提示されたカテゴリと呼ばれる項目リストから必要な情報を順に選択する • 初期の有力な検索手段 • キーワード方式の検索エンジンは検索結果のウエート付け機能が不十分で使いづらかった • 現在も一般的な課題で信頼性のあるサイトを探すのに有用
5-3-2 カテゴリ方式の検索 • カテゴリ • 情報の内容を大項目、中項目、小項目のように階層的に分類したリスト • カテゴリ項目は情報量に応じて構成され階層の数は固定されていない • キーワード方式と異なり人がカテゴリに分けている • カテゴリ検索 • 順にたどることにより的確なキーワードを知らなくてもWebサイトを検索できる • 単純な概念だけで検索できる場合には便利で有用な検索手段となる • 概念を組み合わせる必要のある課題の検索には不向き
5-6 Yahoo!カテゴリによる情報検索 (日本語) • 検索エンジンの先駆け • Yahooはこのカテゴリ方式が始まり • Googleをはじめとするキーワード方式の検索エンジンの機能の向上により利用頻度減少 • 登録サイト • サイトをロボットではなく人(サーファー)が選定している • 多くの人にとって利用価値があるとYahooの担当者が判断したサイト • 一般的で信頼性のある情報を探す場合に有効 • Yahoo! Directory • 大分類はYahoo!カテゴリと同じだが内容は異なる
Yahoo!カテゴリhttp://dir.yahoo.co.jp/(2010/04/24現在)Yahoo!カテゴリhttp://dir.yahoo.co.jp/(2010/04/24現在) • エンターテインメントから始まる14の大カテゴリ • サービス開始時点から同一 • 下位のカテゴリを順に選択(クリック)すると、最後にYahooの登録サイトが表示される。 • 登録サイトをクリックすると登録サイトのぺージが表示される • カテゴリの検索 • 「Yahoo!カテゴリ全体」を指定してキーワード検索を実行すると、目的とする情報が含まれるカテゴリを検索できる • カテゴリを探す検索は基本的に1キーワードで実行する
5-6 Yahoo! Directory による情報検索【英語】 • http://dir.yahoo.com/ (2010/04/24現在) • 使用方法は日本のYahoo!カテゴリと同じ • 登録サイトはYahoo!カテゴリと全く異なる • Yahoo! Directoryの大分類 • Yahoo!カテゴリと同じ14分類である • 大分類以下のカテゴリリストは大きく異なる • 14分類以外に、News AdditionalとThe Spark Blogが2010年より追加 • 日本とアメリカのリスト比較 • 日本とアメリカで興味を持たれている情報の違いを比較できる
⑧情報検索と基礎知識 • 業務のための情報収集 • 検索課題に関する基礎知識は日常業務を通して習得 • 目的や目標、キーワードも明らかな場合が多い • 大学などの学習の場における情報収集 • 新しい知識を得ること自体が目的 • 事前にある程度基礎知識を得る必要 • 基礎知識は情報収集の全ての段階で必要 • キーワードの選択、 • 情報収集の目的と目標の設定 • 専門的な情報の理解 • 情報の評価
基礎知識の取得 • Web情報による予備調査 • 検索エンジンでWeb情報を検索し概要を把握する • ドメイン名go.jp, gov, ac.jpなどのサイトを利用 • Web情報から得ることが困難な基礎知識 • 幅広い範囲を対象とする基礎知識 • 断片的なWeb情報から得ることは困難 • 図書の利用 • 入門書など • 雑誌の利用 • 百科事典の利用
⑨情報のまとめかた(再確認)2-6 • 活用できるようにまとめる • 情報を羅列するだけでは役にたたない • 情報をまとめる • 情報の内容を個別に理解する • 情報を全体的に整理、要約、分析する • 自分で考える • 収集した情報に基づいて内容をまとめる • まとめた内容と、自己の知識と併せて評価を行う
表6情報をまとめた良い表現と悪い表現例 • ×「~について記載されていた」 • 「ついて」という表現は得られた情報の内容を何も表現していないに等しい • 具体的な内容を示す、事実や、数値データなどを使用して概要を記述することが必要 • 目的や目標の達成に役立つまとめ • 情報検索を行う前に目的や目標を設定 • 設定した目的と目標を意識してまとめる
練習問題 • Web情報を利用する場合に注意すること • 検索エンジンについて理解できたこと • 検索式について新たに理解ができたこと
問題5-1Web情報検索 • 問題5-1 • 図16に示すGoogle の検索条件を、論理演算子を使った検索式に変換し、何を検索しているか答えなさい。 すべてのキーワードを含む フレーズを含む いずれかのキーワードを含 キーワードを含めない