690 likes | 778 Views
Web からの 研究者ネットワークの抽出と利用. 情報技術研究部門 知的コンテンツグループ 松尾 豊. 発表の内容. 成果の概要 研究内容の説明 「 Web からの研究者ネットワークの抽出」 今後の研究予定、目標. 研究成果概要:研究テーマ. 2002 年 4 月入所 ~ 2004.7 サイバーアシスト研究センター ~現在 情報技術研究部門 建物内の位置履歴からのユーザモデリングの研究 競争的資金: 総務省 戦略的情報通信研究開発推進制度( SCOPE-R )( H15 ~ 17 )研究代表者 臨海副都心センターでの位置情報取得の実験など
E N D
Webからの研究者ネットワークの抽出と利用 情報技術研究部門 知的コンテンツグループ 松尾 豊
発表の内容 • 成果の概要 • 研究内容の説明 • 「Webからの研究者ネットワークの抽出」 • 今後の研究予定、目標
研究成果概要:研究テーマ • 2002年4月入所 • ~2004.7 サイバーアシスト研究センター • ~現在 情報技術研究部門 • 建物内の位置履歴からのユーザモデリングの研究 • 競争的資金: • 総務省 戦略的情報通信研究開発推進制度(SCOPE-R)(H15~17)研究代表者 • 臨海副都心センターでの位置情報取得の実験など • 位置の履歴だけから、ユーザの属性をある程度推測することができる • ユビキタス空間における情報提供で重要 • Webからの研究者ネットワーク抽出の研究 • 競争的資金 • 科研費基盤B(H17~19)研究代表者 • NEDO 産業技術研究助成事業「人の社会的関係を考慮した情報提供に関する研究」 (H17~19、代表:西村 拓一)で主要な研究分担者 • Webから研究者の協働関係を抽出する。Polyphonetシステム
研究成果の概要 • 成果 • 論文:計20件(筆頭9件)の誌上発表、40件以上の国際会議での発表 • 文書処理、Webマイニング、ユーザモデリング、センサデータの解析等 • 人工知能学会論文賞を受賞。 WWW2006やAAAI-06に採択。 • 特許出願:7件(筆頭5件)、3件のプレス発表、新聞報道は10件以上 • 産業との連携 • Web系ビジネスと研究コミュニティをつなぐ橋渡し • 2003年「Blog勉強会」第1回~3回 • 70人以上。アカデミックでは最も早い時期。多くのIT技術者。 • 2005年「Webが生み出す関係構造と社会ネットワーク分析ワークショップ」 • 日本初のSNSのワークショップ。プレスも含め100名以上が参加 • Polyphonet: • 大阪市のロボットラボラトリーでの試験運用。 • 産総研イノベーションズと連携し、各企業への技術移転を進めている。 • 海外との連携 • スタンフォード大学CSLI(言語情報研究センター) • 2006年4月からは、日本学術振興会の海外特別研究員として長期出張
Webからの研究者ネットワークの抽出と利用 • 「人」そして「人間関係」の重要性 • ユビキタス環境 • 情報検索、セマンティックオーサリング、セマンティックウェブ:情報の信頼性 • 「行為を決定するのは、行為者を取り囲む関係構造である.」 • 社会ネットワーク分析 • 人同士の社会的関係を記述することは困難 • Web上の情報から研究者のネットワークを抽出する。 • 情報が新しく、多様。今、まさに起こっている関係を捉えられる。 • 好むと好まざるに関わらず、情報が第三者によって記述される。 • 研究者ネットワークの抽出:POLYPHONET • 研究者の協働関係ネットワーク • 融合領域、産学官連携の重要性
運用実績: POLYPHONET • 人工知能学会全国大会: JSAI2003,2004,2005 • UbiComp2005, WISS2005 • 横浜トリエンナーレ • ロボットラボラトリー(大阪市) • 予定: AAMAS2006, JSAI2006 ※ 実世界指向インタラクションG、国立情報学研究所等と連携 POLYPHONET = POLYPHONY + NETWORK
研究者ネットワークの抽出 • Webマイニング • 情報検索、自然言語処理、機械学習などの技術を組み合わせて、Web上の情報を自動的に加工・処理し、有用な知識を抽出する。 • 処理の流れ • ノード:研究者のリストを与える:名前+所属 (用意する情報はこれだけ) • エッジ:全ての2人の間の関係の強さを測定 • エッジラベル:関係が強いと判断された2人の間の関係の種類を測定 • 共著 • 研究室:同じ研究室や研究所に所属していた • プロジェクト:同じプロジェクトや委員会に所属していた • 発表:同じ研究会や全国大会で発表した • その他:研究者の「研究キーワード」、2人の間の「関係キーワード」を抽出。研究者を研究分野に自動で分類する。
抽出の方法 例)124件 • メンバーのリスト(名前、所属)は所与 • 検索エンジン(Google)を使って、共起関係の強さを測る。 • Jaccard係数、相互情報量などさまざまな尺度があるが、閾値つきOverlap係数を用いる。 • 例) • “松尾豊 石塚満”:123件 強い • “松尾豊 溝口理一郎”:11件 弱い • “石塚満”:791件 • “溝口理一郎”:813件 • 検索されたWebページから、ページの特徴量を抽出し関係を把握。 • 共著、 研究室、 プロジェクト、 発表 • Simpson係数は、関係の強さを的確に表す。 • 9割程度の適合率(再現率は2割~5割):アンケート調査
共起の指標 • Frequency |X∩Y| • Mutual Information log N|X∩Y| / |X||Y| • Dice coefficient 2|X∩Y| / (|X|+|Y|) • Jaccard coefficient |X∩Y| / |X∪Y| • Simpson coefficient |X∩Y| / min(|X|,|Y|) • Cosine |X∩Y| / (√|X||Y|) • We use threshold-based Simpson (overlap) coefficient.
Simpson coefficient Frequency Dice coefficient Jaccard coefficient H-axis: index, V-axis: probability of co-authorship
同姓同名の問題 • “松尾豊”ではなく、“(松尾豊 AND 産業技術総合研究所)” • いろいろなケース • 複数の所属名、過去の所属名:全部ORでつなぐ • 所属名の略称など:機関の略称リストを用意 • 松尾豊 AND (産業技術総合研究所 OR 産総研 OR 東京大学 OR 東京大 OR 東大) • 例えば、“松尾豊”903件中256件が私。 • この拡張で、262件(適合率86%、再現率93%)となる • ※ 日本人ではうまくいくが(必ずと言っていいほど、所属+姓名で書く)、英語名では工夫が必要。実は、表現形と実体を結び付ける奥深い問題。
関係の種類の判別 “X and Y”で検索した上位5件のページを対象 属性リスト ・2人の氏名の共起回数 ・Simpson係数が閾値以上か ・Xの出現回数 ・Yの出現回数・{出版、論文、発表、活動、テーマ、賞、著者}のいずれかの語がタイトルに含まれるか ・{メンバー、研究室、研究所、研究機関、チーム}のいずれかの語がタイトルに含まれるか ・{ワークショップ、会議、セミナー、ミーティング、スポンサー、シンポジウム}のいずれかの語がタイトルにふくまれるか ・・・・ ・{出版、論文、発表、活動、テーマ、賞、著者}のいずれかの語が最初の5行に含まれるか ・・・ ページの特徴属性 (more than one, yes, yes, more than one, more than one, no, no, no, no, no, no, yes, no, no, no, yes, no) 判別ルール NumCo = more_than_one → 共著 NumCo = more_than_one & GroFFive(F)=no → 研究室 (Rel=yes & GroTitle(E)=no & GroFFIve(C)=no → 研究室 ・・・・ 関係のクラス: 共著、研究室、プロジェクト、発表
Polyphonet • 研究者ネットワーク抽出・検索システム Polyphonet • polyphony(多声音楽) + network • 研究者情報の検索、自分とのつながりの検索、調べたい研究者の登録などができる。 • 学会等での運用 • JSAI2003-06 人間関係ネットワーク支援システム • UbiComp05 • Polyphonetレスキュー版 • 神奈川県・レスキューテクノロジーソリューションデータベース • Polyphonetロボット版 • 大阪市・ロボットラボラトリー • Polyphonet 横浜トリエンナーレ版 • Polyphonet WISS2005
Polyphonetに関する研究成果 • 基本的なアルゴリズム[Matsuo03, 松尾05, Matsuo06] • 検索エンジンの負荷を下げる[浅田05] • n^2のクエリー数のオーダをnにする • 研究者の分類をする[浅田06] • 氏名がどのような語と共起するかで専門分野の分類を行う • 研究者のキーワードを抽出する[森05] • 氏名とよく共起する研究に関するキーワードを取得する • 同姓同名の解決[Bollegara06] • 対象となる人物を同定するクエリーを見つける • 中心性の分析[友部05、安田04,05] • 得られたネットワークを分析し、重要な人物の同定、研究成果との相関を調べる • 研究者ネットワーク以外のネットワーク抽出[金06] • 企業間のネットワーク、アーティストネットワーク
横浜トリエンナーレ2005のアーティスト IT・電機系等の企業
関連研究 • Semantic Web • MIT A. McCallumら:WebやEmailからの社会ネットワーク抽出 • アムステルダムFree大 P. Mikaら:WebやFOAFからの社会ネットワーク抽出 • Maryland大学 Tim Fininら: FOAFネットワークの収集・分析 • ドイツKarlsruhe大学 S. Staabら:Web上のテキストパターンを用いたエンティティ間のオントロジの抽出 • 自然言語処理 • Kilgariffら:Web as corpus。検索エンジンを用いた言語処理 • P. Turneyら:検索エンジンを用いた類義語。TOEFLで普通の学生よりもよい結果
今後の研究: 技術的方向性Webからの高次情報のマイニング • 一般の人の日々の活動までWebに載るようになってきた • Blog、掲示板、SNS、検索エンジンの進歩 • 知識:コミュニティ • 常識的な知識を抽出できる可能性: • オントロジの自動獲得、世界知識の獲得、評判の抽出・・・ • 量の変化が質の変化をもたらしている • 検索エンジンよりひとつ高次なレイヤー • 欲しいのは、実世界の情報であって、必ずしも文書ではない。 • 明に現れていない高次情報の抽出、価値の高い情報の提示 • ネットワーク的視点 • 対象の関係性を、総体として捉える。俯瞰を得る。 • 構造のマイニング:企業間ネットワーク、語のネットワーク・・・ • 情報システムにおける社会性 • コミュニティ、SNS、blog、ソーシャルタギング • 人は他人との関係性の中で日常生活を送っている • 社会性をどう情報システムに取り込み利用するか
今後の研究:目標 • 日常生活の場面での情報支援 • Webの情報を整理し、生活の各場面で有用な情報を提供:「社会性」 • アノテーション・オーサリング等の技術との融合 • ロボットやユビキタスといった実世界での情報支援 • 意思決定に必要な情報の収集・統合・整理 • 価値の高い情報の提示:「ネットワーク的視点」 • 情報の意味内容や情報の価値に関する研究 • 産業との連携 • Webは今後もさらに生活に密着し、情報技術において重要性を増す • Web技術における連携 • アカデミックのコミュニティと産業との連携が十分ではない。⇔シリコンバレー • これまでにも意識してきた第2種基礎研究を継続する。 • ロボットやユビキタスの文脈で生きる、日本独自のWeb技術を目指す
検索エンジンに対する負荷 • 普通にやると・・・ • 氏名リストにn個の氏名があるとすると,共起ページ数の検索に必要なクエリ数はnC2 個(ほぼO(n2)) • overlap係数の分布 • 0 約67% • 0から0.2 約98% ほとんどが弱い関係
着想 『浅田洋平』の検索結果の上位ページには、浅田洋平と関係の強い人がほとんど出現している.(そうでない人も含まれる) ⇒上位ページから共起を調べる名前の候補を出す