Web からの研究者ネットワークの抽出と利用

Webからの研究者ネットワークの抽出と利用 情報技術研究部門知的コンテンツグループ松尾　豊

発表の内容 • 成果の概要 • 研究内容の説明 • 「Webからの研究者ネットワークの抽出」 • 今後の研究予定、目標

研究成果概要：研究テーマ • 2002年4月入所 • ～2004.7 サイバーアシスト研究センター • ～現在　情報技術研究部門 • 建物内の位置履歴からのユーザモデリングの研究 • 競争的資金： • 総務省戦略的情報通信研究開発推進制度（SCOPE-R）（H15～17）研究代表者 • 臨海副都心センターでの位置情報取得の実験など • 位置の履歴だけから、ユーザの属性をある程度推測することができる • ユビキタス空間における情報提供で重要 • Webからの研究者ネットワーク抽出の研究 • 競争的資金 • 科研費基盤B（H17～19）研究代表者 • NEDO 産業技術研究助成事業「人の社会的関係を考慮した情報提供に関する研究」（H17～19、代表：西村拓一）で主要な研究分担者 • Webから研究者の協働関係を抽出する。Polyphonetシステム

研究成果の概要 • 成果 • 論文：計20件（筆頭9件）の誌上発表、40件以上の国際会議での発表 • 文書処理、Webマイニング、ユーザモデリング、センサデータの解析等 • 人工知能学会論文賞を受賞。 WWW2006やAAAI-06に採択。 • 特許出願：7件（筆頭5件）、3件のプレス発表、新聞報道は10件以上 • 産業との連携 • Web系ビジネスと研究コミュニティをつなぐ橋渡し • 2003年「Blog勉強会」第1回～3回 • 70人以上。アカデミックでは最も早い時期。多くのIT技術者。 • 2005年「Webが生み出す関係構造と社会ネットワーク分析ワークショップ」 • 日本初のSNSのワークショップ。プレスも含め100名以上が参加 • Polyphonet： • 大阪市のロボットラボラトリーでの試験運用。 • 産総研イノベーションズと連携し、各企業への技術移転を進めている。 • 海外との連携 • スタンフォード大学CSLI（言語情報研究センター） • 2006年4月からは、日本学術振興会の海外特別研究員として長期出張

Webからの研究者ネットワークの抽出と利用

Webからの研究者ネットワークの抽出と利用 • 「人」そして「人間関係」の重要性 • ユビキタス環境 • 情報検索、セマンティックオーサリング、セマンティックウェブ：情報の信頼性 • 「行為を決定するのは、行為者を取り囲む関係構造である．」 • 社会ネットワーク分析 • 人同士の社会的関係を記述することは困難 • Web上の情報から研究者のネットワークを抽出する。 • 情報が新しく、多様。今、まさに起こっている関係を捉えられる。 • 好むと好まざるに関わらず、情報が第三者によって記述される。 • 研究者ネットワークの抽出：POLYPHONET • 研究者の協働関係ネットワーク • 融合領域、産学官連携の重要性

研究者ネットワーク

運用実績: POLYPHONET • 人工知能学会全国大会: JSAI2003,2004,2005 • UbiComp2005, WISS2005 • 横浜トリエンナーレ • ロボットラボラトリー（大阪市） • 予定: AAMAS2006, JSAI2006 ※ 実世界指向インタラクションG、国立情報学研究所等と連携 POLYPHONET = POLYPHONY + NETWORK

研究者ネットワークの抽出 • Webマイニング • 情報検索、自然言語処理、機械学習などの技術を組み合わせて、Web上の情報を自動的に加工・処理し、有用な知識を抽出する。 • 処理の流れ • ノード：研究者のリストを与える：名前＋所属　（用意する情報はこれだけ） • エッジ：全ての２人の間の関係の強さを測定 • エッジラベル：関係が強いと判断された２人の間の関係の種類を測定 • 共著 • 研究室：同じ研究室や研究所に所属していた • プロジェクト：同じプロジェクトや委員会に所属していた • 発表：同じ研究会や全国大会で発表した • その他：研究者の「研究キーワード」、２人の間の「関係キーワード」を抽出。研究者を研究分野に自動で分類する。

抽出の方法 例)124件 • メンバーのリスト（名前、所属）は所与 • 検索エンジン（Google）を使って、共起関係の強さを測る。 • Jaccard係数、相互情報量などさまざまな尺度があるが、閾値つきOverlap係数を用いる。 • 例）　 • “松尾豊石塚満”：１２３件　強い • “松尾豊　溝口理一郎”：１１件　弱い • “石塚満”：７９１件 • “溝口理一郎”：８１３件 • 検索されたWebページから、ページの特徴量を抽出し関係を把握。 • 　共著、　研究室、　プロジェクト、　発表 • Simpson係数は、関係の強さを的確に表す。　 • ９割程度の適合率（再現率は２割～５割）：アンケート調査

共起の指標 • Frequency |X∩Y| • Mutual Information log N|X∩Y| / |X||Y| • Dice coefficient 2|X∩Y| / (|X|+|Y|) • Jaccard coefficient |X∩Y| / |X∪Y| • Simpson coefficient |X∩Y| / min(|X|,|Y|) • Cosine |X∩Y| / (√|X||Y|) • We use threshold-based Simpson (overlap) coefficient.

Simpson coefficient Frequency Dice coefficient Jaccard coefficient H-axis: index, V-axis: probability of co-authorship

同姓同名の問題 • “松尾豊”ではなく、“（松尾豊 AND 産業技術総合研究所）” • いろいろなケース • 複数の所属名、過去の所属名：全部ORでつなぐ • 所属名の略称など：機関の略称リストを用意 • 松尾豊 AND (産業技術総合研究所 OR 産総研 OR 東京大学 OR 東京大 OR 東大） • 例えば、“松尾豊”９０３件中２５６件が私。 • この拡張で、２６２件（適合率８６％、再現率９３％）となる • ※ 日本人ではうまくいくが（必ずと言っていいほど、所属＋姓名で書く）、英語名では工夫が必要。実は、表現形と実体を結び付ける奥深い問題。

関係の種類の判別 “X and Y”で検索した上位５件のページを対象属性リスト・２人の氏名の共起回数　　・Simpson係数が閾値以上か・Xの出現回数　・Yの出現回数・｛出版、論文、発表、活動、テーマ、賞、著者｝のいずれかの語がタイトルに含まれるか・｛メンバー、研究室、研究所、研究機関、チーム｝のいずれかの語がタイトルに含まれるか・｛ワークショップ、会議、セミナー、ミーティング、スポンサー、シンポジウム｝のいずれかの語がタイトルにふくまれるか・・・・・｛出版、論文、発表、活動、テーマ、賞、著者｝のいずれかの語が最初の５行に含まれるか・・・ページの特徴属性 (more than one, yes, yes, more than one, more than one, no, no, no, no, no, no, yes, no, no, no, yes, no) 判別ルール NumCo = more_than_one → 共著 NumCo = more_than_one & GroFFive(F)=no　→　研究室 (Rel=yes & GroTitle(E)=no & GroFFIve(C)=no → 研究室・・・・関係のクラス：　共著、研究室、プロジェクト、発表

Polyphonet • 研究者ネットワーク抽出・検索システム Polyphonet • polyphony（多声音楽） + network • 研究者情報の検索、自分とのつながりの検索、調べたい研究者の登録などができる。 • 学会等での運用 • JSAI2003-06 人間関係ネットワーク支援システム • UbiComp05 • Polyphonetレスキュー版 • 神奈川県・レスキューテクノロジーソリューションデータベース • Polyphonetロボット版 • 大阪市・ロボットラボラトリー • Polyphonet 横浜トリエンナーレ版 • Polyphonet WISS2005

Polyphonetに関する研究成果 • 基本的なアルゴリズム[Matsuo03, 松尾05, Matsuo06] • 検索エンジンの負荷を下げる[浅田05] • n^2のクエリー数のオーダをnにする • 研究者の分類をする[浅田06] • 氏名がどのような語と共起するかで専門分野の分類を行う • 研究者のキーワードを抽出する[森05] • 氏名とよく共起する研究に関するキーワードを取得する • 同姓同名の解決[Bollegara06] • 対象となる人物を同定するクエリーを見つける • 中心性の分析[友部05、安田04,05] • 得られたネットワークを分析し、重要な人物の同定、研究成果との相関を調べる • 研究者ネットワーク以外のネットワーク抽出[金06] • 企業間のネットワーク、アーティストネットワーク

横浜トリエンナーレ2005のアーティスト IT・電機系等の企業

関連研究 • Semantic Web • MIT A. McCallumら：WebやEmailからの社会ネットワーク抽出 • アムステルダムFree大 P. Mikaら：WebやFOAFからの社会ネットワーク抽出 • Maryland大学 Tim Fininら： FOAFネットワークの収集・分析 • ドイツKarlsruhe大学 S. Staabら：Web上のテキストパターンを用いたエンティティ間のオントロジの抽出 • 自然言語処理 • Kilgariffら：Web as corpus。検索エンジンを用いた言語処理 • P. Turneyら：検索エンジンを用いた類義語。TOEFLで普通の学生よりもよい結果

今後の研究： 技術的方向性Webからの高次情報のマイニング • 一般の人の日々の活動までWebに載るようになってきた • Blog、掲示板、SNS、検索エンジンの進歩 • 知識：コミュニティ • 常識的な知識を抽出できる可能性： • オントロジの自動獲得、世界知識の獲得、評判の抽出・・・ • 量の変化が質の変化をもたらしている • 検索エンジンよりひとつ高次なレイヤー • 欲しいのは、実世界の情報であって、必ずしも文書ではない。 • 明に現れていない高次情報の抽出、価値の高い情報の提示 • ネットワーク的視点 • 対象の関係性を、総体として捉える。俯瞰を得る。 • 構造のマイニング：企業間ネットワーク、語のネットワーク・・・ • 情報システムにおける社会性 • コミュニティ、SNS、blog、ソーシャルタギング • 人は他人との関係性の中で日常生活を送っている • 社会性をどう情報システムに取り込み利用するか

今後の研究：目標 • 日常生活の場面での情報支援 • Webの情報を整理し、生活の各場面で有用な情報を提供：「社会性」 • アノテーション・オーサリング等の技術との融合 • ロボットやユビキタスといった実世界での情報支援 • 意思決定に必要な情報の収集・統合・整理 • 価値の高い情報の提示：「ネットワーク的視点」 • 情報の意味内容や情報の価値に関する研究 • 産業との連携 • Webは今後もさらに生活に密着し、情報技術において重要性を増す • Web技術における連携 • アカデミックのコミュニティと産業との連携が十分ではない。⇔シリコンバレー • これまでにも意識してきた第２種基礎研究を継続する。 • ロボットやユビキタスの文脈で生きる、日本独自のWeb技術を目指す

おわり

検索エンジンに対する負荷 • 普通にやると・・・ • 氏名リストにn個の氏名があるとすると，共起ページ数の検索に必要なクエリ数はnC2 個（ほぼO(n2)） • overlap係数の分布 • 0  約67% • 0から0.2  約98% ほとんどが弱い関係

着想『浅田洋平』の検索結果の上位ページには、浅田洋平と関係の強い人がほとんど出現している．（そうでない人も含まれる） ⇒上位ページから共起を調べる名前の候補を出す

Web からの 研究者ネットワークの抽出と利用