150 likes | 265 Views
The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web. Robert Baumgartner*, Nicola Henze+, and Marcus Herzog* *DBAI, Institute of Information Systems, Vienna University of Technology
E N D
The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web Robert Baumgartner*, Nicola Henze+, and Marcus Herzog* *DBAI, Institute of Information Systems, Vienna University of Technology +ISI - Semantic Web Group, University of Hannover 2005/10/6 松岡有希@総研大
概要 • いかにパーソナライズ化したコンテンツ収集をセマンティックwebで実現できるか • 分散している non-uniform Web data をSemantic Web data へ • Personal Reader Framework • Web content Readers を可能にするためのフレームワーク • 複数のサービスコンポーネントから成るオープンアーキテクチャ • Personal Publication Reader • Personal Reader Framework を利用 • ユーザに適したWeb上の論文情報を収集・表示 • Webからの情報抽出 • 実時間で、動的に • パーソナライズ化 • オントロジを利用
Motivation • シナリオ • ピーターは大学で研究者として働いている。ジャーナルや学会で論文を出版し、同時に学会HPに論文をアップロードしている。次から次へと、新しい論文を、所属するプロジェクトに報告しなければならない。プロジェクトではメンバーや活動内容、研究成果について書かれたメンバーページを管理している。 • 質問 • メンバーページのメンテナンス作業を軽減したり、データの重複は避けることはできないのか? • プロジェクト上で役に立つ文脈情報を利用できないのか? • Webページから関連する情報を抽出できないのか? • ユーザがほしい情報を集めることはできないのか?
The Personal Reader Framework • The Personal Web Content Readersを実現 • ユーザが興味を持つwebコンテンツへのアクセス(the Personal part)と表示(the Reader part) • アーキテクチャ • さまざまなvisualization, personalizationサービスから構成 • XML, RDF, JSP, XML-based-RPC • ユーザに適したサービスを選ぶことができる(Plug & Play)
Personal Publication Reader • REWERSE プロジェクトのメンバーのwebサイトから論文情報を取得・表示 • 処理内容 • Webから論文に関する部分を抽出・統合 • Lixto Visual Wrapper, Lixto Transformation Server • オントロジに基づいて推論し、情報をメタデータ化 • ユーザに適した論文データの表示 • visualization, personalizationサービス • 対象ドメイン • REWERSE – Reasoning on the Web (http://rewerse.net/) • EUの支援を受けている • 現メンバーは130人ほど
Web Data Extraction and Integration • Lixto Visual Wrapper • 可視化、インタラクティブといった特徴を持つ、ラッパー*を生成するためのツール • データを抽出している間にさらにドキュメントに対して処理が可能 • ユーザー定義がページの上でもはや満たされない場合、警告される *自動的にデータを抽出したり、データを異なるフォーマットに変換したりするプログラム
Web Data Extraction and Integration • Lixto Transformation Server • いろいろなコンテンツを取得・統合し、適切なフォーマットに変換して、他のシステムへ配信 • 他のWebサービスによって制御・カスタマイズできる • ユーザが統合するコンテンツを決めることができる
Gathering Web Data • Lixto Visual Wrapper を使ってデータを抽出 • Munichさんの例 • Titleはイタリック文字で書かれている • Authorはハイパーリンクで表示されていて、titleの前にある • Linkoppoingさんの場合、ハイパーリンクで表示されているのもあれば、単にカンマで区切られているだけのものも • いろんな種類のフィルターを用意する • Yearは、年ごとの各ページの1行目にある • ラッパーは下記のようなXMLデータを生成
Visual Data Aggregation • Lixto Transformation serverがデータを収集し、RDFに変換し、1週間に1回Personal Publication Reader に配信 • 足りない情報を追加することができる • 例)www.researchindex.comからアブストラクトのデータを貰ってくる
Modeling Domain Knowledge • 論文データから抜粋した情報とREWERSE-Ontologyをマッピング • Semantic Web Research Community Ontology (SWRC) を拡張したもの • “helper” ontology • 著者のフルネームを記述 • F. Bry, Franqis Bry, Prof. F. Bry
Content Syndication and Personalized Views • Personalization はリクエストとルールの結果がマッチするときに実現 • ルールはTRIPLE syntax を採用 • 例)“interest in personalized information systems” • ルールを扱うのは、Personalization server
まとめ • The Personal Publication Reader • Semantic Web でパーソナライズな情報システムを実現