未來網路上的知識運籌 - 語意網、本體論與詞彙網路

未來網路上的知識運籌- 語意網、本體論與詞彙網路語意網（ Semantic Web ）本體論（Ontology）詞彙網路（WordNet）

演說綱要 • 語意網的概念與發展 • 從語意網的發展談到需要本體論 • 由本體論談到外相需要用語言來表達 • 論述語言如何表達知識

何謂語意網？ Semantic Web 一種新的網路內容形式，能讓電腦理解其中的語意，勢必帶來新一波網路革命！

語意網將成為下一代的網際網路 Berners-Lee, Tim, James Hendler and Ora Lassila. The Semantic Web. Scientific American. August 2001. http://www.sciam.com 本文的主要作者伯納李正是網際網路的發明人。他對網路未來發展的宣告不可忽視。

從「全球資訊網」到「語意網」 全球資訊網…仍只是人們交換文件的載體，其中的資訊是機器不能自動運用的。如果我們針對電腦，增加專門提供給電腦閱讀的網頁，我們就可把現有的網路轉換成「語意網」。

語意網路並不是一種新的網路，它是在現有的網路環境上使用一套有完善表達能力的語言來描述資源，以便機器可判讀與瞭解，進而協助人類進行網頁內容與服務管理的技術。語意網路並不是一種新的網路，它是在現有的網路環境上使用一套有完善表達能力的語言來描述資源，以便機器可判讀與瞭解，進而協助人類進行網頁內容與服務管理的技術。

語意網路是資訊連接的網路，它可以讓機器處理大量的資訊，可以被想像成一種在網際網路上表示資料的有效方式或是通用可鏈結的資料庫。語意網路是資訊連接的網路，它可以讓機器處理大量的資訊，可以被想像成一種在網際網路上表示資料的有效方式或是通用可鏈結的資料庫。 http://www.semanticweb.org

電腦如何閱讀語意？ • 利用RDF（資源描述架構, 描述網頁裡的知識內容）與URI（通用資源標誌碼,例如: HTTP 的位址）連結到相關網頁/資源 • 藉超連結找到關鍵詞 • 藉知識本體(Ontology)定義關鍵詞，並做邏輯推理

語意網路的表示方式 目前W3C正積極的發展相關的標準格式，如：RDF、OWL等，這些都是以XML撰寫以便於內容能在不同平台與系統之間交換，協助機器瞭解及處理網頁內容。 http://www.w3.org/2001/sw

XML (Extensible Markup Language) • W3C於1998年公開的標準，其獲得許多軟體工業市場領導者的公開支持與發展。 • 類似HTML，利用標籤來定義資料。不同於HTML的是，XML著重在如何描述文件的內容，而不像HTML將重點定位在如何展示一份文件。 • 使用者可以定義自己認為有意義的標籤， • 具備多項適於資訊自動化轉換、整合、查詢與處理的特性，比其他語言更適合資訊整合與轉換等應用。 • 對於資源關係描述的能力十分的貧乏，所定義語法階層的表示法，適用於簡單的資料結構，對於複雜的知識表示能力上尚嫌不足。

RDF/RDFS • 為了能夠加強資料的處理性，所以W3C 發展了資源描述架構( Resource Description Framework，簡稱RDF ) 。 • 為Metadata 在Web 上的各種應用提供一個基礎架構，使應用程式之間能夠在Web上交換Metadata。 • RDF有三個主要的資料模組：分別是來源、屬性、敘述。 • 來源(Resources)：資料來源。 • 屬性(Properties)：屬性可以是來源的觀點、特徵或是關係。每個屬性都有一個意義，定義許可的值。描述來源的型別和其他屬性的關係。 • 敘述(Statements)：敘述的語句以RDF的格式表示。敘述被分成三個部分，分別是Subject、Predicate和Object。Subject可以表示來源，Predicate可以表示屬性，Object可以是文字或是其他的來源。

RDF/RDFS(續) • RDF Schema 提出了抽象世界中主要關係，而建立了類別系統，從而支援了從客觀世界到抽象世界的映射，也成了知識分享的基礎。 • 屬性就是資源間的關係，其中包含類別、限制的概念、屬性從屬的概念，這樣就可以基於RDF Schema 為某個領域定義出自己的Schema。

RDF/RDFS(續) 然而RDF對於知識的表示能力上仍有所限制，缺乏支援變數(Variables)、一般性定量(General Quantification)和規則(Rules)的功能。

OWL (Web Ontology Language) • 延伸自XML、RDF 以及RDFS，主要的功能是用來定義Web Ontologies 以及Ontologies 的相關知識基礎。 • OWL 的應用是不限領域的，而且允許資源可明確的描述反推(Negative Information)。 • OWL提供了三種表達能力遞增的子語言(OWL Lite、OWL DL與OWL Full )，以分別用於特定領域內社群或實作者。在表達能力和推理能力上，每個子語言都是前面的語言的延伸。因此使用OWL的本體開發者要考慮哪種子語言最符合他們的需求。

OWL Lite：用於提供那些只需要一個類別層次和簡單約束的使用者。提供支持OWL Lite的工具應該比支持表達能力更強的其他OWL語言更簡單，且可迅速地將辭典（Thesauri）和分類系統（Taxonomy）轉換成OWL Lite的表達方式。 • OWL DL：提供那些需要最強表達能力的推理系統之使用者，而且這個推理系統能夠保證計算的完整性（即所有的結論都能夠保證被計算出來）和可決定性（即所有的計算都在有限的時間內完成）。它包括了OWL語言的所有結構(但是有一定的限制) ，主要支持具有描述邏輯商業處理和良好計算性質的推論系統。 • OWL Full：支持那些需要儘管沒有可計算性保證，但有最強的表達能力和完全自由的RDF語法的使用者。它允許一個本體(Ontology)增加預先定義的(RDF、OWL)詞彙的意義。

本體論(Ontology) 每一個網頁，每一個資源上面要有一個自己定義的Ontology，就是知識本體。在任一個網頁裡面，每一個詞的定義是什麼，代表的知識範圍與架構是什麼，就是這個網頁的知識本體要告訴你的。 • 對任一網頁/資源知識內容及資訊架構的描述與定義 • 以RDF（或類似語言）寫成的文件，清楚定義概念間的關係和推理的邏輯規則 ☆ 請注意資訊學中把ONTOLOGY當成知識/訊息的基底架構；與哲學中本體論的原定義大不相同。

本體論是將事物做分類與描述事物之間的關係，以結構化的方式表達知識。本體論是將事物做分類與描述事物之間的關係，以結構化的方式表達知識。 • 本體論清楚定義了知識領域基本的辭彙(Term)和包含了某個主題字彙(vocabulary)之間的關係，以便於敘述知識、知識的推論與知識的重複使用。 • 在人工智慧(Artificial Intelligent)的領域上對於本體論的使用，主要是為了知識庫的建構。

怎麼描述完整的知識呢？ • 要告訴機器，所有在這個網頁或在這個資源裡面，有哪些概念或全部的概念放進來。電腦如何在概念與概念之間進行邏輯推理？有些什麼規律？有哪些邏輯關係存在？ • 這是要給它的一個知識本體。

語意網的關鍵就是，每個網路資源的知識本體裡，需要二個東西：語意網的關鍵就是，每個網路資源的知識本體裡，需要二個東西： • 網頁資源裡面所有的概念 • 跟所有概念之間的邏輯推理關係。把所有的概念找出來，把所有的邏輯推理關係連結架構出來，就是一個完整的知識本體，整個知識架構的範圍就在裡面了。

知識的演化 知識本體除了在網路資訊上明顯的應用外，更重要的是有一個知識演化的意義存在。若設計得當，語意網將有助於人類的總體知識演化。 • 網頁的知識本體提供了不同知識體系的完整描述 • 是用URI 在每個知識體系中明確描述了每個概念與語意的關係 • 語意網將有助於概念的溝通與知識體系的整合

雖然原始的設計，強調知識本體是給電腦看的；更遠大的目標，卻是希望這也成為人類知識的系統化整理。讓知識本體可被人類所閱讀使用，成為人們知識融通的橋樑。雖然原始的設計，強調知識本體是給電腦看的；更遠大的目標，卻是希望這也成為人類知識的系統化整理。讓知識本體可被人類所閱讀使用，成為人們知識融通的橋樑。

我們關心的問題之一 語意網將會使用什麼語言？

答案甲 English 當然是英文，因為英文本來就是WWW上最廣泛使用的語言

可是：十年後的網路與中文處理 • 朱邦復先生的宏願：九億農民上網 • 微軟研究院自然語言組經理周明的預測：五億中國人上網 • 個人的預測：全世界上網人口中，每四人即有一人用中文 Source: panel on ‘Chinese Language Processing: 10 Years from Now’. The First SigHan Workshop on Chinese Language Processing. COLING2002. Sept. 1. Taipei.

答案乙 Any Language(s) 任何語言都可。因為語意網是靠知識溝通，不是靠語言溝通 Other languages: OWL, XML, etc

我們關心的問題之二 既然語意網主要依靠知識本體；特定語言與文本的知識管理還有需要嗎？

答案甲 不需要因為知識本體的存在是獨立於特定語言與文本之外的

答案乙 當然還需要因為每個特定的語言或文本都是一個獨特的知識體系，唯有正確整理分析其知識內容，方能建立完整的知識本體。

知識本體的變遷 知識的豐富性從何而來？ - 從文化，領域，環境，族群，社會階層，媒體，學科，時代等⋯⋯，不同文化的背景。在一個時代裡面語言有它的限制，會有不同的表達方式。組成知識本體的元素不同，就影響到元素間的意義與推論關係，進而影響知識的架構。知識的豐富性如何體現？ -以共同的語言語語彙（即所謂的次語言「或行話─與領域詞彙「或專門辭典」）

由（知識的）本體到語言的本體 不可能有一個人類共通的知識架構，即大家都同意的知識本體表達方式。每個語言都有其架構完善的知識本體 -語言（包括次語言）可以表達所有（領域內的)知識 -說話者與聽話者之間知識的交換通常有效而正確任何人工知識本體的使用者，不論其數目或準確性，都不會超過語言本體的使用者語言給我們的是最完整的、最有效的知識體系。語言本體本來就是文本典藏處理的必要資源

如何呈現語言的知識本體？ 詞彙網路WordNet是最直接的語言本體表徵自1990 年普林斯頓大學開始規劃進行，詞彙網路的建構與研究已經有相當的時間。詞彙網路的構成元素： • 某個語言內所有的詞彙（任一個詞形lemma與詞義sense的獨特配對定義為一個詞彙）詞彙的區辨是以意為主，以形為輔的。 • 每個語言所能表達的所有概念，就是所有詞義sense 的集合，正好在詞彙網路中表達出來。 • 一組基本的詞彙語意關係 (意義的本性不可說；但意義與意義間的關係是可以有規律來描述的。)

詞彙網路的架構 • 以詞義為基準，把有相同詞義的所有詞彙放在一個同義詞集(SynSet) 同義詞集即是表達相同概念的所有詞的集合 • 以定義過的詞彙語意關係，連結所有的同義詞集即是建立所有概念間的語意關係除同義，反義，近義外，更重要的有上位，下位，及功能等關係例如:英文的WordNet、歐洲的EuroWordNet

把現成語言表達的所有概念中找出每個特定網路資源引用的；然後把所有概念之間的語意關係找出來，便是建立了該網頁資源所有概念間的邏輯關係的雛形。把現成語言表達的所有概念中找出每個特定網路資源引用的；然後把所有概念之間的語意關係找出來，便是建立了該網頁資源所有概念間的邏輯關係的雛形。 • 有了以語言為基礎的豐富資料與基本架構，個別知識本體的建立才有可行性。

詞彙網路提供的知識基本架構 • Synset:詞彙驅動的概念（知識）單位 • Semantic Relation: 概念連結與知識衍生的基本關係專家（such as reference librarian）用什麼方法找keyword找不到的資料？

詞彙網路與知識運籌 進入語意網，處理知識運籌的範圍時，會遇到兩個大問題: • 知識如何計量（How to Itemize Knowledge?） • 知識如何編目（How to Catalogue Knowledge?）。

詞彙網路與（圖書館學中的）索引典 • 「索引典」建立在 equivalence class 的概念上，原則上只標記同義關係(synonymy) 可以很快找到預先設定的固定類別

問題：分類定義因時/地制宜 因為知識的內容跟意義，在不同的時、地裡面不一樣。 • 「蕃薯，本地」「芋頭，外來」 • <響尾蛇，飯匙倩> 在不同的語言裡，即使是被認為是對等的詞彙，它表達的概念及關係很可能還是不一樣。 • <桌子，table/desk> 跨語言的知識處理，必須利用兩個共享知識體系的對應才能正確又有效率。

Equivalence Classes vs. Relational Classes • 在不同的語境裡面，會有不同的意義，而且屬於不同的幾個類。 • 有時候一組概念或事物有同樣的行為或分佈，又似乎該訂為一類。絕大部分索引典裡的equivalence classes，定義固定一個類的東西，在實際使用時都被打破了。 • 事件（event）的分類是必須且無可避免的。但因參與事件相同而群聚的事物，則不必另立一類。他們可藉著參與事件的關係而被定義。

詞義關係 詞彙網路的特色，也是最重要的標準，是在每個同義詞集（即概念）上標記一組經過嚴謹定義的詞義關係。這些詞義關係的連結，構成了以詞彙為節點的網路。 • 同義／反義關係Synonym/Antonym • 上位關係／下位關係Hypernym/Hyponym • 整體－部分關係Holonym • 轉指關係Metonym • 涉入（Involved）

詞彙網路缺乏的知識 • 使用領域與知識的分類 • 跨領域與跨語言的知識與概念連結 ─歐語詞網與知網以做了部分連結

詞彙網路的網路資源現況 • 1990 年普林斯頓（Princeton）開始進行做的英語詞網（http://www.cogsci.princeton.edu/~wn/）是詞彙網路的濫觴。 • 歐語詞網（EuroWorNet，EWN）是在1996 年開始做的http://www.hum.uva.nl/~ewn/）。 • 歐盟意識到如果要去處理知識的話，必須要用到詞彙網路上這樣的架構。 • 整個歐洲語言大部分的詞彙網路已經做好了。

大陸的董振東先生在1995 年自力著手進行「知網」（HowNet, http://www.keenage.com），它中英／英中的一個雙語詞彙網路。 • 中央研究院在2000 年開始做，做法是先做英中的雙語詞彙網路。 • 當做一個雙語的知識轉換時，必須要知道對譯詞間的語意關係。

未來網路上的知識運籌 - 語意網、本體論與詞彙網路

未來網路上的知識運籌 - 語意網、本體論與詞彙網路

Presentation Transcript