320 likes | 442 Views
Linguistic Web: Bridging between Text Information Sources and Semantic Web. Author : Hao Jingmin and Liao Lejian Beijing Key Lab of Intelligent Information, School of Computer Science and Technology Beijing Institute of Technology Beijing, China {Haojingmin & Liaolj}@bit.edu.cn
E N D
Linguistic Web: Bridging between Text Information Sources and Semantic Web Author:Hao Jingmin and Liao Lejian Beijing Key Lab of Intelligent Information, School of Computer Science and Technology Beijing Institute of Technology Beijing, China {Haojingmin & Liaolj}@bit.edu.cn Content Type:Conferences This paper appears in:7th World Congress on Intelligent Control and Automation Issue Date :25-27 June 2008 Speaker:Pei Mei Chen
大綱 • 摘要 • 序論 • 推動 • 語言架構的基本原則和HPSG的正式基礎 • 符號與它們的特徵 • 規則和原則 • 建立一個以HPSG為基礎的語言本體論 • 為什麼要開發一個語言本體論? • 在HPSG基於語言本體論中的類別和屬性 • 語言本體論的形式化描述 • 結論
摘要 • 語意網- • 目標是讓電腦能了解和處理資料 • 核心為本體論 • 只能呈現在現行的網路 • 不能在短時間內將現行網路中全部龐大的資料標上語意標籤 • 很難能自動地去取得全世界的知識或某特殊領域的知識來建置本體論
摘要 • 在從某特殊領域本體論為基礎所取得的語意知識和位於文章裡的語法知識相比較,語法知識在取得上較容易。 • 在資訊檢索領域,只基於關鍵字搜尋的資訊是不夠的。在這種情況下,我們應該考慮一些網路應用可以運用語法知識來提高性能。 • 語言網- • 著重於建立一個語言本體論 • 提供語法知識給與網路應用 • 語言本體論是基於HPSG(主詞驅動句構造文法)來實現的 • 所以,本論文提出語言網的概念,其提供一個介於HTML網頁的原文資料來源和語意網之間的橋樑。
序論 • 由於現行的WWW(全球資訊網)非常成功,導致了新的挑戰:大量的資料只能依靠人類來解釋,機器支援是有限的。 • 大部分的文件在WWW都是可利用的,只是其仍然寫在HTML裡。然而,HTML是適合用於定義文件的視覺外觀,但是它並不包含以形式化來代表語意內容。 • 而且考慮到在這些文件裡龐大資料的可能有效性,也不可能在短時間內利用語意標籤註解現行網路裡的大量資料。
序論 • 語意網的核心是本體論,其用以提供一個共享重要領域的概念。而且其成功很大的原因在於本體論的擴散,這就需要快速、容易的工程本體論和避免知識獲取的困難。 • 可是其困難度在於自動地獲取大量知識來建立本體論。換言之,由於知識獲取的困難,以致於本體論的發展已超出工程活動。 • 而且大量的HTML網頁文字資訊不能直接用於電腦,和在獲取語意知識上的困難,因此我們提出語言網路的概念,其目的是提供一個HTML網頁的文字資訊來源和語意網之間銜接的概念。
序論 • 與語意網相同,語言網的核心是語言本體論。 • 語言本體論是表示一個正式的語法理論,而我們選擇主詞驅動句構造文法(HPSG)來建立語言本體論。 • 從語言學的角度來看,利用基於語法的HPSG其能提供在經驗充足的語言分析上,並能反饋來推動實施和處理,而且語言理論結合在語法裡是明確、完整和一致的,並且語言結構是嚴格而且完整的正規化。
推動 • 語言網的推動是為了提供一個原文資訊來源和語意網之間的銜接。它是由以下三個方面所啟發的: • 語意網的初衷 • 很難從現行的網路自動獲取領域知識 • 語法知識以及可用於網路應用程式
推動 語意網與語言網的差異 • 語意網願景的重要組成是註解,另一方面,基於網路知識共享活動的需求,人類和/或機器代理人取得共同和明確的本體論,以便交流知識和實現合作目標。 • 語言網的關鍵問題是用語言本體論標記HTML網頁原文。HTML語言只用於顯示資料,並不能處理資料,而且HTML文件沒有任何機器可容易讀懂其意思,所以需使用語言本體論正規地描述語言學的知識分享。
推動 • 語言網是由語言本體論和利用語言本體論註釋HTML網頁所組成的。而語言網的好處,如下: • 提供分享語言知識(例如語法或語意知識)給機器代理人 • 做標記於不同領域,且不同的原文資訊來源,以用於相同的語言本體論 • 幫助網路應用程式(如智慧搜尋引擎和網際網路問答系統)利用語言學知識作為資訊檢索的限制條件,以提高結果的精準度
推動 • 從資訊理論的角度來看,由於通道雜訊以致於信號將可能錯誤。如果導入一個中間狀態,信號曲解的可能性將減少。 • 和資訊理論相比,如果字或片語的意思直接從原文本身取得,其意思經常錯誤。語言網只是中間的過程,而語言網的目標是提供有用的網路代理人的限制資訊,以確定在HTML網頁原文上的需求。
語言架構的基本原則和HPSG的正式基礎 • HPSG取決於兩個重要組成部分: • 表示語法的範疇是一個明確且具高度結構化的,而其編碼為類型化的特徵結構。類型化的特徵結構是複雜的幾何學,而其是根據經驗上的考量,並對照理論背景所需要的條件(如地點) • 一套描述的限制是在模型分類上,表示語言的概念化和宣告表達承認以部分的自然語言為特徵
語言架構的基本原則和HPSG的正式基礎 • 主詞驅動句構造文法(HPSG) 裡每個語法是由兩個部分組成: • 特徵(或符號) 定義該本體論。如:哪種類型的物件是傑出的,和物件建模的屬性。它包含-類型階層制度和適當的條件,並定義哪些類型的適當值與相應的屬性。 • 理論(在一個正式的觀念上) 一套描述語言的陳述,經常被稱為限制。該理論實質上挑出子物件的特徵,即為語法。如果它在理論上滿足每一個描述,就需做每一個它的子結構。 • HPSG的發展是基於符號的概念語法來建構的,並且以一般的語法為研究目標。
符號與它們的特徵 • 在HPSG中陳述一個重要概念是符號。 • HPSG描述語言是在限制的項目中,並在各種類型語言的表示(符號)上。在索緒爾模型中,符號是形式和意思的結合,並有兩個基本子類別:片語有直接的成分;而字則沒有。 • 一個行動說出一個語言的表示是根據特殊符號來塑模的,並產生出一個聲音、手勢或圖解物件的結果,而在該符號上滿足語音的限制,而其意向是該結果的行為被理解為預期有語法、語意和上下文的屬性,其根據符號的各別屬性來塑模。 • 符號是資訊的收集,包括語音、語法和語意的限制。
符號與它們的特徵 • 在HPSG模型裡類型化的特徵結構發揮核心之作用。 • AVMs(屬性值矩陣)編碼特徵結構,其中每個屬性(特徵)有其類型和配對的值,而每個組成部分的類型包括字和片語。 • 符號得到子型字或片語是針對自己的片語狀態而定。這些子型不同之處在於它們符合不同的限制,但都包含屬性。如:語音(PHON)和語法/語意(SYNSEM)。 • PHON有語音描述清單作為其值。 • SYNSEM(這裡的重點是 HPSG)有另一個AVM當作其值,而其能擁有其他AVMs的值來依次包含在其他屬性裡。
符號與它們的特徵 • SYNSEM屬性的主要功能是進行編碼,以組成正式的語法特徵。從廣義上來講,它可以說SYNSEM的值給予語法類別組成的要素,而其有複雜特徵的結構。 • SYNSEM特徵結構有本地或非本地之屬性。 • LOCAL的屬性值包含三個屬性:類別、內容和上下文。 • NON-LOCAL的屬性是用來說明無限的依賴關係,wh記號和相關子句的記號。非本地包含這兩個屬性:INHERITED(繼承)和TO-BIND。
符號與它們的特徵 • SYNSEM-LOCAL屬性值裡的類別的值提供三個屬性:HEAD、SUBCAT和LEX。 • HEAD的屬性是編譯所有的語法特徵,而共同的語法特徵是由主詞和片語所組成的,其包括是否有名詞、動詞、介系詞等成分。 • 名詞-將事實和形式的特徵增加到主詞的特徵裡。 • 動詞-在主詞的特徵裡包含了在動詞(詞根、現在式、分詞等)形式上的資訊,根據助動詞判斷動詞是否為首、部分句法結構是否轉位等。 • SUBCAT屬性的值是一個有條理的清單,其指定可能的詞彙項目組合。SUBCAT特徵(指示詞和補語)和內容,根據主詞指定語意角色的分配,使其可能在詞彙上聯想主詞的價,利用這些價的關係表示語意的貢獻。
符號與它們的特徵 • SYNSEM-LOCAL屬性值裡的內容屬性表達了獨立於上下文的語意資訊,其值提供三個屬性:MODE(方法)、INDEX(索引)和RESTR。 • INDEX屬性的值是另一個AVM,其有三個屬性:PER(由)、NUM(數)和GEND。 • RESTR分配一個AVM psoa(參數狀態)作為它的屬性值。psoa有RELN和INST這二個屬性。 • SYNSEM-LOCAL屬性值裡的上下文屬性依賴上下文來描述語意資訊。
符號與它們的特徵 • SYNSEM-NON-LOCAL的屬性有:INHERITED(繼承)和TO-BIND。而SLASH(斜線)、QUE和REL等屬性都包含在他們的值裡,並且上述這些屬性還包含設定其值,如下: • SLASH-從問題的成分中提取元素。 • QUE-在成分中設定wh開頭的字元為值。 • REL-其設定值是關係代名詞。在規範有序且沒有關係的非問題裡這些集是空的。
規則和原則 • 特徵結構就如在上一節中所描述的這些規則和原則,其互相影響以決定適當的形式表達一種語言。 • 原則-適用於所有的符號 • 語法規則-適用於一個子集的符號,如片語、字必須符合詞彙的項目以代替規則 • 根據特徵結構能比較特殊的符號,並檢查他們是否為適當的形式。大致上來說,這是根據檢查AVM符號是否符合依據原則和規則所規定的AVM。 • HPSG的規則主要包含主詞補語的規則、主詞特定的規則和主詞修飾詞的規則。他們皆以主詞為基礎。
建立一個以HPSG為基礎的語言本體論 為什麼要開發一個語言本體論? • 為什麼會有人要發展本體論呢?部分原因是: • 要分享的是人或軟體代理人之間共同理解的結構資訊 • 為了使領域知識的重覆利用 • 為了使領域假設更明確 • 從操作的知識來區分領域知識 • 為了分析領域知識 • 語言網的目標是分享人或軟體代理人之間共同理解的語言資訊。因此,語言本體論的發展是必要的。
建立一個以HPSG為基礎的語言本體論 為什麼要開發一個語言本體論? • 目前,許多搜索引擎仍然根據關鍵字執行資訊檢索。雖然搜尋引擎的技術已相當完善,但資訊檢索的結果並不令人滿意。 • 在語意知識領域形式化的本體論缺少的情況下,為了搜索引擎我們運用了語言知識的形式化語言本體論。 • 因為,語言知識可以用來作為限制的條件,以減少無用的內容傳回給使用者。
在HPSG基於語言本體論中的類別和屬性 • 根據在HPSG所表示地類型化特徵結構的符號以提取概念和它們之間的關係。下圖中的這些類別之間的關係包含:SubClassOf屬性和語法或語意屬性。 • 此外,一些類別的實例需要限制。在特徵結構的符號裡,每條限制條件類似於屬性值的範圍。且我們利用OWL的資料類型屬性來加強限制類別。例如:PER特殊的類別只有一個“1rd、2rd、3rd “
語言本體論的形式化描述 • 電腦只能理解形式化的本體論。因此,本體論的形式化描述是下一步的工作。 • OWL是一種語言其為了定義和實例化網路的本體論,其提供一種能用於描述類別和它們之間關係的語言。OWL已經被確立為一個核心的標準。 • 使用OWL語言,我們可以這樣做: • 根據定義類別和這些類別的屬性使領域形式化, • 定義個體和聲稱有關它們的屬性,和 • 根據OWL語言的正式語意來推論有關這些類別和個體容許的程度。
結論 • 本論文提出了語言網的概念,它提供了一個HTML網頁的文字資訊來源和語意網之間的整合。 • 語言網是由語言本體論和利用語言本體論來註釋HTML網頁而所組成的。建立一個基於語言本體論的HPSG是一個在人和/或軟體代理人之間分享語言知識的有效途徑之一。例如,根據語法的註釋它將方便於搜尋引擎去搜索資訊,如根據索引概念來表達語意資訊。 • 語言網是一個介於原文資訊來源和語意網之間新的想法,不過它仍然需要加以改進的。