140 likes | 315 Views
Text Clustering: A Case Study A Multilingual Text Mining Approach Based On Self-Organizing Maps. Background. 一、多國語文文件探勘技術之相關研究 主要重點在研究 『 文件探勘 』 (Text Mining) 技術在中文 / 英文混合語料庫上的進階應用;本研究的目的在於提出一種 Self-Organizing Maps 類神經網路 機器學習的方法,來偵測收集中文 / 英文混合的文件集合中內容相關的文件。本研究工作主要的原創性與貢獻包括 :
E N D
Text Clustering: A Case StudyA Multilingual Text Mining Approach Based On Self-Organizing Maps
Background 一、多國語文文件探勘技術之相關研究 主要重點在研究『文件探勘』 (Text Mining)技術在中文/英文混合語料庫上的進階應用;本研究的目的在於提出一種Self-Organizing Maps類神經網路機器學習的方法,來偵測收集中文/英文混合的文件集合中內容相關的文件。本研究工作主要的原創性與貢獻包括: • 首創中文/英文等多國語文文件探勘技術研究的理論模型 • 開發以Self-Organizing Maps類神經網路為主的文件探勘模型,使成為一個語言上中性(neutral)的演算法 • 突破了資料探勘理論應用於跨語文資訊處理上的困難度 • 可提供作進一步的文件語意相關性分析的計算以及更多語言學上的理論研究
Advanced Issues 二、文件探勘技術應用於下一代網際網路建構之研究 本研究應用以Self-Organizing Maps類神經網路為主的『文件探勘』技術於支援Semantic Web(語意網)部分工程之建構,以處理Semantic Web上Knowledge Representation的問題包括: • 網頁資訊目錄與階層結構(web directories and hierarchies)的自動建構 • 自動文件分類 • Ontology的建構工程 在此應用領域上,本研究也使用了不同的文件探勘的演算法與運算平台,包括Self-Organizing Maps (SOM)與Support Vector Machines (SVM)為主的文件探勘技術。
Introduction • Related Concepts of Text Mining(文件探勘) --Data mining , Information Retrieval ( IR ) --Machine learning , Automatically organize --Text Categorization --unstructured / semi-structured data • Why Multilingual Text Mining? --monolingual vs. multilingual --parallel corpora --language-independent algorithm
System Architecture Corpora Selection SOM Discovery Algorithm Words Cluster Map Feature Selection Semantic Analysis Documents Cluster Map Translation preprocessing training Analysis
. . . Preprocessing stage • Vector-Space-Model [ x , x , x , x , x ,…,x ] [ x , x , x , x , x ,…,x ] 翻開民國六十五年元月的光華創刊號,發現最早期的「光華畫報雜誌」,的確只是重大建設、觀光勝地、風土民情的「圖片集錦」簿冊,文宜味十足,並且只對海外發行。然而很快地,它開始有了改變,有時是漸進式地日見豐實,有時則是大幅度的改頭換面,終於成為第一本能反映社會現況,探詢先人智慧寶藏、介紹東西文化交流的獨特刊物。 民國 光華 雜誌 [ x , x , x , x , x ,…,x ] [ x , x , x , x , x ,…,x ] index files document vectors documents
Self-Organizing Maps (SOM) • Unsupervised learning • Automatic cluster generation • High-dimensionality two-dimensionality • Intuitive neighborhood relations
SOM Abstraction Illustration M neurons C clusters N samples
p q D(p,q) = ( 1 + 2 ) -1 || G(Np)-G(Nq) || Measure of similarity for clustered items Similarity between two words / documents :
Experimental Discussion If you could flip through the first issue, from January of 1976, you would discover that the early Sinorama Pictorial was a slim collection of photos of national development, scenic spots, and traditional customs. It had a heavily propagandistic feel, and was only for overseas distribution. Nevertheless, it rapidly began to change. Sometimes the changes were gradual, as the contents became richer and more realistic. Sometimes there were major change of format. Ultimately, it has become a unique publication which reflects current society, explores the wisdom of our ancestors, and introduces East-West cultural interchange. 翻開民國六十五年元月的光華創刊號,發現最早期的「光華畫報雜誌」,的確只是重大建設、觀光勝地、風土民情的「圖片集錦」簿冊,文宜味十足,並且只對海外發行。然而很快地,它開始有了改變,有時是漸進式地日見豐實,有時則是大幅度的改頭換面,終於成為第一本能反映社會現況,探詢先人智慧寶藏、介紹東西文化交流的獨特刊物。 • Corpora Selection : Sinorama Magazine 003e.txt 003c.txt
Word cluster map sinorama 工作 光華 bad bridg caught childlik chingju chrissi commun comprehens contribut countryw cultiv curios drove easili endlessli event eventu fulfil goal greatest highest impart inexhaust inferior jiafong joi magazin mission model modesti plant potenti problem profession pursu record repres respons scholar sens serv spark specialist transmit wai wang wonder 人中 人生 不只 不亞於 不斷 之間 充當 本國 生態 目的 丟人 她們 成就 自然 似乎 我們 赤忱 使命感 其他 委員 孩子 後來 後進 既然 根基 留下 追求 做好 執著 培養 專家 帶動 啟發 深厚 現在 責任 這些 提到 傳遞 敬業樂群 楷模 態度 榮譽 撰述 潛力 稿子 學者 擔任 樹立 橋樑 環保 總是 總編輯 謙遜 職守 灌輸 An example of resulting word clusters from the trained word cluster map.
Multilingual Text Mining from Parallel Chinese-English Corpora • The document cluster map for the tested English articles • The document cluster map for the tested Chinese articles
Multilingual Text Mining from Hybrid Chinese-English Corpora • The document cluster map for the hybrid corpus that contains tested • English and Chinese articles.
Conclusions 本研究工作主要的原創性與貢獻包括: • 首創中文/英文等多國語文文件探勘技術研究的理論模型 • 開發以Self-Organizing Maps類神經網路為主的文件探勘模型,使成為一個語言上中性(neutral)的演算法 • 突破了資料探勘理論應用於跨語文資訊處理上的困難度 • 可提供作進一步的文件語意相關性分析的計算以及更多語言學上的理論研究