220 likes | 402 Views
Wikipedia Mining. NTU NLP Lab Seminar Changhua Yang. WM Database 直接下載 , 免 Crawl. http://download.wikimedia.org/backup-index.html. 中文 Wiki 重要的 DB. XML 格式文字檔 Wikipedia 條目越來越多. XML, Content, Article Link, Category Link, Inter-Language Link. 抓中文人名集合. Category 當 Hint 某某姓 499 個姓 8945 筆人名
E N D
Wikipedia Mining NTU NLP Lab Seminar Changhua Yang
WM Database直接下載, 免Crawl • http://download.wikimedia.org/backup-index.html
中文Wiki重要的DB • XML格式文字檔 • Wikipedia條目越來越多
XML, Content, Article Link, Category Link, Inter-Language Link
抓中文人名集合 • Category當Hint • 某某姓 • 499個姓 • 8945筆人名 • 例外
抓人名集合 • 符合以下任一條件 • 某某姓 • 某某年出生 • 某某年逝世 • 18,115筆 • 但是會多出外國人
Political divisions, Locations • 符合以下任一條件 • 某某区划 • 某某區劃 • 某某城市 • 某某都市 • 11,030筆
人名辨識系統 • 將Wikipedia語料化 (BIO標記) • 关羽 是 concept、關公是appearance • 張作霖沒被標到
Character-Base CRF • 抽了32,466句 • 有815,980個characters • 需要多一點features • 中文人名 • 中文姓 FSt-1 St-1 et-1 FSt St et FSt+1 St+1 et+1
人名偵測測試 總統馬英九昨透過發言人王郁琦發表聲明 去香港遇到楊昌樺和李佳穎在吃漢堡 總統楊昌樺昨透過發言人馬英九發表聲明 總統林敏順昨透過發言人李佳穎發表聲明 去香港遇到馬英九和李佳穎在吃漢堡 去北極遇到紀存希和楊昌樺在釣魚 去北極遇到楊昌樺和紀存希在釣魚 楊昌樺率領太平天國 跆拳道選手李佳穎 跆拳道選手紀存希 台大校長林敏順返國前 看來以Wikipedia自動產生的語料還堪用, 但句型仍有限,有加強空間
Referencing Mining (hint [[关羽|關公]]) 唐玄宗 6 李隆基 玄宗 4 玄宗皇帝 但其實最有名的稱呼是 唐明皇 Pitfall: 藝人黑澀會團體人數太多 又互相以暱稱reference
Referencing Mining (不限定人名) Samples Pitfall: 雜訊太多
Referencing Mining 2 (Redirection) • Wikipedia共131,199筆redirection • 品質似乎比較好, 最後有2386組人物
Disambiguation (WM格式未統一)然而中文有歧義的不多,僅300多筆 • 最結構化格式 • 解釋 • 半結構化
跨語言Issue(1) • 지미 카터 1924년 태어남吉米·卡特 • 함석헌 1901년 태어남 1989년 죽음咸錫憲 • 백남준 2006년 죽음 1932년 태어남白南準 • 귄터 그라스 1927년 태어남君特·格拉斯 • 데니스 리치 1941년 태어남丹尼斯·里奇 • 토마스 만 1955년 죽음 1875년 태어남 • 하인리히 뵐 1985년 죽음 1917년 태어남 • 노무현 1946년 태어남 • 장국영 1956년 태어남 2003년 죽음 • 빅토르 최 1990년 죽음 1962년 태어남 • 막스 플랑크 1947년 죽음 1858년 태어남 從不熟的語言也可以找到類似的結構 10704筆韓文人名
跨語言Issue(2) • ソクラテス 紀元前399年没 • 士郎正宗 1961年生 • 高橋留美子 1957年生 • 村上もとか 1951年生 • 青木光恵 1969年生 • 赤塚不二夫 1935年生 • 一条ゆかり 1949年生 • うすた京介 1974年生 • 浦沢直樹 1960年生 • 車田正美 1953年生 • 高橋しん 1967年生 • 高屋奈月 1973年生 • 竹本泉 1959年生 • 寺沢武一 1955年生 • 冨樫義博 1966年生 • 鳥山明 1955年生 • 聖悠紀 1949年生 • 日渡早紀 1961年生 • 藤島康介 1964年生 日文可以抓到111,285筆人名
跨語言Issue(2) • 韓中日英的原始資料比大概是 1:4:16:64 • 各種知識mining量大概也成這種比例 人名對應 韓中日英 3754筆 (上一頁) 中日英 12375
跨語言Issue(3) • 地名對應仍有雜訊, 僅列Sample
Conclusions • WM當材料優點 • 持續有更新 • 可把某語言方法套用到別語言 • 可以獲得跨語言綜合資訊 • 缺點 • 材料不齊全或不balanced, 在某些語系或model的建置上仍不robust • Future: 本土教學材料