370 likes | 524 Views
《 人民日報 》 語料庫 命名實体分類的研究. 報告人:吳惠萍. 《 人民日報 》 標注語料庫. 富士通研究開發中心有限公司 北京大學計算語言學研究所 人民日報信息中心. 《 人民日報 》 標注語料庫. 《 人民日報 》 標注語料庫由北京大學計算語言學研究所和日本富士通公司合作,從 1999 年開始,到 2002 年完成,原始語料取自 1998 年全年的 《 人民日報 》 ,共約 2700 萬字,到 2003 年又擴充到 3500 萬字,是中國第一個大型的現代漢語標注語料庫。
E N D
《人民日報》語料庫命名實体分類的研究 報告人:吳惠萍
《人民日報》標注語料庫 富士通研究開發中心有限公司 北京大學計算語言學研究所 人民日報信息中心
《人民日報》標注語料庫 • 《人民日報》標注語料庫由北京大學計算語言學研究所和日本富士通公司合作,從1999年開始,到2002年完成,原始語料取自1998年全年的《人民日報》,共約2700萬字,到2003年又擴充到3500萬字,是中國第一個大型的現代漢語標注語料庫。 • 使用北京大學的《現代漢語語法信息詞典》 26個基本詞類標記。從語料庫應用的角度,增加了專有名詞(人名nr、地名ns、機構名稱nt、其他專有名詞nz )從語言學角度也增加了一些標記,語素子類標注、動詞、形容詞的特殊用法標注和短語型標注。總共 46個標記。
《現代漢語語法信息詞典》 • 是一部供電腦分析與生成漢語句子而使用的機器詞典。 • 詞典計畫收詞6萬左右,所收條目分為26類: • 前18類是語言學界普遍認可的詞: • 名詞n,時間詞t,處所詞s,方位詞f,數詞m,量詞q, 區別詞b,代詞r,動詞v,形容詞a,狀態詞z,副詞d,介詞p,連詞c,助詞u,語氣詞y,象聲詞o,嘆詞e, • 後8類借助術語對詞典中所收的非詞成分進行歸類: • 前接成分h,後接成分k,成語i,簡稱略語j,慣用語l,語素g, 非語素字x,標點符號w
格式說明 • 每一行的開頭是編號。比如“19980101-01-001-006”表示這一自然段是1998年1月1日的第01版的第001篇文章的第006自然段, 標號也作為一個詞進行標注,詞性固定為m(數詞)。 • 語料中除了詞性標記以外,還有"短語標記",這種情況一般出現在機構團體名稱、成語等情況中。如"通過/p [中央/n 人民/n 廣播/vn 電臺/n]nt、/w"中,用"[ ]"合起來的部分是一個完整的機構團體名稱,方括號後面緊跟標注nt,nt之後空兩個單字節空格,保持了格式的一致。
語料標注的示例 • 19980101-01-001-006/m在/p 1998年/t 来临/v 之际/f ,/w 我/r 十分/m 高兴/a 地/u 通过/p [中央/n 人民/n 广播/vn 电台/n]nt、/w [中国/ns 国际/n 广播/vn 电台/n]nt 和/c [中央/n 电视台/n]nt ,/w 向/p 全国/n 各族/r 人民/n ,/w 向/p [香港/ns 特别/a 行政区/n]ns同胞/n 、/w 澳门/ns和/c 台湾/ns同胞/n 、/w 海外/s 侨胞/n ,/w 向/p 世界/n 各国/r 的/u 朋友/n 们/k ,/w 致以/v 诚挚/a 的/u 问候/vn 和/c 良好/a 的/u 祝愿/vn !/w
下載與購買 • 下載資訊: • 《人民日報》標注語料庫中一半的語料(1998年上半年)共1300萬字已經通過《人民日報》新聞資訊中心公開提供許可使用權。 • 其中一個月的語料(1998年1月)近200萬字在互聯網上公佈,供自由下載。 • 購買資訊: • 軟體名稱:《PFR人民日報標注語料庫》 • 研製單位:人民日報新聞資訊中心 • 價格:¥2000元/套
《人民日報》語料庫命名實体分類的研究 1. 前言 2. 命名實体細分類 • 2.1 人名分類 • 2.2 機構名分類 • 2.3 地名分類 3. 簡稱分類 4. 實驗結果及結論 • 4.1 實驗結果 • 4.2 結論和未來的工作
1.前言 • 命名實體識別(Named Entity Recognition) • 規則方法 • 統計方法 • 統計規則相結合的方法 • 需要人工總結 • 編寫大量的規則 • 可移植性差 • 機器學習方法
Message Understanding Conference • MUC 是由美國政府支持的一個專門力于真實新聞文本理解的例會,在資訊提取技術的評測方面起著重要作用。 • MUC(MUC-6)定義命名實体: • 三大類(實体、時間和數位) • 七小類(人名、機構名、地名、時間、日期、貨幣和百分比)
語料庫中的命名實体分為4類:機構團体名、地名、人名、其他專用名詞。語料庫中的命名實体分為4類:機構團体名、地名、人名、其他專用名詞。 • 原四項分類經實踐證明,分類過粗,無法達到很好的定義作用。 • 研究者提出命名實体的多級分類体系并給出了每一級的詳細分類定義。 • 力求既要適應語言信息處理與語料庫語言學研究的需要,又要能為傳統的語言研究提供充足的素材 • 既要適合計算機的自動處理,又要便于人工校對。
2. 命名實体細分類 2.1 人名分類 • (音譯)不同國家的人名的內部特徵(主要是人名用字集)存在較大的差別。 • 日本人名的常用山本、太郎、大島、藤田等字和詞; • 蘇俄人名常用斯、基、娃等字; • 歐美人名常用朗、魯、倫、曼、尼等字。 • 原先標注問題:無法區分中國人名和外國人名,標注語料會給機器學習帶來噪聲。
人名的第一級分為三類: • 中國人名 • 外國人名 • 可根據其人名用字集分為不同的國別,比如:日本人名、歐美人名、其他等,這樣可以進一步使特徵集中。 • 不確定類別 • 為了減少在機器學習的噪聲而引入的,這樣的分類能儘量保證同一類別中的特徵比較集中。
表1: 人名分類 (姓) (姓名) (夫婦双姓)
分類越細,將導致機器學習的訓練數據越稀疏 • 在機器學習的時候可以根據訓練語料的規模以及特徵的相似性將某些特徵合并在一起,比如將三字型和多字型合并等。
2.2 機構名分類 • 綜合現有各種分類体系基礎上,對語料庫中的機構名進行詞頻統計。制定了二級分類体系。 • (義譯)中外機構名在用詞等特徵上無明顯差別。在下一級的子類的劃分上也基本相同。 • 無劃分中國和外國機構。在總類上標明了可以有中國機構和外國機構的區別并給出語料庫中的頻數。 • 機構團体(41141) • [中國:32450] • [外國:8691]
外國企業常駐代表機構登記管理條例 • 第十條代表機構名稱應當由以下部分依次組成: • 外國企業國籍 • 外國企業中文名稱 • 駐在城市名稱 • 以及“代表處”字樣 • 並不得含有下列內容和文字: • 有損于中國國家安全或者社會公共利益的; • 國際組織名稱; • 法律、行政法規或者國務院規定禁止的。
2.3 地名分類 • 綜合考慮信息檢索、機器學習方面的需求 • 將地名劃分為46 個一級子類。 • 同樣沒有區分中國地名和外國地名
3. 簡稱分類 • 在真實語料中,很多命名實体是以簡稱的形式出現。 • 原先標注: • 對人名的簡稱標成人名(nr),例:老張/nr • 對其他的簡稱則同一標成簡稱(j)。例:政協/j、中/j 美/j 關係/n • 原先標注問題: • 混淆了全稱和簡稱的區別(人名簡稱) • 模糊了簡稱之間的界限(地名簡稱和機構名簡稱) • 從語義角度、信息檢索和抽取等應用角度應該是將不同類型的簡稱區別開來并且在語料中給予標注。例:從面向機器學習的角度,“中美關係"較好的標注結果應該是中/aloc 美/aloc 關係/n(其中aloc 表示簡稱地名)。
將簡稱首先分為: • 人名簡稱 • 地名簡稱 • 機構名簡稱 • 機構名簡稱的情況比較複雜,也最難識別。 • 大致可分為:連續型、不連續型、混合型 • 其他簡稱
4. 實驗結果及結論 4.1 實驗結果 • 實驗採用的[Wu 2003]所示的基于詞類和詞性類的統計模型來進行命名實体識別, • 訓練語料為1998年1~5 月份的人民日報標注語料; • 測試語料為1998 年6 月份的人民日報語料。 • 評測指標有:精確率,召回率,F-值
準確率 = 正確識别的實体數 總的識别實体數 • 召回率 =正確識别的實体數 總的實体數 • F −值 = 2*召回率*正確率 召回率+正確率
正確識别的實体數 總的實体數 正確識别的實体數 總的實体數 正確識别的實体數 總的識别實体數 正確識别的實体數 總的識别實体數 * + • F −值= 2*召回率*正確率 召回率+正確率 2 *
1.19 0.21 -0.6 5.88 2 4.46 -0.1 1.9 6.01 1.09 2.11 6.01 0.97 5.98 4.3 0.97 7.98 8.76
人名識別系統性能得到很大的提高。 • 人名的細分類抓住人名的構詞特徵,比如中外人名的區別、單字型和二字型之間的區別等。 • 這樣的劃分是有利于機器學習的特徵抽取的。 • 地名和機構系統性能也有提高但不如人名那樣顯著。 • 地名和機構名的劃分在構詞規律基本相同、區別不大: • 地名 :賓館和大廈寫字樓 • 機構:政府部門和公安部門 • 其主要的區別是職能上的,屬語義範疇 • 在目前的水準下,處理語義信息是極其困難的。
簡稱的分類和識別(表七和表八) • 對簡稱進行細分類對地名和機構名識別的性能提升很明顯。 • 由于其中加入了簡稱識別技術,簡稱識別的性能也將對系統產生影響,這樣的對比并不是很嚴格。
4.2 結論和未來的工作 • 實驗結果表明: • 新的分類体系有助于面向信息檢索和抽取的機器學習。 • 這樣的分類体系可以使自動識別系統的性能得到大幅的提高。
常規的命名實体類別無法滿足需求 • 三大類(實体類、時間類和數字類) • 七小類(人名、機構名、地名、時間、日期、貨幣和百分比) • 必要的命名實体 • 事件類實体(第一屆中國網球公開賽、第五屆中國國際航空航天博覽會、首屆英國戲劇舞蹈節、中國首屆網絡相聲大賽、澳大利亞文化周) • 著作類實体(斯德哥爾摩環抱公約、《中國人民銀行金融機構反洗錢規定》、《神雕俠侶》) • 股票名稱(銀河創新、富龍熱力 、深萬山A)對新的實体類型進行大範圍的調查,看需要擴充哪些類型的命名實体,分別出現在哪些領域,從而建立起命名實体分類体系和與之配套的識別和標注工具,為信息提取、文本挖掘、網絡內容管理等應用奠定基礎。
對新的實体類型進行大範圍的調查,看需要擴充哪些類型的命名實体,分別出現在哪些領域,從而建立起命名實体分類体系和與之配套的識別和標注工具,為信息提取、文本挖掘、網絡內容管理等應用奠定基礎。對新的實体類型進行大範圍的調查,看需要擴充哪些類型的命名實体,分別出現在哪些領域,從而建立起命名實体分類体系和與之配套的識別和標注工具,為信息提取、文本挖掘、網絡內容管理等應用奠定基礎。