190 likes | 318 Views
中文新闻事件地点的自动识别. 学生 : 陆炜 导师 : 李芳. 主要工作. 抽取新闻事件的关键信息:事件发生地点。 1. 地名的层次处理及规范化处理 2. 识别文本中的地点短语 3. 识别事件发生的地点 研究的新闻语料:疾病、自然灾害、人为事故. 土耳其东部宾格尔省 5 月 1 日发生地震。据伊斯坦布尔 地震中心公布,地震发生在当地时间 5 月 1 日 3 时 27 分, 震中位于宾格尔省以南 30 公里处。. 土耳其宾格尔省. 系统框图. 原始文档. 地点短语 模式库. 海量分词. 预处理. 地点短语 识别. 地点 数据库. 句型 模式库.
E N D
中文新闻事件地点的自动识别 学生:陆炜 导师:李芳
主要工作 • 抽取新闻事件的关键信息:事件发生地点。 • 1.地名的层次处理及规范化处理 • 2.识别文本中的地点短语 • 3.识别事件发生的地点 • 研究的新闻语料:疾病、自然灾害、人为事故 土耳其东部宾格尔省5月1日发生地震。据伊斯坦布尔 地震中心公布,地震发生在当地时间5月1日3时27分, 震中位于宾格尔省以南30公里处。 土耳其宾格尔省
系统框图 原始文档 地点短语 模式库 海量分词 预处理 地点短语 识别 地点 数据库 句型 模式库 地名层次 处理 句型模式 匹配 输出事件发生地点 地名 简称表 地名规范 化 候选事件 地点链表 事件发生 地点识别 评分策略
地名层次处理 • 预处理后的文本中,对词性为NS的地名词进行地点数据库查询,得到上级地名信息。 city表 字段 cityID cnName regionID region表 字段 regionID cnName countryID country表 字段 countryID cnName
地名层次处理:举例 原句:地震发生在当地时间5月1日3时27分,震中位于宾格尔省以南30公里处。 地名层次处理后:地震发生在当地时间5月1日3时27分,震中位于土耳其宾格尔省以南30公里处。 原句:安塔利亚省在1971年5月22日曾发生6.7级强烈地震。 地名层次处理后: 土耳其安塔利亚省在1971年5月22日曾 发生6.7级强烈地震。
地名规范化处理 • 1.中国地名简称的处理 沪------上海市 粤------广东省 方法:建立中国地名简称对照表。 • 2.外国国名简称的处理 土-------土耳其 方法:建立外国国名简称对照表。 • 3.指示代词的处理
地名规范化处理:举例 外国国名简称处理: 原句:在土耳其发生地震后,希腊外交部当天宣布将为土提供30万欧元紧急援助。 地名规范化:在土耳其发生地震后,希腊外交部当天宣布将 为土耳其提供30万欧元紧急援助。 指示代词处理: 原句:宾格尔省在1971年5月22日曾发生6.7级强烈地震,这 次地震造成该省878人死亡。 地名规范化:宾格尔省在1971年5月22日曾发生6.7级强烈地 震,这次地震造成宾格尔省878人死亡。
地点短语的识别 • 1.地名补召和过滤 根据上下文信息来补召地名,删除地名。 原句:抢救重点集中在南部的迪亚巴克尔地区 的一所名叫切尔蒂克苏尤的寄宿小学。 迪亚巴克尔/NR 地区/N 迪亚巴克尔地区/NS
地点短语的识别 文本 • 2.根据地点短语的内部构成特征,建立地点短语模式库,与原文进行模式匹配。 模式选择 模式匹配 NO 匹配 成功 YES 地点短语 抽取
地点短语的识别:举例 • 原句:土耳其东部宾格尔省5月1日发生地震。分词后:土耳其/NS 东部/F 宾格尔省/NS 地点模式:[^ ]*/NS [^ ]*/F [^ ]*/NS • 原句:震中位于宾格尔省以南30公里处。 宾格尔省/NS 以南/F 30公里/MQ 处/N 地点模式:[^ ]*/NS [^ ]*/F [^ ]*/MQ 处/N
建立候选事件地点链表 • 构造句型模式,对原文进行匹配。 sp表示已经识别的地点短语 句型模式:(sp)(^[。]*)(发生)(地震) 匹配:土耳其东部宾格尔省5月1日发生地震。 句型模式: (震中)(位于)(sp) 匹配:震中位于宾格尔省以南30公里处。 将文中符合句型模式的地点短语sp全部抽取,存入候选事件地点链表。
事件发生地点的识别 • 评分策略:地点的相关度,地点的详细度,地点的文中位置 • 地点相关度:如果候选事件地点与标题中的地点存在相关性,那么该地点就有可能是新闻事件的发生地点。 • 地点的详细度:如果候选事件地点的描述越详细,那么该地点就越有可能是新闻事件的发生地点。 • 地点的文中位置:如果候选事件地点出现在文章中位置越靠前,那么该地点就越有可能是新闻事件的发生地点。
地点相关度 nt表示标题中的地点,nd表示候选事件地点,|…|表示字符串长度 nt:土耳其 nd:土耳其东部宾格尔省 相关度Sim = 1
地点的详细度 nt:土耳其 nd:土耳其东部宾格尔省 lenval = 3
地点的文中位置 Pos(nd)表示地点在新闻正文的偏移位置 |d| 表示新闻正文的长度 nd:土耳其东部宾格尔省 Pos(nd):0 Loc(nd) = 1
评分公式 例文: • 土耳其地震数百人死伤 • 2003-05-02 • 土耳其东部宾格尔省5月1日发生地震。 • 据伊斯坦布尔地震中心公布,地震发生在当地时间5月1日3时27分,震中位于宾格尔省以南30公里处。 …… • 土耳其东部宾格尔省score = 5.5 • {土耳其}宾格尔省以南30公里处score = 6.04 • 取最大分值的候选地点,若最大分值大于某一设定的阀值,该候选地点作为事件发生地点,否则以标题中的地点为事件发生地点。若标题无地点,则取分值最大的候选地点。
存在的问题 • 1.同样的地名隶属不同国家 • 2.新闻事件地点“隐含”在文中 • 3.台风新闻事件的发生地点识别效果一般 • 4.新闻文章内容属于并列结构 • 5.系统运行速度一般