240 likes | 411 Views
文本信息结构化与可视化研究. 赵铁军 哈尔滨工业大学计算机学院 语言技术研究中心 2004 年 7 月 12 日 · 复旦大学. 提纲. 计算机理解自然语言的表现方式 结构化与图形化 分层次结构化的理解系统 文本信息结构化的若干研究 网页链接结构可视化 汉语动词次范畴化框架自动分析 跨语言结构转换 — 基于实例机器翻译. 计算机理解自然语言的表现方式. 人对自然语言的理解 行为反应 语言能力:问答 / 文摘 / 复述 / 翻译 … … 显式或隐式地表达出语言的结构和意义:心理学家的看法 — 人的理解过程是从词的序列中建构起具有层次安排的命题
E N D
文本信息结构化与可视化研究 赵铁军 哈尔滨工业大学计算机学院 语言技术研究中心 2004年7月12日·复旦大学
提纲 • 计算机理解自然语言的表现方式 • 结构化与图形化 • 分层次结构化的理解系统 • 文本信息结构化的若干研究 • 网页链接结构可视化 • 汉语动词次范畴化框架自动分析 • 跨语言结构转换—基于实例机器翻译
计算机理解自然语言的表现方式 • 人对自然语言的理解 • 行为反应 • 语言能力:问答/文摘/复述/翻译… … • 显式或隐式地表达出语言的结构和意义:心理学家的看法—人的理解过程是从词的序列中建构起具有层次安排的命题 • 计算机对自然语言的理解 • 面向应用的NLP—上述2 • 对自然语言的多层次分析—上述3:自然语言的结构化表示
理解 语篇分析 语篇结构/命题网络 语义分析 语义结构 单语处理 句法分析(功能) … … 句法及句法功能结构 短语级分析 短语结构 词性标注 一种语言 另一种语言 词性序列 跨语言处理 词法分析/分词 标准化词序列 分句 句子序列 文本 自然形态 计算机理解自然语言的表现方式 • 多层次的语言结构表示—语言理解系统 摘句式文摘 部分结构分析 名实体识别 词/词性序列 文本的结构化:面向不同应用有不同的结构化形式
计算机理解自然语言的表现方式 • 自然语言的可视化或图形化:另外一种理解方式 • 图像理解—自然语言化文本理解—图形化 • 故事理解动画 • 对语言信息处理结果的一些简单而实用的图形化:词或短语识别结果的反显 / 句法结构树形图 / 依存关系图 / 评分结果的直方图… … • 强调视觉效果,增强技术可信性又增加趣味性
文本信息结构化的若干研究(1)网页链接结构可视化文本信息结构化的若干研究(1)网页链接结构可视化 • 研究背景:挖掘特定专业领域(IT)网页信息关联—结构的可视化,富士通研究开发中心有限公司委托研究项目 • 研究意义:互联网获取相关信息数据库 / 相关信息跟踪
网页链接结构可视化 网页实例: 2002秋季英特尔信息技术峰会主体演讲介绍 http://www.sina.com.cn 2002年10月29日 18:37 新浪科技 主体演讲: 10月31日星期四上午 A:开幕致词 演讲人: Jason Chen 职位:英特尔公司副总裁、英特尔公司亚太区总裁 … … … … 相关链接 2002秋季英特尔信息技术峰会技术讲座介绍(2002/10/29 18:24)英特尔通过纳米技术扩展摩尔定律(2002/10/29 17:41)英特尔将至强™处理器频率提升至2.80 GHZ(2002/10/29 17:36)英特尔:计算和通信融合是企业竞争优势的关键(2002/10/29 17:29)英特尔推出新技术和基础模块以解决存储难题(2002/10/29 17:27)… … … …
网页链接结构可视化 • 可视化效果
网页链接结构可视化 • 关键技术—信息抽取模板 例如:产品模板 • 产品名称 • 产品所属公司名称 • 产品所属类别 • 产品相关的事件(如:推出、投放) • 事件发生地点 • 事件发生时间 … … 其他如:财务模板/人物模板/技术模板… …
网页链接结构可视化 • 关键技术—特征词识别/二元关系确定 • 特征词表 • 名实体关系识别规则 • 类别权重 • 规则形式(从训练语料中自动获取) if [PN]{verbin}[Com][Post] then Pn-In:PN; Cur-Com:Com; Cur-Post:Post;
网页链接结构可视化 • 结果示例 中国联通董事长变更 杨贤足去职王建宙接任 Pn-In:王建宙 Cur-Com:中国联通 Cur-Post:董事长 Pn-out:杨贤足 Pre-Com:中国联通 Pre-Post:董事长
文本信息结构化的若干研究(2)汉语动词次范畴化框架自动分析文本信息结构化的若干研究(2)汉语动词次范畴化框架自动分析 • 研究背景:国家自然科学基金项目(60373101) • 研究目标:建立汉语动词次范畴化词汇知识库,服务于汉语文本信息自动处理技术的需要—文本信息结构化的一个层次 • 汉语动词次范畴化框架(SCF)形式化描写:五元组=<V, TA, NA, PA, CL> 其中V谓语动词集合 / TA论元类型集合(11种)/ NA相应谓语动词支配论元个数 / PA相应论元在SCF中的相对位置 / CL广义句法形态常量(“着了过”等6个)
汉语动词次范畴化框架自动分析 • 实现过程:获取→应用 • 获取过程 • 学习SCF预设集合:43000简单句(词典例句+人民日报语料),1774动词→非完整句法分析→生成原始SCF预设集合→统计过滤→获得SCF预设集合并计算相应概率分布 / 结果138个SCF框架 • 从大规模真实文本中自动获取汉语动词SCF:6个月人民日报语料库,3558动词→句法分析结果为输入→错误校正→模式提取→SCF生成→假设检验
汉语动词次范畴化框架自动分析 • 大规模自动获取结果 • 该结果可以和英语同类研究最好结果相比 • 英语53%~65% 本研究53%~56%
汉语动词次范畴化框架自动分析 • 成果:SCF知识库,动词总数=3502
汉语动词次范畴化框架自动分析 • 应用:SCF分析过程 / 输入=句法分析器输出,输出=句子SCF框架 • 示例 • 我们/r 要/vz 坚持/vg 解放/vg 思想/ng AP[实事求是/i 的/usde ]BNP[思想/ng 路线/ng ]。/ • 坚持: r vz vg vg ng AP BNP • 坚持: NP v VP • VO[花/vg BNP[BMP[二\百\/m 元/q ]人民币/ng ]]便/c 能/vz VO[欣赏/vg BNT[这里/s 一/m 年/q ]]的/usde 双/m 休/vg 日/q NP[下午/t 的/usde 歌剧/ng ]表演/vg 。/ • 花: VO vg BNP c vz VO vg BNT usde m vg q NP vg • 花: NP v NP VP
汉语动词次范畴化框架自动分析 • 应用检验(初步):提高汉语句法分析精度,短语级精确率提高了5.36%,召回率提高了7.1%,句子级精确率和召回率提高了8.04% • 今后工作改进:通过语义回退,取得自动获取SCF的更高精确率
文本信息结构化的若干研究(3)跨语言结构转换—基于实例机器翻译文本信息结构化的若干研究(3)跨语言结构转换—基于实例机器翻译 • 研究背景:科技部政府间国际科技合作项目(CI-2003-03),与爱尔兰都柏林城市大学合作 • 研究目标:面向奥运会服务的汉英-英汉翻译系统,重点领域—体育、餐饮、交通、旅游 • 资源支持:国家863计划项目子课题(面向奥运智能信息服务的平行语料加工),汉英日三语句对数70万
跨语言结构转换—基于实例机器翻译 • 系统实现 Bilingual corpus Sent_align Auto KA Input Word_align Examp Sel Examp_extrac Examp base Trans Sel Trans module Surface Gen Output
跨语言结构转换—基于实例机器翻译 • 转换基础:大于词的结构对齐=汉英双语词汇对齐+双语词汇扩展片断对齐 • 扩展片断示例:原子—词汇对齐 / 平行扩展—(ab-AB) (bc-BC) (bcd-BCD) (cd-CD) (de-DE) / 非平行扩展—(fghi-FGHI)
跨语言结构转换—基于实例机器翻译 • 翻译过程: • 源语言片断匹配—实例选择 • 目标语言片断匹配—译文选择
跨语言结构转换—基于实例机器翻译 • 翻译结果评测—汉英翻译 • NIST 2004 MT Evaluation (大规模语料训练) • BLEU4:0.1023(区分大小写) • NIST5:5.5672(区分大小写) / 5.8331(不区分大小写) • 采用面向质量的数据训练策略后,分数提高:对齐质量=2*对齐词数/(汉语词数+英语词数) • NIST5:6.34(不区分大小写) • NIST5:6.5982(订正输出格式错误以后)