1 / 119

自然语言处理

自然语言处理. 唐晋韬 助理研究员 计算机学院计算机科学与技术系 tangjintao@nudt.edu.cn, 13755120042. 主要内容. Introduction and Overview( 3h ) Linguistic Knowledge Representation and Processing( 9h ) Analysis( 6h ) Generation( 3h ) MT Paradigms( 3h ) Corpus( 3h ) Topics: MT, IR, IE( 9h ). 方法. 理论学习与课程实践的结合 讲授 研讨

elaine-moon
Download Presentation

自然语言处理

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 自然语言处理 唐晋韬 助理研究员 计算机学院计算机科学与技术系 tangjintao@nudt.edu.cn,13755120042

  2. 主要内容 • Introduction and Overview(3h) • Linguistic Knowledge Representation and Processing(9h) • Analysis(6h) • Generation(3h) • MT Paradigms(3h) • Corpus(3h) • Topics: MT, IR, IE(9h)

  3. 方法 • 理论学习与课程实践的结合 • 讲授 • 研讨 • 每位同学选择一个专题进行学习和研究 • 分析或设计一个相关软件系统或工具 • 写一篇论文或报告 • 作一个课堂报告

  4. 考核 • 课程结束时提交的作业要求 • 专题的论文或报告 • 在课堂上讲授的专题的课件 • 分析或设计的软件,包括: • 软件的分析或设计文档(WORD或UML文档) • 软件的可执行系统 • 软件的源代码

  5. 考核 • 考核办法 • 平时作业 20% • 课堂报告 15% • 提交的专题报告 15% • 提交的软件分析或设计文档 20% • 提交的的软件系统 30%

  6. 第一章:自然语言处理简介 • 什么是自然语言处理 ? • 自然语言处理的困难 • 自然语言处理简史 • 实例:机器翻译 • 相关专题介绍

  7. 第一章:自然语言处理简介 • 什么是自然语言处理 ? • 自然语言处理的困难 • 自然语言处理简史 • 实例:机器翻译 • 相关专题介绍

  8. 什么是自然语言处理 • 自然语言处理(Natural Language Processing)是指利用计算机对人类自然语言进行处理。 • 计算机科学、人工智能、语言学、认知科学…

  9. 自然语言处理(NLP) • 处理自然语言 (English, French, Chinese) • 不是人工语言 (C, Java, Predicate Calculus) • 处理语言的文本形式 • 语言的语音形式:Speech Processing • 需要对语言的一定程度的“理解” • 字符串匹配 不是NLP

  10. 计算语言学 NLP vs. 计算语言学 计算机科学 语言学

  11. 几个相近概念 • 计算语言学(Computational Linguistics) • 是一门以计算为手段对自然语言进行研究和处理的科学 • 自然语言处理(Natural Language Processing) • 是指利用计算机对人类自然语言进行处理 • 自然语言理解(Natural language understanding):关注的更多是关于人类思维对语言的加工、理解机理和认知过程等问题 • 语言工程(Language Engineering) • 构建语言处理的方法、技术、工具、系统和应用 • 人类语言技术(Human Language Technology) • 书面语言文本处理(Text processing)和语音及口语处理(Speech processing)两大技术范围 对比分析(提供1500-2000字报告) 计算语言学(Computational Linguistics) 自然语言处理(Natural Language Processing) 自然语言理解(Natural language understanding) 语言工程(Language Engineering) 人类语言技术(Human Language Technology)

  12. NLP 与 图灵测试 • 在人工智能中,图灵测试是用来检测一台计算机是否具有类似人类思维的方法 自然语言处理 知识表示 自动推理 机器学习 计算机视觉 机器人技术

  13. Searle’s “Chinese Room”

  14. 自然语言处理典型应用 • 机器翻译 • 信息检索 • 信息过滤 • 自动文摘 • 文本分类 • 信息抽取 • 新的应用 • 话题发现与跟踪、文本倾向性分析、社会网络分析

  15. 机器翻译(Machine Translation) • 机器翻译(Machine Translation, MT), 自动翻译(Automatic Translation) • 全自动或部分自动地将一种人类语言翻译成另一种人类语言

  16. MT Example -- Systran 2007.2 • Arguably the greatest trophy available to an individual footballer went to one of the game’s most spectacular players of the past decade. Fabio Cannavaro and Andrea Pirlo, Silver and Bronze Ball winners respectively, certainly ran him close, but despite that Final red card, Zidane undoubtedly provided some of Germany 2006’s most memorable moments, and the accredited media at the FIFA World Cup Final recognised this in their voting. • 最伟大的战利品可利用对一个单独足球运动员可争论去到其中 一个过去十年的游戏的最壮观的球员。 各自Fabio Cannavaro和Andrea Pirlo,银和古铜球优胜者,一定跑了他紧密,但尽管那个最后的红牌, Zidane无容置疑地提供了一些德国2006's多数难忘的片刻,并且被检定的媒介在FIFA世界杯决赛认可了此在他们投票。

  17. MT Example -- Systran 2010.2 • Arguably the greatest trophy available to an individual footballer went to one of the game’s most spectacular players of the past decade. Fabio Cannavaro and Andrea Pirlo, Silver and Bronze Ball winners respectively, certainly ran him close, but despite that Final red card, Zidane undoubtedly provided some of Germany 2006’s most memorable moments, and the accredited media at the FIFA World Cup Final recognised this in their voting. • 这件最伟大的战利品可利用对一个单独足球运动员可论证地去到其中一个过去十年的比赛的最壮观的球员。 各自Fabio Cannavaro和Andrea Pirlo,银和古铜球优胜者,一定跑了他紧密,但是尽管那个最后的红牌, Zidane无疑地提供了一些德国2006‘s多数难忘的瞬间,并且在世界杯足球赛决赛的被检定的媒介认可了此在他们投票。

  18. MT Example -- Google 2010.2 • Arguably the greatest trophy available to an individual footballer went to one of the game’s most spectacular players of the past decade. Fabio Cannavaro and Andrea Pirlo, Silver and Bronze Ball winners respectively, certainly ran him close, but despite that Final red card, Zidane undoubtedly provided some of Germany 2006’s most memorable moments, and the accredited media at the FIFA World Cup Final recognised this in their voting. • 最伟大的冠军奖杯个人可提供球员到游戏的最壮观的过去10年的球员之一。卡纳瓦罗和皮尔洛,银,铜奖得主分别球,他肯定跑密切的,但即使最终红牌,齐达内无疑提供了2006年德国的一些最令人难忘的时刻,并在世界杯决赛的注册媒体承认这在他们的投票。

  19. MT Example -- Google 2011.2 • Arguably the greatest trophy available to an individual footballer went to one of the game’s most spectacular players of the past decade. Fabio Cannavaro and Andrea Pirlo, Silver and Bronze Ball winners respectively, certainly ran him close, but despite that Final red card, Zidane undoubtedly provided some of Germany 2006’s most memorable moments, and the accredited media at the FIFA World Cup Final recognised this in their voting. • 可以说,最大的奖杯足球运动员的个人可提供的游戏到最壮观的是过去十年的球员之一。法比奥卡纳瓦罗和皮尔洛,银,铜奖球获奖者分别,当然把他关闭,但尽管如此决赛红牌,齐达内无疑提供了德国2006年的最难忘的时刻了一些,并在世界杯决赛的注册媒体认识到这一点在他们的投票。

  20. MT Example -- Google 2014.2 • Arguably the greatest trophy available to an individual footballer went to one of the game’s most spectacular players of the past decade. Fabio Cannavaro and Andrea Pirlo, Silver and Bronze Ball winners respectively, certainly ran him close, but despite that Final red card, Zidane undoubtedly provided some of Germany 2006’s most memorable moments, and the accredited media at the FIFA World Cup Final recognised this in their voting. • 可以说是提供给个人的足球运动员最大的奖杯去了过去十年的游戏中最壮观的球员之一。卡纳瓦罗和皮尔洛,银,铜奖球得主分别,肯定跑了他接近,但尽管最后的红牌,齐达内无疑提供了一些2006年德国世界杯上最难忘的时刻,并在认可的媒体在世界杯决赛认识到这一点的投票。

  21. MT Example – Google 2007.2 • March 4 (Bloomberg) -- A second case of human bird flu is suspected in Laos, only a week after confirmation of the Southeast Asian country's first case, according to the World Health Organization and government authorities. A 42-year-old woman from Vientiane province has been hospitalized with avian influenza symptoms since Feb. 28, the Geneva-based WHO and Laos Ministry of Health said in a news release. She remains isolated and in stable condition and is being treated. • 3月4日(彭博) -第二例人类感染禽流感怀疑,在老挝,只有一个星期后证实了这一东南亚国家的第一宗案件中,根据世界生组织及政府主管部门。一位42岁老妪,从老挝首都万象省已住院治疗禽流感的症状,自2月28日,总部设在日内瓦的世卫组织和老挝卫生部在新闻发布会上说。她仍然是孤立的情况稳定,并正在接受治疗。

  22. MT Example – Google 2010.2 • March 4 (Bloomberg) -- A second case of human bird flu is suspected in Laos, only a week after confirmation of the Southeast Asian country's first case, according to the World Health Organization and government authorities. A 42-year-old woman from Vientiane province has been hospitalized with avian influenza symptoms since Feb. 28, the Geneva-based WHO and Laos Ministry of Health said in a news release. She remains isolated and in stable condition and is being treated. • 3月4日(彭博) - 一人感染禽流感第二个例子是涉嫌在老挝,仅一周后,东南亚国家的第一宗证实,根据世界卫生组织和政府机关。一位42岁的万象省岁女子被送进医院自2月28日,在日内瓦的禽流感症状的世卫组织和老挝卫生部在新闻发布会上说。她仍然是孤立的,情况稳定,正在接受治疗。

  23. MT Example – Google 2011.2 • March 4 (Bloomberg) -- A second case of human bird flu is suspected in Laos, only a week after confirmation of the Southeast Asian country's first case, according to the World Health Organization and government authorities. A 42-year-old woman from Vientiane province has been hospitalized with avian influenza symptoms since Feb. 28, the Geneva-based WHO and Laos Ministry of Health said in a news release. She remains isolated and in stable condition and is being treated. • 3月4日(彭博) - 一人禽流感第二例被怀疑在老挝,仅一个星期后,东南亚国家的第一例确认,根据世界卫生组织和政府机关。来自万象省42岁女子已经与禽流感症状住院,自2月28日,卫生部设在日内瓦的世界卫生组织和老挝外交部在一份新闻稿中说。她仍在隔离,情况稳定,正在治疗。

  24. 信息检索 • 信息检索(Information Retrieval)是从文档集合中返回满足用户需求的相关信息的过程。 • 主要研究:信息的获取(acquisition)、表示(representation)、存储(storage)、组织(organization)和访问(access) • 典型应用场景 • 用户向检索系统提交检索或查询请求,检索系统返回文档集合中和用户需求相关的所有文档 • 派生出相关的信息处理研究问题 • 信息过滤、文本分类、信息抽取、文本挖掘等

  25. 信息检索 • Google搜索引擎

  26. 信息检索 • 科技文献检索

  27. 特定资源检索 • 《人民日报》(1946-1992)语料 • 包含约100万个文档,总计1.6G

  28. 人民日报语料检索系统 • 高级搜索 • 多域搜索 • 逻辑组合 • 权重设计 • 智能搜索 • 自然语言查询

  29. 人民日报语料检索系统 • 高级搜索——智能搜索

  30. 人民日报语料检索系统

  31. 人民日报语料检索系统 • 高级搜索 —— 自然语言查询

  32. 人民日报语料检索系统

  33. 人民日报语料搜索系统 • 高级搜索 —— 相似新闻搜索

  34. 人民日报语料搜索系统

  35. 特定领域检索:垂直搜索 • 医药搜索引擎

  36. 医药搜索引擎

  37. 信息抽取 • 信息抽取(Information Extraction, IE)是指从文本中自动抽取出特定的信息,包括关于特定实体、关系和事件的信息 • 比如,从新闻报道中抽取出新闻事件的时间、地点、人物、结果等

  38. 信息抽取 • IE: 输入文本,按照固定的格式输出没有歧义的数据 • 输出的数据可用于 • 直接展示给用户 • 存入数据库或结构化的表格中,以便于后续处理 • 为信息检索提供索引

  39. Information Extraction Ryanair announced yesterday that it will make Shannon its next European base, expanding its route network to 14 in an investment worth around €180m. The airline says it will deliver 1.3 million passengers in the first year of the agreement, rising to two million by the fifth year. • Entities: Ryanair, Shannon • Mentions: it=Ryanair, The airline=Ryanair, it=the airline • Descriptions: European base • Relations: Shannon base_ofRyanair • Events: investment(€180m)

  40. 信息抽取 v.s. 信息检索 IR IE

  41. 信息抽取 • 知识库的建立 • 知识图谱 • 本体 • 复杂的搜索 • Who is the CEO of Microsoft? • Find me all the books written by Mark Twain?

  42. 知识图谱

  43. 本体建立与扩充

  44. 复杂检索

  45. 信息过滤 • 信息过滤(Information Filtering)是一个从动态的信息流中将满足用户需求的信息挑选出来交给用户的过程。

  46. 信息过滤 vs 信息检索 相同:试图根据用户的需求找到合适的信息,核心问题都是信息的相关性的判断 不同 信息过滤 Information filtering and information retrieval: Two sides of the same coin?,by Nicholas J. Belkin and W. Bruce Croft, Communications of the ACM, Dec 1992

  47. 文本分类 • 文本分类(Text Categorization或Text Classification)是指根据文本信息自身内容,将其指派到一个或多个预先定义的类别中去的过程 • 文本聚类(Clustering),即没有预先定义的类别标准体系,而是按照文本信息内容相关度将信息聚集成若干个类别 • 通过运用文本分类技术,根据文本的内容对信息进行自动地分门别类,可以更好地帮助人们组织、挖掘和管理文本信息

  48. 新的应用 • 话题发现与跟踪 • 文本倾向性分析 • 社会网络分析

More Related