270 likes | 505 Views
基于时间序列的词义演化计算. 唐旭日 1 曲维光 2 陈小荷 2 1 华中科技大学 2 南京师范大学. 词义演化及其研究的意义 研究现状 基于时间序列的词义演化计算框架 实验与讨论 研究展望. 提纲. 什么是词义演化 词义演化计算 研究的意义. 词义演化及其研究意义. 例 1 男性“ 美丽 ”产业正流行。 《 生命时报 》 例 2
E N D
基于时间序列的词义演化计算 唐旭日1 曲维光2 陈小荷2 1 华中科技大学 2 南京师范大学
词义演化及其研究的意义 • 研究现状 • 基于时间序列的词义演化计算框架 • 实验与讨论 • 研究展望 提纲
什么是词义演化词义演化计算研究的意义 词义演化及其研究意义
例1 • 男性“美丽”产业正流行。《生命时报》 • 例2 • The last update bricked my phone • 例3 • 简静,就是不生活在热闹。《生命时报》 • 例4 • 老外也这么墨迹。 • 例5 • A:航班晚点了。B:啊,这什么节奏! 转喻 隐喻 新词 假借 转喻? 词义演化的实例
词义演化计算是一个分类问题 • 新词 • 新出现词语屌丝 • 新词词义演变 • 隐喻板块 • 转喻大锅饭 • 已有词汇 • 词义变化 • 词义扩展 • 隐喻缩水 • 转喻灰色收入 • 词义缩小低落 • 词义不变房屋 词义演化计算
在互联网日益普及的背景下词义演化加速。互联网用户在旧词新用、新词创造方面更加活跃。各种自然语言处理系统需要更快地更新词义知识。在互联网日益普及的背景下词义演化加速。互联网用户在旧词新用、新词创造方面更加活跃。各种自然语言处理系统需要更快地更新词义知识。 • 人工词义知识编撰耗时、耗力、一致性差、且受制于自身知识,无法满足上述需求。 • 词义演变的自动侦测、分类以及语义判断成为重要任务。 研究的意义
基于并置比较的方法基于时间序列的方法 研究现状
双人 跳水 比赛 … 男子 跳水 … 1. Cavallin, K.: Automatic extraction of potential examples of semantic change using lexical sets. In: Proceedings of the 11th Conference on Natural Language Processing, pp. 370–377 (2012) 2. Gulordava, K., Baroni, M.: A distributional similarity approach to the detection of semantic change in the google books ngram corpus. In: Proceedings of the GEMS 2011 Workshop on GEometrical Models of Natural Language Semantics, pp. 67–71 (2011) 3. Lau, J.H., Cook, P.,McCarthy, D., Newman, D., Baldwin, T.:Word sense induction for novel sense detection. In: Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics, pp. 591–601 (2012) 4. Cook, P., Hirst, G.: Automatic identification of words with novel but infrequent senses. In: Proceedings of the 25th Pacific Asia Conference on Language Information and Computation, pp. 265–274 (2011) 无法判断词语的规约化程度 无法判断演变类型 语料依赖性强 基于并置比较的方法
1. Hilpert, M., Gries, S.T.: Assessing frequency changes in multistage diachronic corpora: Applications for historical corpus linguistics and the study of language acquisition. Literary and Linguistic Computing 25(4), 385–401 (2009) • 2. Rohrdantz, C., Hautli, A., Mayer, T., Butt, M., Keim, D.A., Plank, F.: Towards tracking • semantic change by visual analytics. In: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, pp. 305–310 (2011) • 3. Sagi, E., Kaufmann, S., Clark, B.: Semantic density analysis: comparing word meaning across time and phonetic space. In: Proceedings of the Workshop on Geometrical Models of Natural Language Semantics, pp. 104–111 (2009) • 4. Sanchez-Marco, C., Evert, S.: Measuring semantic change: The case of spanish participial constructions. In: Proceedings of Quantitative Investigations in Theoretical Linguistics,vol. 4, pp. 79–83 (2011) 优势: 给出了全局性的描写 问题: 非自动, 当前仅用于人工判断 基于时间序列的方法
计算框架词义表征方式词义变化模式判断词义变化模式与类型计算框架词义表征方式词义变化模式判断词义变化模式与类型 基于时间序列的词义演化计算框架
Word-Context Model • 重组 使 自己的 股份缩水:c=<股份,缩水> • Identification • Likelihood Ratio Test 词义表征
语义状态是在单位时间语料中词语T的各种义项的使用概率的总体描述。语义状态是在单位时间语料中词语T的各种义项的使用概率的总体描述。 • 由此,语义状态可以表述为义项的熵: 单位时间词语的语义状态描述
词义变化表述为语义状态的时间序列: • 词义的变化模式也就是时间序列的变化模式。 • 假定语言的变化,包括词义的变化模式遵循如下指数函数: • (Kroch, 1989) 词义变化模式判断(1)
不同的词义变化模式体现为不同的 s值与k值 之组合 词义变化模式判断(2)
通过曲线拟合,在词义状态时间序列基础上,可以获取k值与s值,从而获得不同的变化模式。通过曲线拟合,在词义状态时间序列基础上,可以获取k值与s值,从而获得不同的变化模式。 词义变化模式判断(3)
变化模式与类型 • S 值较大 隐喻性词义变化 • S 值较小 转喻性词义变化 • S 值 约为0 词义无变化 • S 值 为负 词义缩小 词义变化模式与类型
实验设置实验结果 实验与讨论
Key words: 33 words • Corpora: • 59 years of People’s Daily • Segmented and POS tagged with ICTCLAS • Corpora divided on yearly basis 实验数据
链接至paper 实验结果
1. 构建词义变化测试数据,应用SVM进行分类 • 2. 更好的词义变化时间序列模型? • 3. 侦断“新词义”? 研究展望
Further information found in the paper: • Semantic change computation: A successive approach presented at BSICS workshop with IJCAI 2013