140 likes | 436 Views
Xinjiang University. 维吾尔语数词词干提取研究. 阿不都热依木 · 热合曼. 新疆大学人文学院 Email:tugh@xju.edu.cn 2008 年 10 月 8 日. Xinjiang University.
E N D
Xinjiang University 维吾尔语数词词干提取研究 阿不都热依木·热合曼 新疆大学人文学院 Email:tugh@xju.edu.cn 2008年10月8日
Xinjiang University 在进行机器翻译或处理用户提供的搜索关键词时,被提交的单词很可能已具有了形态变化。这时系统必须要采用某种方法对提交的单词进行形态还原并提取回相关信息。词干提取属于粘着性语言的维吾尔语中很重要的一项任务。机器翻译研究当中可以采用不同的研究方法,如Porter算法、词典查询、有限状态转录机、有限自动机、基于HMM的方法等。本文你采用基于有限自动机的从左向右词缀切分的方法和部分词典查询方法。
Xinjiang University 1.引言 维吾尔语属于阿尔泰语系突厥语族,形态方面属于黏着性语言。语法意义主要依赖于构型附加成分来表示。维吾尔语中名词、形容词、动词等三种词类具有语法范畴。但是,各类静词(数词、代词、副词、量词、拟声词)可带以上词类所有的语法范畴的附加成分维吾尔语中词干上附加词尾时发生同化、弱化、增音、脱落、换位等各种语流变化。其中元音弱化、部分增音、脱落现象在文字上反映。mu、ču等部分语气词追加在词干后。
Xinjiang University 2.数词形态与自动机 维吾尔语中只有läk“十万”(波斯语借此,基本出现书面语)、milyon“百万”、milyard“十亿”、trilyon“万亿”(这三个数词来自俄语)等四个外来词。
Xinjiang University 2.数词形态与自动机 2.1.数词的种类 • 1、基数词:表示事物一般数目,以零形态表达。如、bir、ikki、üč; • 2、序数词:表示次序的先后,维吾尔语的序数词由基数词或某些概数词结合附加成分-nči/-inči构成。如birinči“第一”、ikkinči“第二”、oninči“第十”; • 3、概数词:表示大概数目,以-däk/-täk、-čä、-liğan/-ligän、-lar/-lär或-lap/-läp等附加成分或者由相邻的两个基数词或者由näččä“几”结合bir“一”和10以上的基数词构成。näččä一词位于基数词后时表示相加关系,位于基数词前时表示相乘关系。 • 4、分数词:分数词包括分数和小数,分数由分母和分子两个部分组成,分母由基数词追加名词从格附加成分-din/-tin构成,分子用基数词的主格形式,分母在前,分子在后;üčtin bir“三分之一”、ondin üč“十分之三”。 • 5、集合数词:由基数词或某些概数词结合附加成分-ylän/-äylän构成,如, biräylän“一个人”、bäšäylän“五个人”、altäylän“六个人”。 • 6、人称数词:既能表示人称的总合而又能表示人称的数词。由基数词后结合名词的人称附加成分(除了第一人称单数形式)构成。人称数词在句中的作用与集合数词基本相同。如,ikkimiz“我们两个”、ikkiŋ“你们两个”、 ikkiŋlar“你们两个”、ikkisi“他们两个”。 • 7、区分数词:在基数词或某些概数词后结合从格附加成分-din/-tin构成。区分数词可修饰名词,也可以修饰动词。分别表示“都为若干”及“都按若干”的意思。
Xinjiang University 2.数词形态与自动机 2.2.数词的形态变化 • 基数词能带名词复数(构成概数词)、人称(构成人称数词)、格(从格构成分数词或区分数词,相似格和量似格构成概数词)、判断系动词等附加成分和语气词。 • 序数词能带名词复数、人称、格和判断系动词等附加成分和语气词; • 概数词一般不带词尾,只能带有些语气词;由-lar/-lär 构成的概数词能带人称、格、判断系动词等附加成分和语气词; • 分数词一般不带词尾,只能带有些语气词; • 集合数词一般不带词尾,只能带有些语气词; • 人称数词一般带格,系动词等附加成分和语气词; • 区分数词一般不带词尾,只能带有些语气词;
Xinjiang University 2.数词形态与自动机 2.2.数词的形态变化 • 维吾尔语形态结构特点来讲属于粘着性语言。维吾尔语数词的形态变化不与名词或动词一样复杂,但是毕竟还有一些变化。数词的形态变化一般根名词的形态变化相同。也就是说数词也可以接受名词的数、人称和格等语法范畴的附加成分和一些语气词或系动词附加成分。这些成分一共有63种形式。这些附加成分连缀数词词干的一般顺序是:数词词干+[名词的数]+[名词的人称]+[名词格]+[语气词]。
Xinjiang University 2.数词形态与自动机 2.2.数词的形态变化 图2-1 数词能带的词缀连接规则 on +lar +i +din 十 复数 第三人称 从格 “大概从十号”
Xinjiang University 2.数词形态与自动机 2.2.数词的形态变化 这样我们可以得到维吾尔语诗词词缀的互相连接有一定的规则的信息。根据这些规则可以构造维吾尔语数词词缀切分有限自动机[图2]
Xinjiang University 2.数词形态与自动机 2.2.数词的形态变化 根据图2-2所示的有限自动机可得到有限自动机状态集合SS={A,B,C,D,E,F,G,H,I,J,K,L},终止状态集合T=SS={A,B,C,D,E,F,G,H,I,J,K},其中开始状态(没有输入边的状态)集合S={A},最终终止状态(没有输出边的状态)集合FT={E}。这些状态之间的转移矩阵如图5所示,0表示这两个状态之间没有直接连接,1表示有直接连接。比如,从状态A出发可以直接到达B,C,D,E,F,G,等状态,但不能直接到达A,H,J等状态。
Xinjiang University 2.数词形态与自动机 2.2.数词的形态变化
Xinjiang University 2.数词形态与自动机 2.2.数词的形态变化 比如,根据图2-2所示的有限自动机,ikkimizgä“给我们两个”是合法的维吾尔语单词,其由词干ikki“二”和两个词缀miz“第一人称复数附加成分”和gä“与格”组成。从左向右的分析中,自动机从A开始,从词缀库查找并匹配词缀gä,从词尾去掉这个词缀并把当前状态转移到L,这时的单词为ikkisi“他们两”,继续查找词缀si,并去掉这个词缀,这时状态已经达到了没有输出的状态E,所以停止词缀切分,把ikki“二”作为词干输出。以上遍历有限自动机过程如图2-4所示。
Xinjiang University 结束语 上述那样在维吾尔语中几乎没有外来词,这种情况有利于数词词干提取中会出现的一些不规则现象。维吾尔语数词中bäš、altä、yättä、yigirmä、säksän、toqsan等几个词语 带a、ä。这些词语缀结附加成分时出现语音弱化现象。这个问题在名词词干提取中同样出现,解决方法类似。
Xinjiang University 谢谢大家