80 likes | 274 Views
АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ. ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ. Загибалов Тарас Евгеньевич Красноярский госуниверситет. Особенности китайского языка. Отсутствие словоделения 现场的调查官员称,爆炸的威力相当于 2 公斤 TNT ,可能是一名女“人弹”将炸药带上地铁列车然后引爆,也可能是恐怖分子将定时爆炸装置放在包里并扔到车箱的某个角落 。.
E N D
АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ НА КИТАЙСКОМ ЯЗЫКЕ. ПРОБЛЕМА ВЫБОРА БАЗОВОЙ ЕДИНИЦЫ. Загибалов Тарас Евгеньевич Красноярский госуниверситет
Особенности китайского языка • Отсутствие словоделения 现场的调查官员称,爆炸的威力相当于2公斤TNT,可能是一名女“人弹”将炸药带上地铁列车然后引爆,也可能是恐怖分子将定时爆炸装置放在包里并扔到车箱的某个角落。
Особенности китайского языка 2. Невозможность однозначной сегментации текста на слова. • [1a] da-xue | sheng-huo | hen | you-qu • университет | жизнь | очень | интересная • Университетская жизнь очень интаересна. • [1b] da-xue-sheng | huo | bu | xia-qu | le • студент | жить | не | далее | (фразовая частица) • Студенты больше не могут жить. • [2a] ge-ren| de | li-liang • отдельный человек | DE (атр.) | сила • сила одного человека • [2b] san | ge | ren |de | li-liang • три | сч. частица | человек | DE (атр.) | сила • сила трёх человек • (примеры взяты из «On Chinese parsing without using a separate word segmenter» Wei Li.)
Особенности китайского языка 3. Несловарная лексика. 哭跑 (孩子哭跑了客人。) kupao («плакать» + «бежать») |haizi |kupao |le |keren. |ребёнок |так плакал, что разбежались | ПСВ | гости (пример взят из Антонян К.В. «Единицы словаря и единицы текста в современном китайском языке»)
Особенности китайского языка 4. Глагольно-объектные конструкции. • 1.睡觉 shuijiao («спать»), букв.: «спать + сон», (в словарях зафиксировано как слово); • 2.(觉)睡得很好(jiao) shuide henhao, букв.: (сон) спать+показатель наречия) + очень хорошо. • 3. 睡了三个小时的觉 shuile sange xiaoshide jiao («спал три часа»), букв.: «спать+ПСВ +три часа+DE (атр.) сон»); • 4. 睡懒觉 shui lanjiao («валяться в постели»), букв.: «спать ленивыйсон»;
Особенности китайского языка • Имена собственные (десемантизация знака) 普京pujing Путин («везде» + «столица») 马来西亚 malaixiya – Малазия («лошадь»+«приходить»+«запад»+«азия»)
Базовые единицы китайского языка • ЦЗЫ (логограмма, слогомофема) • ЦЗЫЦЗУ (сочетание ЦЗЫ, слогоморфемная ситнагма) • «Слово – лишь частный, к тому же не самый распространённый, случай слогоморфемной синтагмы» (В.Б.Касевич. «Семантика. Синтаксис. Морфология»)
Предлагаемые решения • Для анализа крупных массивов информации за базовую единицу анализа можно взять ЦЗЫ. • Для лексико-синтаксического анализа (parsing) за основу также берётся ЦЗЫ, на основе анализа которых возможно выделение ЦЗЫЦЗУ (On Chinese parsing without using a separate word segmenter» Wei Li.)