690 likes | 985 Views
Автоматическая обработка текста. Корпуса. Лекция 2. Введение. Обработка текста. Этапы и разработка Корпуса: основные понятия Требования к корпусу Стандарты Разметка. Автоматическая обработка текста. Лингвистические платформы. графематический анализ п репроцессинг (очистка текста)
E N D
Автоматическая обработка текста Корпуса Лекция 2
Введение. Обработка текста. Этапы и разработка • Корпуса: основные понятия • Требования к корпусу • Стандарты • Разметка
Автоматическая обработка текста. Лингвистические платформы • графематический анализ • препроцессинг (очистка текста) • токенизатор, • сплиттер • морфологический анализ • нормализация (лемматизация, стемминг) • частеречная разметка (POS-tagging) • синтаксический анализ • полный синтаксический анализ, • chunking, • shallow parsing
Автоматическая обработка текста. Лингвистический конвейер • ??? семантический анализ • распознавание аргументной структуры • semantic role labeling • разрешение анафоры (anaphora resolution) • дискурсивный анализ (риторические структуры) • распознавание именованных сущностей • извлечение фактов • классификация, кластеризация текстов
Разработка модулей • обучение • корпус текстов • обучающий корпус vs. тестовый корпус • специальным образом отобранные тексты • размеченные под проблему (аннотированные)
Разработка: корпуса • Как собирать корпуса? • Как аннотировать корпуса? • специальные технологии сбора корпуса под задачу • vs. использование существующихэкспертных (эталонных) корпусов
Разработка: корпуса • Золотой стандарт Примеры: • НКРЯ со снятой омонимией • Penn-Treebank
Корпус • Корпус – множество текстов, • отобранных исходя из некоторых принципов, • размеченных (аннотированных) • в корпусес помощью специальных программ можно искать необходимые фрагменты текста по заданным параметрам (например, множество текстов одного жанра или автора, множество строчек или предложений, в которых встретилось конкретное слово или словосочетание, множество существительных в родительном падеже и т.п.)
Понятие корпуса Лингвистический, или языковой, корпус текстов – большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.
Основные единицы • Основной элемент хранения в корпусе: текст (может быть полное произведение, фрагмент произведения, одно предложение и т.п.) • - насколько большой объем текстов в данном корпусе, как измерять этот объем, как сравнивать корпуса: в количестве текстов, страниц и т.п.??? Возможный ответ: В словах
Но: что такое слово? Что мы будем считать словом? • Сколько слов в предложении: Ворон к ворону летит Ворон ворону кричит
Что такое слово? Что мы будем считать словом? • словоупотребление • Лемма (множество словоформ, сведенных к одной исходной форме (≈лексема))
Основные единицы • Единицы хранения в корпусе – текст или структурный элемент текста (требование завершенности фрагмента) • Словоупотребление • Лемма (нормализованная форма)
древние древний являть являться Длить Для Лемма =S, мн,од=(род|вин|пр)| древних =A =род,мн|вин,мн,од|пр,мн страд =V=непрош,ед,изъяв,3л,нсв, Является =V=непрош,ед,изъяв,3-л,нсв =V,несов=непрош,деепр для =PR
Основные понятия • Требования к корпусу • Стандарты • Разметка • Типы корпусов • Примеры корпусов
Требования к корпусу • Репрезентативность • Полнота • Экономичность • Структурированность • Компьютерная поддержка
Требования к корпусу:Репрезентативность – способность корпуса текстов отражать все свойства проблемной области, релевантные для данного типа лингвистических исследований, в определенной пропорции, определяемой частотой явления в проблемной области.
Требования к корпусу:РепрезентативностьТребование репрезентативности при создании национального корпуса Размеры и процентные соотношения: • Жанры • Стили • Периоды • Авторы • Хронологические границы ……………………….
Требования к корпусу:РепрезентативностьТребование репрезентативности при создании национального корпуса • Всеобщий корпус, нацеленный на пропорциональный охват языковой практики, по анализам Д. Байбера, должен был бы содержать приблизительно 90% разговоров (обычной разговорной речи), 3% писем и замечаний и 7% опубликованных и неопубликованных текстов классических стилей и жанров.
Требования к корпусу:РепрезентативностьТребование репрезентативности при создании национального корпуса • Обычно художественные тексты составляют в национальных корпусах 20-40%
Требования к корпусу:РепрезентативностьТребование репрезентативности при создании национального корпуса • Если всеобщий национальный корпус составляется из письменных текстов современного языка, при создании проекта все же необходимо: • с хронологической точки зрения ограничить современный язык • с точки зрения репрезентативности определить, будут ли тексты для корпуса подбираться на основе принципа адекватного представления всех стилей и жанров (типов текстов) • или на основе адекватного размещения языковых явлений в соответствующих текстах / целом корпусе
Требования к корпусу:РепрезентативностьТребование репрезентативности при создании национального корпуса • Культурно-репрезентативный корпус • От лингвистической работы часто требуется не языковой пример, а хороший языковой пример, “освященный” авторитетом сочинителя • собрание культурно значимых текстов на данном языке • В практическом преломлении “культурная значимость” • потенциальным источником расхожих цитат текст • признаётся принадлежащим данному слою, если он вносит какой-то вклад в историю русского языка (в том числе и интересен языковыми экспериментами).
Требования к корпусу:РепрезентативностьТребование репрезентативности при создании национального корпуса • культурная значимость не гарантирует “стандартности” авторского языка. • От корпуса языка требуется соответствие узусу и языковой компетенции его образованного носителя. Между тем тексты таких авторов, как Зощенко, Платонов или даже Гоголь изобилуют “авторскими особенностями” • Отсюда задача: “стандартный”, “эталонный” корпус русского языка; языка лишённого по возможности сознательных стилевых и лексических экспериментов, тем не менее “гладкого” и “профессионального”.
Требования к корпусу:РепрезентативностьТребование репрезентативности при создании исследовательского корпуса Например, проблема – корпус текстов по дискурсивным словам русского языка Ср. частота частицы жеvs.типа
Требования к корпусу:Полнота • Полнота В корпусе исследуемое явление должно быть представлено во всей его полноте, включая редкие случаи и отклонения от нормы NB: Полнота требует учета релевантных явлений, даже если они очень редкие и не попадают в корпус в соответствии с требованием репрезентативности
Требования к корпусу:??Экономичность • “Корпус должен экономить усилия исследователя при изучении проблемной области. • В частности, он должен быть не просто строгим подмножеством проблемной области, но, по возможности, существенно отличаться от нее (меньше) по объему” А.Н.Баранов. Введение в прикладную лингвистику. С.119.
Требования к корпусу:Структуризация А.Н.Баранов. Введение в прикладную лингвистику. С.119.
Требования к корпусу:Компьютерная поддержка • необходимы специальные программы по обработке данных • Необходима предварительная подготовка текста для того, чтобы его можно было обрабатывать компьютером
Сбалансированный корпус • в корпусе должны быть представлены в соответствующих пропорциях тексты разных функциональных стилей, жанров, авторов и т.п. (например, как художественная литература, так и газетные и журнальные статьи, учебники, научно-популяпная литература и т.д.). Пример: Брауновский корпусФрэнсис – Кучера. 1млн словоупотреблений. 500 текстов по 2000 словоупотреблений. • Мониторный корпус
Основные понятия (лекция 1) • Требования к корпусу • Стандарты • Разметка
Требование унификации: • многократное использование; • много пользователей; • совместимость с другими корпусами; • совместимость с другими лингвопроцессорами; • совместимость с общепринятыми научными теориями; • совместимость с общепринятыми классификациями; • возможность применения стандартных программных средств.
Объекты стандартизации • Структура формата • Наполнение формата Метаданные Классификаторы Лингвистическая разметка • Кодировки
Стандарты • Пример: In passing the door of that sanctum some time after, I caught the words -- 'She'll happen do better for him nor ony o' f grand ladies.' And again, 'If she ben't one o' th' handsomest, she's noan faa''l, and varry good-natured; and i' his een she's fair beauti- ful, onybody may see that.‘ 474 JANE EYRE 475
Стандарты • Пример: Inpassingthedoorofthatsanctumsometimeafter, I caughtthewords-- 'She'llhappendobetterforhimnoronyo' fgrandladies.' Andagain, 'Ifsheben'toneo' th' handsomest, she'snoanfaa''l, andvarrygood-natured; andi' hiseenshe'sfairbeauti- ful, onybodymayseethat.‘ 474 JANE EYRE 475 • Пример: Inpassingthedoorofthatsanctumsometimeafter, I caughtthewords-- 'She'llhappendobetterforhimnoronyo' fgrandladies.' Andagain, 'Ifsheben'toneo' th' handsomest, she'snoanfaa''l, andvarrygood-natured; andi' hiseenshe'sfairbeauti- ful, onybodymayseethat.‘ 474 JANE EYRE 475
Стандарты • В этой записи имеется ряд недостатков: • номера страниц и колонтитулы идут прямо в тексте (программам обработки трудно различать их); • нет разницы между одинарными кавычками и апострофами (проблемы с выделением прямой речи); • сохранение переносов, которые были в исходном тексте, (сложности для автоматического поиска); • буква с ударением в слове faál и длинное тире представлены специальными группами символов, которые не соответствуют стандарту (дополнительные проблемы с обработкой); • абзацы выделены только отступом, а знак возврата каретки, жестко задающий формат, имеется в конце каждой строки (если изменить размер шрифта, которым печатается текст, то переформатирование текста будет непростой задачей).
Стандарты • In passing the door of that sanctum some time after, I caught the words ‐ • <p><q>She'll happen do better for him nor ony o' t' grand ladies.</q> And again, <q>If she ben't one o' th' handsomest, she's noan faàl, and varry good-natured; and i' his een she's fair beautiful, onybody may see that.</q> <pb n='475'>
Стандарты разметки • TEI – text encoding initiative • EAGLES-Expert Advisory Group on Language Engineering Standards • SGML - Standard Generalised Markup Language • XML (Extensible Markup Language) - язык разметки документов
Другие международные проекты и стандарты • стандарт CES (Corpus Encoding Standard); • стандарт XCES (Corpus Encoding Standard for XML); • проект ISLE (International Standards for Language Engineering); • стандарт CDIF (Corpus Document Interchange Format, BNC).
Группастандартов TEI длякорпусов(TEI P4, TEI P5) Схема описания документа: • библиографическое описание текста, • собственно метаописание текста и • "технологическое" описание: кодировка текста, история создания электронной версии и т.п.
формальное описание текста Название Автор Год Размер ……… содержательное описание текста Жанр Стиль Целевая аудитория Время создания ……… СтандартText Encoding Initiative (TEI)
TEI TEI – универсальное множество, из которого создатель корпуса может выбрать любое подмножество, релевантное для своей конкретной задачи.
Предусмотрены следующие тэги: 1. <creation> — информация о времени и месте создания текста; 2. <textClass> — классификация текста; 3. <textDesc> — описание текста; 4. <particDesc> — описание автора илиучастников акта коммуникации; 5. <settingDesc> — условия, в которых происходил акт коммуникации. Внутри каждого тэга – большое количество вложенных уточняющих тэгов. Кодирование метаданных в TEI
Классификаторы:пример тематической классификации EAGLES (1) natsci естественные науки mathematics математика physics физика chemistry химия … appsci прикладные науки medicine медицина engineering техника и технология computing вычислительная техника military военное дело marine мореплавание … socsci общественные науки anthropology антропология language лингвистика, филология …
Формальныеязыкиразметки • SGML (Standard Generalized Mark-up Language), • XML (Extensible Mark-up Language)
Пример описания на языке XML описание слова 'лошади' будет записано следующим образом: <noun lemma="лошадь" number="singular" gender=“feminine" case="genitive"> лошади </noun> <w> лошади <ana lemma=“лошадь" feats="noun,sg,m,gen“/></w> или <w> lemma="лошадь" feats="NSM2----------">лошади</w>, где NSM2 обозначает the noun (N), Singular (S), masculine (M), Genitive (2)
Разметка • Øметатекстовая разметка • Øразбиение текста на фрагменты • Øлемматизация • Øморфологическая разметка • Øсинтаксическая разметка • Øсемантическая разметка • Øфонетическая разметка другие типы разметки: • Øанафорическая • Øструктура дискурса • DRT (http://www.coli.uni-sb.de/~bos/doris/ )
Метаразметка • Факторы: • 1)факторы, относящиеся к созданию текста автором; • 2)факторы, относящиеся к внешним признакам текста; • 3)факторы, относящиеся к целям создания текста и его влиянию на аудиторию. • 4)предметная область текста; • 5)стилистические особенности текста.
Пример метаразметки: • <A BEAUMONT ELIZABETH> Author's name • <C E1> Sub-period • <O 1500-1570> Date of original • <M X> Date of manuscript • <K X> Contemporaneity of original and manuscript • <D ENGLISH> Dialect • <V PROSE> Verse or prose • <T LET PRIV> Text type • <F X> Language of foreign original • <W WRITTEN> Relationship to spoken language • <X FEMALE> Sex of author • <J INTERACTIVE> Interactive/non-interactive • <I INFORMAL> Formal/informal