230 likes | 442 Views
Некоторые особенности формирования электронного корпуса текстов с синтаксической разметкой Рогов А.А., Гурин Г.Б., Котов А.А., Сидоров Ю.В., Седов А.В., Некрасов М.Ю. Презентация. Упрощенная структура словаря. Система грамматической атрибуции. Часть речи. Глагол. Существительное.
E N D
Некоторые особенности формирования электронного корпуса текстов с синтаксической разметкой Рогов А.А., Гурин Г.Б., Котов А.А., Сидоров Ю.В., Седов А.В., Некрасов М.Ю. Презентация
Упрощенная структура словаря Система грамматической атрибуции Часть речи Глагол Существительное Прилагательное Время Форма Число Падеж Настоящее Прошедшее Именительный Род Мужской Женский
Сложности, возникающие при создании грамматического словаря XIX века Написание XIX-го века Современное написание Мужчина Мужчина Мужщина Музжчина
Кофе Печь ? ? Мужской род Средний род Существительное Глагол Сложности, возникающие при создании грамматического словаря
БД морфологии Система грамматической атрибуции WORD TEXT ENTRIES ID: integer ID: integer ID: integer Word: Varchar(200); TextId: integer; ChapterIndex: integer; ParagraphIndex: integer; SentenceIndex: integer; WordIndex: integer; Dictword_id: integer; Title: Varchar(200) Author_ID: integer Magazine_ID: integer Magazine_No: integer Publication_date: timestamp Comment: Blob Url: Varchar(255) Word: Varchar(200); InitialForm: Varchar(200); Modern: Varchar(200); Param_i: integer; MENU_ITEMS MENU_PARAMS ID: integer ID: integer ItemCaption: Varchar(200); ParamsCount: integer; Param01: integer; … Param30: integer; ParamCaption: Varchar(200); ItemsCount: integer; Item01: integer; … Item30: integer;
Программа для морфологии Система грамматической атрибуции
Выбор синтаксического аннотирования Существующие корпусы со встроенной синтаксической разметкой опираются либо на общепринятые классификации традиционной («школьной») грамматики (Хельсинкский аннотированный корпус русских текстов ХАНКО; http://www.slav.helsinki.fi/hanco/index.html), либо на доступные узкому кругу специалистов и требующие детального предварительного знакомства классификации, например разметка в терминах деревьев зависимостей и синтаксических отношений, принятых в теории «Смысл-Текст», как в Национальном корпусе русского языка (http://www.ruscorpora.ru). В создаваемом корпусе в основу синтаксической разметки положена идея структурной схемы в понимании Н.Ю.Шведовой и ее последователей, наиболее полно отраженная и развитая в «Русской грамматике». Создание полного списка структурных схем простого предложения (в корпусе размечаются предикативные клаузы) – отдельная научная проблема, не имеющая пока своего окончательного решения. На данный момент в научном обороте существуют как минимум три списка структурных схем – различные как количественно, так и качественно: 1) список схем «Русской грамматики» (1980); 2) список «минимальных схем» В.А.Белошапковой; 3) список схем О.А.Крыловой и Е.Н.Ширяева.
Последняя классификация с небольшими изменениями и дополнениями была взята за основу разметки настоящего корпуса. Этот выбор объясняется двумя причинами: во-первых, использование структурных схем для синтаксической разметки в корпусе имеет свою специфику, во-вторых, ситуация изучения вопроса такова, что ни один из существующих списков структурных схем нельзя признать окончательно полным. На выходе мы получили наиболее полный и сбалансированный список структурных схем простого предложения, который был использован для синтаксической разметки текстов.
Свободные структурные двухкомпонентные схемы А. Раздельнопредикативные схемы: 1. Подлежащно-сказуемостные схемы 1а. С координируемыми главными членами N1+Vf: Иван читает газету; Пиши письмо; Ты бы подумал. N1+(сор)+N1: Бог есть любовь. N1+Adj: День сегодня холодный;Старики ворчливы. N1+Part: Брак расторгнут. 1б.С некоординируемыми главными членами. N1+ N2…(Adv): Отец в саду; Сад недалеко. N1+Inf: Мой долг – воспрепятствовать вам; Какая мука — воспитывать! N1+(сор)+Praed: Шахматы — это здорово. Inf+Praed(part): Читать неохота, Курить вредно. Inf+(сор)+N1: Помогать ему – моя обязанность. Inf+Vf3s: Рассчитывать на большее не приходится. Inf+Pronneg: Спорить тут не о чем. Inf+Inf: Курить — здоровью вредить.
2. Неподлежащно-сказуемостные схемы. N2+(не) Vf3s: Беды не случится. N2/N4+(не) Praed(part): Следов не видно, Нарушений не обнаружено, Людей жаль. N4+Vf3s: Ивана укачивает. N2+N1quant (Adv quant): Народу толпа, Ягод полно. N2+нет: Замечаний нет. N3+ Vf3s: Ей не спится. N3+Praed: Мне лень. N2+никого/ничего: Народу никого.
Синтаксическая атрибуция Система синтаксической атрибуции 4 клаузы: • Вася пошел в бассейн • Вася плавал там до вечера • Тот самый отличник и староста • Который открылся на днях
Программа синтаксиса Система синтаксической атрибуции
БД синтаксической атрибуции Система синтаксической атрибуции PARTS TEXTS PARTCLOUSES CLOUSES ID: integer ID: integer ID: integer ID: integer Title: Varchar; Author: Varchar; TextId: integer; ChapterIndex: integer; ParagraphIndex: integer; SentenceIndex: integer; PartIndex: integer; Part: Varchar(1000); PartID: integer; ClouseID: integer; ClouseIndex: integer; Scheme: integer; StartPart: integer;
Система синтаксической атрибуции Анализ использования структурных схем
Смешанная БД грамматической и синтаксической атрибуции PARTS TEXTS PARTCLOUSES CLOUSES ID: integer ID: integer ID: integer ID: integer Title: Varchar; Author: Varchar; TextId: integer; ChapterIndex: integer; ParagraphIndex: integer; SentenceIndex: integer; PartIndex: integer; Part: Varchar(1000); PartID: integer; ClouseID: integer; ClouseIndex: integer; Scheme: integer; StartPart: integer; WORD ENTRIES ID: integer ID: integer Word: Varchar(200); PartId: integer; WordIndex: integer; Dictword_id: integer; Word: Varchar(200); InitialForm: Varchar(200); Modern: Varchar(200); Param_i: integer;
Оптимизация данных под поиск • Оптимизация по скорости получения информации • Оптимизация по объёму хранимой информации • Оптимизация количества информации единовременно предоставляемой пользователю
Результаты оптимизации • Хранение всех признаков в одной записи • Хранение пар: слово – его параметры • Количество строк: 10
Реализованные типы поиска • Поиск по словоформе • Поиск по грамматическим признакам • Поиск по синтаксическим признакам • Поиск контекста • Алфавитный и частотный словари
Благодарю за внимание http://smalt.karelia.ru