230 likes | 377 Views
Компьютерный анализ естественно - языкового текста. Кафедра информационных систем в искусстве и гуманитарных науках. Компьютерный анализ естественно - языкового текста СТРУКТУРА КУРСА. Введение в дисциплину Автоматический анализ текста на морфологическом уровне
E N D
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках
Компьютерный анализ естественно-языкового текстаСТРУКТУРА КУРСА • Введение в дисциплину • Автоматический анализ текста на морфологическом уровне • Автоматический анализ текста на синтаксическом уровне • Семантический компонент в системах автоматического анализа текста
Компьютерный анализ естественно-языкового текстаСТРУКТУРА КУРСА • Автоматический анализ текста на морфологическом уровне • Морфологическийуровень в ЛИТ • Основные понятия морфологии в компьютерной морфологии • Основные процедуры компьютерной морфологии • Компьютерная морфология русского языка • Технологии морфологического анализа • «Предсказание» (типизация) • Вопросы, смежные с синтаксисом
ПЕРИОДИЗАЦИЯ РАЗРАБОТОК ПО КОМПЬЮТЕРНОЙ МОРФОЛОГИИ РУССКОГО ЯЗЫКА • Первые разработки (для машинного перевода) – сер. 50-х – конец 60-х гг. • Освоение новых функций – конец 60-х – конец 80-х гг. • Освоение словаря Зализняка – конец 80-х - конец 90-х гг. • Компьютерная морфология русского языка – «написанная книга»?.. – 2000-е гг.
ПЕРВЫЕ РАЗРАБОТКИ В ОБЛАСТИ КОМПЬЮТЕРНОЙ МОРФОЛОГИИ РУССКОГО ЯЗЫКА 1954 г. • Джорджтаунский эксперимент (январь) • Начало разработок систем МП в СССР: • с английского (Институте точной механики и вычислительной техники) • и французского (в Институте прикладной математики) языков Конец 50-х гг.: • Разработки систем МП с русского языка в США: • в Вашингтонском университете (1956-1957 г.) – со словарем словоформ • в Гарвардском университете (1959-1961) – с модулем морфологического анализа «справа налево» (inverse inflection) • Группа под руководством Ю.А.Моторина (1956/1958 г.) – англо-русский перевод Начало 60-х гг.: • Университет Уэйна (США) – перевод со словарем словоформ • Национальное бюро стандартов, Джорджтаунский университет (США) - с модулем морфологического анализа. • Перевод с русского в Гренобльском университете (Франция)
МОРФОЛОГИЧЕСКИЕ МОДУЛИ В НОВЫХ ФУНКЦИЯХ • Систематизация опыта построения морфологических синтезаторов в работах З.М.Волоцкой (1958), Т.М.Николаевой (1961), далее - О.А.Штерновой (1977) • Работа А.А.Раскиной и Т.С.Чепиго в ВИНИТИ (1967): построение словаря словоформ (нач. с 10 тыс.) с конечной целью – система перифразирования предложений на тему «Космос» • Комплексная система обработки информации в ВИНИТИ (группа Г.Г.Белоногова): ИП вместе с набором автоматизированных вспомогательных функций (описан в публикациях 1984-89 гг.)
ИСПОЛЬЗОВАНИЕ МОРФОЛОГИЧЕСКОГО АНАЛИЗА В ТЕХНОЛОГИЧЕСКОЙ ЦЕПОЧКЕ ВИНИТИ
СЛОВАРЬ ЗАЛИЗНЯКА 1974 • «Обратный словарь русского языка» 1977 • «Грамматический словарь русского языка» 1980 • 2-е изд. ГСРЯ 1987 • 3-е изд. ГСРЯ 2003 • 4-е изд. ГСРЯ (добавлены имена собственные) Автор – Андрей Анатольевич Зализняк (с 1997 г. академик РАН)
ПЕРЕНОС СЛОВАРЯ ЗАЛИЗНЯКА НА МАШИННЫЕ НОСИТЕЛИ • Автоматизированная лексикографическая система УНИЛЕКС (1987), УНИЛЕКС-2 (1989), УНИЛЕКС-Т (1993) • Объявление в журнале “Language” о возможности приобрести электронную версию ГСРЯ у Университета Бригема Янга (Brigham Young University, штат Юта) (1992) • Интеграция словаря Зализняка в STARLING - рабочую программную среду для лингвиста (ок.1989, в Интернете с 1998 - starling.rinet.ru)
ФРАГМЕНТ СТРАНИЦЫ СЛОВАРЯ ЗАЛИЗНЯКА
ДОСТОИНСТВА СЛОВАРЯ ЗАЛИЗНЯКА • полнота словника • детальность словоизменительной характеристики
ФРАГМЕНТ СЛОВАРЯ ЗАЛИЗНЯКА, ЭКСПОРТИРУЕМОГО ИЗ STARLING
ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ КОДОВ ГСРЯ В МОРФОЛОГИЧЕСКИХ МОДУЛЯХ • Могут быть слишком дробными (для обработки письменного текста) дол м 1е//1а порт м 1е имеют одинаковый набор окончаний клён м 1а • Могут быть недостаточно точными (для некоторых процедур компьютерной морфологии) восстановление начальной формы: бугор м 1*b бугра: (- ра), (+ ор) котёл м 1*b котла: (- ла), (+ ёл) псалом м 1*b псалма: (- ма), (+ ом) сон м 1*b сна: (- на), (+ он) хребет м 1*b хребта: (- та), (+ ет)
НЕДОСТАТКИ СЛОВАРЯ ЗАЛИЗНЯКА • сложная структура словоизменительной характеристики • формальная «вседозволенность» (свобода образования форм множественного числа - вреды, зарезы, неонацизмы, кратких форм - бегл, кредитово, соляны, сравнительной степени - тяжелораненее, убитее, изюбревее) • неполнота словника
РАЗРАБОТКИ МОРФОЛОГИЧЕСКИХ МОДУЛЕЙ ДЛЯ РУССКОГО ЯЗЫКА ПОСЛЕ СЛОВАРЯ ЗАЛИЗНЯКА • Коммерческие модули проверки орфографии – «ОРФО», «ПРОПИСЬ»; в составе текстовых редакторов «ЛЕКСИКОН», «ДЕЛА В ПОРЯДКЕ» • Вопрос как строить морфологические модули решается на уровне кандидатских диссертаций (О.В.Минтусова 1990, И.В.Жарков 1995, Г.О.Сидоров 1995)
КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В XXI ВЕКЕ • Модули морфологической обработки предлагаются в качестве готового к употреблению товара (Руссикон, ABBYY, Медиа-Лингва, Гарант-Парк-Интернет,… ) • Модули морфологической обработки распространяются свободно (АОТ, А.Поминов, С.Сикорский…) • Что дальше?
КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В ИНТЕРНЕТЕ (1)
КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В ИНТЕРНЕТЕ (2)
КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В XXI ВЕКЕ: повестка дня • Потребность в свободно распространяемых готовых решениях (АОТ, …) • Проблемы технической эффективности (анализа, типизации) • Качество лингвистических баз данных и их адаптируемость к конкретным задачам
ПРЕЗЕНТАЦИЯ МОРФОЛОГИЧЕСКИХ МОДУЛЕЙ АОТ См. http://www.aot.ru/docs/sokirko/MorphPPT-Dateien/frame.htm