250 likes | 367 Views
Компьютерный анализ естественно - языкового текста. Кафедра информационных систем в искусстве и гуманитарных науках. Компьютерный анализ естественно - языкового текста СТРУКТУРА КУРСА. Введение в дисциплину Автоматический анализ текста на морфологическом уровне
E N D
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках
Компьютерный анализ естественно-языкового текстаСТРУКТУРА КУРСА • Введение в дисциплину • Автоматический анализ текста на морфологическом уровне • Автоматический анализ текста на синтаксическом уровне • Семантический компонент в системах автоматического анализа текста
Компьютерный анализ естественно-языкового текстаСТРУКТУРА КУРСА • Автоматический анализ текста на синтаксическом уровне • Задачи анализа текста на синтаксическом уровне • Модели представления структуры высказывания • Примеры реализации синтаксического анализа
Компьютерный анализ естественно-языкового текстаСТРУКТУРА КУРСА • Автоматический анализ текста на синтаксическом уровне • Задачи анализа текста на синтаксическом уровне • Модели представления структуры высказывания • Примеры реализации синтаксического анализа
ЗАДАЧИ АНАЛИЗА ТЕКСТА НА СИНТАКСИЧЕСКОМ УРОВНЕ • Задача - построение синтаксического представления текста, т.е. синтаксической структуры • Сфера действия ограничена предложением • На входе – цепочка словоформ с приписанными им грамматическими характеристиками (в том объеме, в котором это позволяет сделать лексико-морфоло-гический анализ и снятие грамматических неоднозначностей) • На выходе полного синтаксического анализа – иерархическая структура (обычно дерево).
Компьютерный анализ естественно-языкового текстаСТРУКТУРА КУРСА • Автоматический анализ текста на синтаксическом уровне • Задачи анализа текста на синтаксическом уровне • Модели представления структуры высказывания • Примеры реализации синтаксического анализа
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА • Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться?
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА • Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться? Мама мыла раму
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА • Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться? Мама мыла раму
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА • Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться? Как формально интерпретировать??? Мама мыла раму
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА • Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться? Первый вариант формального метаязыка: Мама мыла раму
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА • Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться? Первый вариант формального метаязыка: Структура составляющих (Мама (мыла раму))
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА • Мы хотим наши знания о синтаксисе формализовать.А каким метаязыком мы можем при этом пользоваться? Первый вариант формального метаязыка: Структура составляющих Мама мыла раму
СТРУКТУРА СОСТАВЛЯЮЩИХнеформальное определение • Составляющие – общее название для отдельных слов и групп в предложении, где группы – это отрезки предложения разной длины, которые объединяют более тесно связанные друг с другом единицы меньшего размера (тоже группы или отдельные слова) (Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку)))
СОСТАВЛЯЮЩИЕ(почти) формальное определение - преамбула • Предложение рассматривается как конечное множество (элемент множества - словоупотребление) с определенным на нем отношением линейного порядка (следование слева направо). Благодаря линейному порядку может быть введено понятие отрезка. • Составляющие определяются в виде системы, т.е. в виде их (составляющих – одиночных слов и групп слов в виде отрезков) множества, на элементы которого накладываются некоторые, чисто формальные, ограничения.
СОСТАВЛЯЮЩИЕ(почти) формальное определение - формулировка • Система составляющих для конечного линейно упорядоченного множества S – это такое множество C отрезков этого множества S, которое удовлетворяет следующим условиям: - SC (само предложение целиком является элементом системы своих составляющих) - wS wC (каждое отдельно взятое словоупотребление в предложении является элементом системы составляющих этого предложения) - α,β, являющихся отрезками предложения S и входящих в C, либо αβ=, либо αβ, либо βα(любые две составляющие некоторого предложения или не пересекаются, или содержатся друг в друге)
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХмотивировка • В примере ниже: целесообразно отразить то общее, что есть между составляющими {Эти школьники}, {диктант по русскому языку}, {русскому языку} путем отнесения их к одному классу • Ответив на вопрос: какие слова или группы слов (т.е. составляющие) в предложении относятся к одному и тому же грамматическому классу?, можно будет перейти к ответу на вопрос: по каким правилам составляющие одного класса складываются из составляющих других классов? (вопрос собственно о структуре) (Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку)))
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХформальное определение • Размеченная система составляющих –упорядоченная тройка <C, W, φ>, где C – система составляющих, W – множество меток(список классов, введенных в данной классификации, иначе называемых «фразовые категории»), φ – отображение C в множество всех непустых подмножеств W(список пар «составляющая + метка/метки, приписанные данной составляющей»).
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХпример 1 (Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку))) S NP VP PP NP AnV NP Det N Adv Aux V N Prep A N
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХпример 1 (Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку))) S NP VP PP NP AnV NP Det N Adv Aux V N Prep A N
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХпример 2
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХпример 3
РЕКОМЕНДОВАННАЯ ЛИТЕРАТУРА • Тестелец Я. Г. Введение в общий синтаксис. М., 2001. (Глава II) • Гладкий А. В. Синтаксические структуры естественного языка в автоматизированных системах общения. М., 1985. (Глава 2)