370 likes | 553 Views
Ефименко И.В. Irina.Efimenko@avicomp.ru. ЛИНГВИСТИЧЕСКИЕ АСПЕКТЫ КРОСС-ЯЗЫКОВОГО РЕФЕРИРОВАНИЯ: СИНТЕЗ ТЕКСТОВ ПОД УПРАВЛЕНИЕМ ПРЕДМЕТНЫХ ОНТОЛОГИЙ. План презентации. Введение Системы семейства OntosMiner Shallow- подход Общие принципы и схема алгоритма кросс-языкового реферирования
E N D
Ефименко И.В.Irina.Efimenko@avicomp.ru ЛИНГВИСТИЧЕСКИЕ АСПЕКТЫ КРОСС-ЯЗЫКОВОГО РЕФЕРИРОВАНИЯ: СИНТЕЗ ТЕКСТОВ ПОД УПРАВЛЕНИЕМ ПРЕДМЕТНЫХ ОНТОЛОГИЙ
План презентации • Введение • Системы семейства OntosMiner • Shallow-подход • Общие принципы и схема алгоритма кросс-языкового реферирования • Генерация текста: пример • Заключение
Введение • Анализ под управлением предметных онтологий • Синтез под управлением предметных онтологий • Кросс-языковое реферирование • Автоматическое реферирование • Машинный перевод • Проблема создания универсального семантического языка – «переходной» репрезентациимежду языком-целью и языком-источником Когнитивные карты (С-Маps)
Введение • Отсутствие необходимости построения дополнительного (исходного) реферата на языке-источнике. • Онтология в основе системы - «гарант» релевантности: • С точки зрения предметной области (сфера экстралингвистики) • С точки зрения текста (сфера лингвистики) в процессе генерации итогового текста используется набор лингвистических шаблонов, аналогичных формальным конструкциям, положенным в основуанализа
Введение • Системы типа Information Extraction. Извлечение экземпляров объектов и связей между ними
МОСКВА, 15 мая - РИА Новости. Руководитель Росатома Сергей Кириенко 19-23 мая в ходе поездки в США проведет ряд рабочих встреч, посвященных двустороннему сотрудничеству в области мирного использования атомной энергии, говорится в сообщении пресс-службы Росатома. Планируется, что Кириенко 22 мая проведет переговоры с министром энергетики США Самюэлом Бодманом и руководителем комиссии по ядерному регулированию США Нильсом Диазом. Руководитель Росатома Сергей Кириенко 19-23 мая в ходе поездки в США проведет ряд рабочих встреч… Введение:80-20 Текст Модель типы объектов и типы отношений Структурированные данные РАБОТАТЬ В ОРГАНИЗАЦИИ ОРГАНИЗАЦИЯ ПЕРСОНА
МОСКВА, 15 мая - РИА Новости. Руководитель Росатома Сергей Кириенко 19-23 мая в ходе поездки в США проведет ряд рабочих встреч, посвященных двустороннему сотрудничеству в области мирного использования атомной энергии, говорится в сообщении пресс-службы Росатома. Планируется, что Кириенко 22 мая проведет переговоры с министром энергетики США Самюэлом Бодманом и руководителем комиссии по ядерному регулированию США Нильсом Диазом. МОСКВА, 15 мая - РИА Новости. Руководитель Росатома Сергей Кириенко 19-23 мая в ходе поездки в США проведет ряд рабочих встреч, посвященных двустороннему сотрудничеству в области мирного использования атомной энергии, говорится в сообщении пресс-службы Росатома. Планируется, что Кириенко 22 мая проведет переговоры с министром энергетики США Самюэлом Бодманом и руководителем комиссии по ядерному регулированию США Нильсом Диазом. Введение Тексты Отдельные графы База знаний
Системы OntosMiner:Фрагмент текста в среде GATE
Системы OntosMiner:Фрагмент когнитивной карты
Системы OntosMiner:Когнитивная карта множества сводок
Shallow-подход: Общие принципы • Использование системы шаблонов, ориентированных на извлечение сущностей и связей между ними, являющихся экземплярами представленных в онтологии типов. • Применение аналогичных принципов при генерации текстов автоматическое реферирование на основе лингвистических шаблонов под управлением предметных онтологий. • Все промежуточные операции могут выполняться на формальных конструкциях-шаблонах, а не на реальных предложениях. Генерация естественноязыковых фрагментов происходит на самом последнем этапе, когда системой получены все данные, необходимые для порождения гладкого и семантически насыщенного текста.
Shallow-подход: От NLP к NLP «Полиция расстреляла демонстрацию чернокожих» «Во время демонстрации застрелено двое чернокожих» «Гибель участников демонстрации» «Трагический случай» Данный принцип помогает «исчислить» множество различных структур, используемых в языке для описания той или иной ситуации: (пассив-актив, эллиптические конструкции, синтаксические нули...) «И.И. Иванов пришел работать в РАО ЕЭС», «И.И. Иванов был принят на работу в РАО ЕЭС», «И.И. Иванов – сотрудник РАО ЕЭС», «После прихода И.И. Иванова в РАО ЕЭС»...
Онтология Система шаблонов 1.Исх. текст 2.СЕ (на основе шаблонов) 3.CMap 7.Использование метрик 5.Формальное представление отдельных фрагментов конечного текста 9.Применение системы весов 4. Извлечение данных о шаблоне (для узлов и дуг) 8.Выбор дискурс. схемы 10.Расположение отдельных фрагментов в необходимом порядке 11.Лингв. (в т.ч. стилист.) операции на формальном представлении конечного текста в целом (анафорические замены, «переходные» фрагменты и т.д.) 12. Конечный текст Кросс-языковое реферирование:Схема алгоритма 6.Лингв. (в т.ч. стилист.) операции на отдельных фрагментах формальных представлений
Кросс-языковое реферирование:«Центры кристаллизации» Система метрик (оценка релевантности объектов и связей) RANLP-2005, [V.Khoroshevsky]
Кросс-языковое реферирование:Анализ корпуса языка-источника Отсутствие необходимости работать с фиксированной языковой парой
Кросс-языковое реферирование:Сопоставление шаблонов языка-источника и языка-цели
Кросс-языковое реферирование:Значения атрибутов в шаблоне, специфицирующем фрагмент исходного текста, и варианты конструкций в языке-цели • Разрешение конфликтов атрибутов • Набор «нейтральных» конструкций
Sergey Brin, a native of Moscow, received a bachelor of science degree with honors in mathematics and computer science from the University of Maryland at College Park. Brin is a recipient of a National Science Foundation Graduate Fellowship as well as an honorary MBA from Instituto de Empresa . It was at Stanford where he met Larry Page and worked on the project that became Google. Together they founded Google Inc., and Brin continues to share responsibility for day-to-day operations with Larry Page and Eric Schmidt. Генерация текста:исходный текст и C-Map
Генерация текста:Объекты, связи и шаблоны, извлеченные из исходного текста и представленные в когнитивной карте
Генерация текста:Исходное представление, (1) Экземпляр объекта “Лицо” {Person1, syntactic role = “subject” (определяет не только синт. роль как таковую, но и ряд других характеристик, например, значение падежа)} Глагол-ядро экземпляра онтологического предиката “получать научную степень” {base = “receive”, tense = “past simple”, gender = any, number = any, voice = “active”} Экземпляр объекта “Научная степень” (атрибут отношения “получать научную степень”) {base = “bachelor of science”, number = “singular”, honors = “yes”, speciality = [“mathematics”, “computer science”], subspeciality = “-”, organization = “Organization1”, /Вложенный экземпляр онтологического предиката “Располагаться”: “Organization” object {Organization1} “Located In”Relation prepositional construction {name = “at”} “Location” object {Location1}/}
Генерация текста:Исходное представление, (2) Экземпляробъекта “Лицо” {Person1, syntactic role = “subject”} Глагол-ядро экземпляра онтологического предиката “получать научную степень” {base = “receive”, tense = “past simple”, gender = any, number = any, voice = “active”} Экземпляр объекта “Научная степень” (атрибут отношения “получать научную степень”) {base = “MBA”, honors = “yes”, number = “singular”, speciality = “-”, subspeciality = “-”, organization = “Organization2”}
Генерация текста:Исходное представление, (3) Списокобъектовтипа “Лицо” {[Person1, Person2], syntactic role = “subject”} Глагол-ядро экземпляра онтологического предиката “быть основателем” {base = “found”, tense = “past simple”, gender = any, number = any, voice = “active”} Экземпляробъекта “Организация” {Organization3, syntactic role = “object”} – необходима спецификация синтаксической роли, поскольку в рамках рассматриваемой онтологии данный тип объекта может в данном сем. отношении играть различные роли; кроме того, роли определяются грамматическими характеристиками «ядерных» конструкций
Генерация текста:Предварительные трансформации • Трансформация 1. Объединение связей: • общий узел-источник («первый актант»), • идентичность шаблонов (с точностью до набора и значений атрибутов). • В случае, если результирующая конструкция недостаточно элегантна, возможна генерация двух текстовых фрагментов, соединенных искусственно созданной «переходной» структурой. Экземпляробъекта “Лицо” {Person1, syntactic role = “subject”} Глагол-ядро экземпляра онтологического предиката “получать научную степень” {base = “receive”, tense = “past simple”, gender = any, number = any, voice = “active”} Список объектов типа “Научная степень” {[{base1 = “bachelor of science”, number = “singular”, honors1 = “yes”, speciality1 = [“mathematics”, “computer science”], subspeciality1 = “-”, organization1 = “Organization1” /Вложенный экземпляр онтологического предиката “Располагаться”: “Organization” object {name = “Organization1”} “Located In”Relation prepositional construction {name = “at”} “Location” object {name = “Location1”}/} , { base2 = “MBA”, number2 = “singular”, honors2 = “yes”, speciality2 = “-”, subspeciality2 = “-”, organization2 = “Organization2”}]}
Генерация текста:Предварительные трансформации • Трансформация 2. Формирование списочной структуры и перемещение фокуса на следующий экземпляр объекта того же типа: Экземпляробъекта “Лицо” {pronoun, number = “singular”, gender = “male, syntactic role = “subject”} Глагол-ядро экземпляра онтологического предиката “быть основателем” {base = “found”, tense = “past simple”, gender = any, number = any, voice = “active”} Экземпляробъекта “Организация” {Organization3, syntactic role = “object”} Элемент-связка {name = “together with”} Экземпляробъекта “Лицо” {Person2, syntactic role = “indirect object”}
Генерация текста:Итоговые трансформации, (1) Экземпляр объекта “Лицо” {Person1, name = “Сергей Брин” (первое имя – словарный аналог исходного, значение фамилии - результат транслитерации), синтаксическая роль = “subject”, падеж = “nom” (следствие синт.роли)} → результирующий фрагмент текста: “Сергей Брин” Глагол-ядро экземпляра онтологического предиката “получать научную степень” {base = “получить”, tense = “past”, aspect = “perfective” (информация, заданная на подготовительном этапе при формировании шаблонов-аналогов, см. раздел 3), род = “male” (на основе рода субъекта), число = “singular”(на основе числа субъекта), залог = “active”} → результирующий фрагмент текста: “получил”
Генерация текста:Итоговые трансформации, (2) Список объектов типа “Научная степень” 1ый элемент списка {name = “степень (base {case = “gen”, number = “singular” }) (в области (speciality {case = “gen”}))? (специализация: (subspeciality {case = “nom”)}))? (honors {case = “instr”}) (organization {case = “prep”, number = “singular”}) ” (констукция в целом и атрибуты ее фрагментов заданы в процессе нахождения шаблонов-аналогов, раздел 3), number = “singular”, case = “acc” (задано управлением глагола), base = “бакалавр”, honors = “yes”, speciality = [“математика”, “кибернетика”], subspeciality = “-”, organization = {Organization1, name =“Университет Мэриленда” (здесь может фигурировать словарный аналог и/или результат транслитерации/перевода)}, /Вложенный экземпляр онтологического предиката “Располагаться”: “Organization” object {name = null} “Located In”Relation prepositional construction {name = “расположенный в”, case = “prep” (задано падежом организации в объекте “Научная степеньt), number = “singular”} “Location” object {Location1, name = “Колледж Парк” (здесь может фигурировать словарный аналог и/или результат транслитерации/перевода), case = “prep” (задано моделью управления предлога)}/ }→ результирующий фрагмент текста: “степень бакалавра в области математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж Парке ” Элемент-связка {name = “а также”} → результирующий фрагмент текста: “а также ” 2ой элемент списка {...}→ результирующий фрагмент текста: “степень MBA с отличием в Институте Эмпреса ”
Генерация текста:Текст реферата • Вариант 1.Сергей Брин получил степень бакалавра в области математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж Парке, а также степень MBA с отличием в Институте Эмпреса. Он основал корпорацию Гугл вместе с Ларри Пейджем. • Вариант 2.Сергей Брин получил степень бакалавра в области математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж Парке. Кроме того (искусственно сгенерированный фрагмент), он (анафорическая замена) получил степень MBA c отличием в Институте Эмпреса. Он основал корпорацию Гугл вместе с Ларри Пейджем. • Смещение фокуса • Генерация последующих фрагментов
Генерация текста: Текущее состояние Генерация Реферата об Объекте в виде текста по коллекции документов
Заключение • Постановка задачи синтеза под управлением предметных онтологий. • Использование принципов онтологического подхода при решении задачи моно- и кросс-языкового реферирования. • Основная задача: расширение спектра порождаемых естественноязыковых конструкций
Спасибо за внимание!Thank(аналог ключевой лексемы связи)You(генерация эксплицитного представления актанта)for(информация по модели управления)Your(генерация эксплицитного представления актанта)Attention(аналог ключевой лексемы объекта)