1 / 34

Ефименко И.В. Irina.Efimenko@avicomp.ru

Ефименко И.В. Irina.Efimenko@avicomp.ru. ЛИНГВИСТИЧЕСКИЕ АСПЕКТЫ КРОСС-ЯЗЫКОВОГО РЕФЕРИРОВАНИЯ: СИНТЕЗ ТЕКСТОВ ПОД УПРАВЛЕНИЕМ ПРЕДМЕТНЫХ ОНТОЛОГИЙ. План презентации. Введение Системы семейства OntosMiner Shallow- подход Общие принципы и схема алгоритма кросс-языкового реферирования

leona
Download Presentation

Ефименко И.В. Irina.Efimenko@avicomp.ru

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ефименко И.В.Irina.Efimenko@avicomp.ru ЛИНГВИСТИЧЕСКИЕ АСПЕКТЫ КРОСС-ЯЗЫКОВОГО РЕФЕРИРОВАНИЯ: СИНТЕЗ ТЕКСТОВ ПОД УПРАВЛЕНИЕМ ПРЕДМЕТНЫХ ОНТОЛОГИЙ

  2. План презентации • Введение • Системы семейства OntosMiner • Shallow-подход • Общие принципы и схема алгоритма кросс-языкового реферирования • Генерация текста: пример • Заключение

  3. Введение • Анализ под управлением предметных онтологий • Синтез под управлением предметных онтологий • Кросс-языковое реферирование • Автоматическое реферирование • Машинный перевод • Проблема создания универсального семантического языка – «переходной» репрезентациимежду языком-целью и языком-источником Когнитивные карты (С-Маps)

  4. Введение • Отсутствие необходимости построения дополнительного (исходного) реферата на языке-источнике. • Онтология в основе системы - «гарант» релевантности: • С точки зрения предметной области (сфера экстралингвистики) • С точки зрения текста (сфера лингвистики) в процессе генерации итогового текста используется набор лингвистических шаблонов, аналогичных формальным конструкциям, положенным в основуанализа

  5. Введение • Системы типа Information Extraction. Извлечение экземпляров объектов и связей между ними

  6. МОСКВА, 15 мая - РИА Новости. Руководитель Росатома Сергей Кириенко 19-23 мая в ходе поездки в США проведет ряд рабочих встреч, посвященных двустороннему сотрудничеству в области мирного использования атомной энергии, говорится в сообщении пресс-службы Росатома. Планируется, что Кириенко 22 мая проведет переговоры с министром энергетики США Самюэлом Бодманом и руководителем комиссии по ядерному регулированию США Нильсом Диазом. Руководитель Росатома Сергей Кириенко 19-23 мая в ходе поездки в США проведет ряд рабочих встреч… Введение:80-20 Текст Модель типы объектов и типы отношений Структурированные данные РАБОТАТЬ В ОРГАНИЗАЦИИ ОРГАНИЗАЦИЯ ПЕРСОНА

  7. МОСКВА, 15 мая - РИА Новости. Руководитель Росатома Сергей Кириенко 19-23 мая в ходе поездки в США проведет ряд рабочих встреч, посвященных двустороннему сотрудничеству в области мирного использования атомной энергии, говорится в сообщении пресс-службы Росатома. Планируется, что Кириенко 22 мая проведет переговоры с министром энергетики США Самюэлом Бодманом и руководителем комиссии по ядерному регулированию США Нильсом Диазом. МОСКВА, 15 мая - РИА Новости. Руководитель Росатома Сергей Кириенко 19-23 мая в ходе поездки в США проведет ряд рабочих встреч, посвященных двустороннему сотрудничеству в области мирного использования атомной энергии, говорится в сообщении пресс-службы Росатома. Планируется, что Кириенко 22 мая проведет переговоры с министром энергетики США Самюэлом Бодманом и руководителем комиссии по ядерному регулированию США Нильсом Диазом. Введение Тексты Отдельные графы База знаний

  8. Системы OntosMiner: примеры онтологий

  9. Системы OntosMiner:примеры онтологий

  10. Цели и задачи настоящей работы

  11. Системы OntosMiner:Фрагмент текста в среде GATE

  12. Системы OntosMiner:Фрагмент когнитивной карты

  13. Системы OntosMiner:Когнитивная карта множества сводок

  14. Shallow-подход: Общие принципы • Использование системы шаблонов, ориентированных на извлечение сущностей и связей между ними, являющихся экземплярами представленных в онтологии типов. • Применение аналогичных принципов при генерации текстов автоматическое реферирование на основе лингвистических шаблонов под управлением предметных онтологий. • Все промежуточные операции могут выполняться на формальных конструкциях-шаблонах, а не на реальных предложениях. Генерация естественноязыковых фрагментов происходит на самом последнем этапе, когда системой получены все данные, необходимые для порождения гладкого и семантически насыщенного текста.

  15. Shallow-подход: От NLP к NLP «Полиция расстреляла демонстрацию чернокожих» «Во время демонстрации застрелено двое чернокожих» «Гибель участников демонстрации» «Трагический случай» Данный принцип помогает «исчислить» множество различных структур, используемых в языке для описания той или иной ситуации: (пассив-актив, эллиптические конструкции, синтаксические нули...) «И.И. Иванов пришел работать в РАО ЕЭС», «И.И. Иванов был принят на работу в РАО ЕЭС», «И.И. Иванов – сотрудник РАО ЕЭС», «После прихода И.И. Иванова в РАО ЕЭС»...

  16. Онтология Система шаблонов 1.Исх. текст 2.СЕ (на основе шаблонов) 3.CMap 7.Использование метрик 5.Формальное представление отдельных фрагментов конечного текста 9.Применение системы весов 4. Извлечение данных о шаблоне (для узлов и дуг) 8.Выбор дискурс. схемы 10.Расположение отдельных фрагментов в необходимом порядке 11.Лингв. (в т.ч. стилист.) операции на формальном представлении конечного текста в целом (анафорические замены, «переходные» фрагменты и т.д.) 12. Конечный текст Кросс-языковое реферирование:Схема алгоритма 6.Лингв. (в т.ч. стилист.) операции на отдельных фрагментах формальных представлений

  17. Кросс-языковое реферирование:«Центры кристаллизации» Система метрик (оценка релевантности объектов и связей) RANLP-2005, [V.Khoroshevsky]

  18. Кросс-языковое реферирование:Анализ корпуса языка-источника Отсутствие необходимости работать с фиксированной языковой парой

  19. Кросс-языковое реферирование:Сопоставление шаблонов языка-источника и языка-цели

  20. Кросс-языковое реферирование:Значения атрибутов в шаблоне, специфицирующем фрагмент исходного текста, и варианты конструкций в языке-цели • Разрешение конфликтов атрибутов • Набор «нейтральных» конструкций

  21. Sergey Brin, a native of Moscow, received a bachelor of science degree with honors in mathematics and computer science from the University of Maryland at College Park. Brin is a recipient of a National Science Foundation Graduate Fellowship as well as an honorary MBA from Instituto de Empresa . It was at Stanford where he met Larry Page and worked on the project that became Google. Together they founded Google Inc., and Brin continues to share responsibility for day-to-day operations with Larry Page and Eric Schmidt. Генерация текста:исходный текст и C-Map

  22. Генерация текста:Объекты, связи и шаблоны, извлеченные из исходного текста и представленные в когнитивной карте

  23. Генерация текста:Исходное представление, (1) Экземпляр объекта “Лицо” {Person1, syntactic role = “subject” (определяет не только синт. роль как таковую, но и ряд других характеристик, например, значение падежа)} Глагол-ядро экземпляра онтологического предиката “получать научную степень” {base = “receive”, tense = “past simple”, gender = any, number = any, voice = “active”} Экземпляр объекта “Научная степень” (атрибут отношения “получать научную степень”) {base = “bachelor of science”, number = “singular”, honors = “yes”, speciality = [“mathematics”, “computer science”], subspeciality = “-”, organization = “Organization1”, /Вложенный экземпляр онтологического предиката “Располагаться”: “Organization” object {Organization1} “Located In”Relation prepositional construction {name = “at”} “Location” object {Location1}/}

  24. Генерация текста:Исходное представление, (2) Экземпляробъекта “Лицо” {Person1, syntactic role = “subject”} Глагол-ядро экземпляра онтологического предиката “получать научную степень” {base = “receive”, tense = “past simple”, gender = any, number = any, voice = “active”} Экземпляр объекта “Научная степень” (атрибут отношения “получать научную степень”) {base = “MBA”, honors = “yes”, number = “singular”, speciality = “-”, subspeciality = “-”, organization = “Organization2”}

  25. Генерация текста:Исходное представление, (3) Списокобъектовтипа “Лицо” {[Person1, Person2], syntactic role = “subject”} Глагол-ядро экземпляра онтологического предиката “быть основателем” {base = “found”, tense = “past simple”, gender = any, number = any, voice = “active”} Экземпляробъекта “Организация” {Organization3, syntactic role = “object”} – необходима спецификация синтаксической роли, поскольку в рамках рассматриваемой онтологии данный тип объекта может в данном сем. отношении играть различные роли; кроме того, роли определяются грамматическими характеристиками «ядерных» конструкций

  26. Генерация текста:Предварительные трансформации • Трансформация 1. Объединение связей: • общий узел-источник («первый актант»), • идентичность шаблонов (с точностью до набора и значений атрибутов). • В случае, если результирующая конструкция недостаточно элегантна, возможна генерация двух текстовых фрагментов, соединенных искусственно созданной «переходной» структурой. Экземпляробъекта “Лицо” {Person1, syntactic role = “subject”} Глагол-ядро экземпляра онтологического предиката “получать научную степень” {base = “receive”, tense = “past simple”, gender = any, number = any, voice = “active”} Список объектов типа “Научная степень” {[{base1 = “bachelor of science”, number = “singular”, honors1 = “yes”, speciality1 = [“mathematics”, “computer science”], subspeciality1 = “-”, organization1 = “Organization1” /Вложенный экземпляр онтологического предиката “Располагаться”: “Organization” object {name = “Organization1”} “Located In”Relation prepositional construction {name = “at”} “Location” object {name = “Location1”}/} , { base2 = “MBA”, number2 = “singular”, honors2 = “yes”, speciality2 = “-”, subspeciality2 = “-”, organization2 = “Organization2”}]}

  27. Генерация текста:Предварительные трансформации • Трансформация 2. Формирование списочной структуры и перемещение фокуса на следующий экземпляр объекта того же типа: Экземпляробъекта “Лицо” {pronoun, number = “singular”, gender = “male, syntactic role = “subject”} Глагол-ядро экземпляра онтологического предиката “быть основателем” {base = “found”, tense = “past simple”, gender = any, number = any, voice = “active”} Экземпляробъекта “Организация” {Organization3, syntactic role = “object”} Элемент-связка {name = “together with”} Экземпляробъекта “Лицо” {Person2, syntactic role = “indirect object”}

  28. Генерация текста:Итоговые трансформации, (1) Экземпляр объекта “Лицо” {Person1, name = “Сергей Брин” (первое имя – словарный аналог исходного, значение фамилии - результат транслитерации), синтаксическая роль = “subject”, падеж = “nom” (следствие синт.роли)} → результирующий фрагмент текста: “Сергей Брин” Глагол-ядро экземпляра онтологического предиката “получать научную степень” {base = “получить”, tense = “past”, aspect = “perfective” (информация, заданная на подготовительном этапе при формировании шаблонов-аналогов, см. раздел 3), род = “male” (на основе рода субъекта), число = “singular”(на основе числа субъекта), залог = “active”} → результирующий фрагмент текста: “получил”

  29. Генерация текста:Итоговые трансформации, (2) Список объектов типа “Научная степень” 1ый элемент списка {name = “степень (base {case = “gen”, number = “singular” }) (в области (speciality {case = “gen”}))? (специализация: (subspeciality {case = “nom”)}))? (honors {case = “instr”}) (organization {case = “prep”, number = “singular”}) ” (констукция в целом и атрибуты ее фрагментов заданы в процессе нахождения шаблонов-аналогов, раздел 3), number = “singular”, case = “acc” (задано управлением глагола), base = “бакалавр”, honors = “yes”, speciality = [“математика”, “кибернетика”], subspeciality = “-”, organization = {Organization1, name =“Университет Мэриленда” (здесь может фигурировать словарный аналог и/или результат транслитерации/перевода)}, /Вложенный экземпляр онтологического предиката “Располагаться”: “Organization” object {name = null} “Located In”Relation prepositional construction {name = “расположенный в”, case = “prep” (задано падежом организации в объекте “Научная степеньt), number = “singular”} “Location” object {Location1, name = “Колледж Парк” (здесь может фигурировать словарный аналог и/или результат транслитерации/перевода), case = “prep” (задано моделью управления предлога)}/ }→ результирующий фрагмент текста: “степень бакалавра в области математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж Парке ” Элемент-связка {name = “а также”} → результирующий фрагмент текста: “а также ” 2ой элемент списка {...}→ результирующий фрагмент текста: “степень MBA с отличием в Институте Эмпреса ”

  30. Генерация текста:Текст реферата • Вариант 1.Сергей Брин получил степень бакалавра в области математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж Парке, а также степень MBA с отличием в Институте Эмпреса. Он основал корпорацию Гугл вместе с Ларри Пейджем. • Вариант 2.Сергей Брин получил степень бакалавра в области математики и кибернетики с отличием в Университете Мэриленда, расположенном в Колледж Парке. Кроме того (искусственно сгенерированный фрагмент), он (анафорическая замена) получил степень MBA c отличием в Институте Эмпреса. Он основал корпорацию Гугл вместе с Ларри Пейджем. • Смещение фокуса • Генерация последующих фрагментов

  31. Генерация текста: Текущее состояние Генерация Реферата об Объекте в виде текста по коллекции документов

  32. Заключение • Постановка задачи синтеза под управлением предметных онтологий. • Использование принципов онтологического подхода при решении задачи моно- и кросс-языкового реферирования. • Основная задача: расширение спектра порождаемых естественноязыковых конструкций

  33. Спасибо за внимание!Thank(аналог ключевой лексемы связи)You(генерация эксплицитного представления актанта)for(информация по модели управления)Your(генерация эксплицитного представления актанта)Attention(аналог ключевой лексемы объекта)

More Related