1 / 35

Вычислительная лингвистика

Вычислительная лингвистика. Фёдор Царёв tsarev@rain.ifmo.ru 0 2 ноября 2005 года. Язык – исторически сложившаяся система звуковых, словарных и грамматических средств, объективирующая работу мышления и являющаяся орудием общения, обмена мыслями и взаимного понимания людей в обществе

pennie
Download Presentation

Вычислительная лингвистика

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Вычислительная лингвистика Фёдор Царёв tsarev@rain.ifmo.ru 02 ноября 2005 года

  2. Язык – исторически сложившаяся система звуковых, словарных и грамматических средств, объективирующая работу мышления и являющаяся орудием общения, обмена мыслями и взаимного понимания людей в обществе Толковый словарь русского языка

  3. Цель • Дать общее представление о моделях и методах вычислительной лингвистики, не вдаваясь особо в подробности

  4. План доклада • Что это такое? • История • Основные методы • Конкретный пример • Открытые вопросы и перспективы

  5. План доклада • Что это такое? • История • Основные методы • Конкретный пример • Открытые вопросы и перспективы

  6. Что это такое? • Это наука, рассматривающая методы создания приложений, использующих знания о языке

  7. Зачем это нужно? • Огромное количество информации доступно в форме текстов • Создание новых типов интерфейсов • Проверка правописания • Автоматический перевод • Информационный поиск • Системы автоматического ответа на вопросы

  8. Простой пример • Программа wcв UNIX’е • Когда считает байты и строки – просто программа • Когда считает слова – использует знания о языке

  9. 6 разделов языкознания • Фонетика • Морфология • Синтаксис • Семантика • Pragmatics – использование языка для достижения неких целей • Discourse – изучение лингвистических категорий, более широких, чем предложение

  10. Основная проблема - неоднозначность • Вход называется неоднозначным, если существует несколько различных лингвистических структур для него • Пример: I made her duck

  11. План доклада • Что это такое? • История • Основные методы • Конкретный пример • Открытые вопросы и перспективы

  12. 1940-1957 • Два подхода: • Автоматный(Kleene, Chomsky, Backus, Naur) • Теоретико-информационный, или вероятностный (Shannon) • Из возможных вариантов выбрать наиболее вероятный • 1952 год – статистическая система распознавания цифр на слух

  13. Тест Тьюринга • Предложен Аланом Тьюрингом(Alan Turing)в 1950 году • Игра для трех игроков • Цель компьютера – обмануть людей • Цель человека – помочь обнаружить компьютер

  14. 1957-1970 • Два подхода: • Символический(symbolic) • Стохастический (stochastic)

  15. 1970-1983 • Четыре парадигмы: • Stochastic • Logic-based • Natural language understanding • Discourse modeling

  16. 1983-1993 • Finite-state phonology • Finite-state morphology • Использование эмпирических моделей

  17. 1994-… • Использование всего, что использовалось когда-либо…

  18. План доклада • Что это такое? • История • Основные методы • Конкретный пример • Открытые вопросы и перспективы

  19. Разрешение неоднозначности • Многие алгоритмы разрешают неоднозначность на том или ином уровне • Лексическая неоднозначность • Синтаксическая неоднозначность • и т.д.

  20. Алгоритмы и модели - процедурные модели • Детерминированные конечные автоматы • Недетерминированные конечные автоматы • Finite-state transcuders (могут записывать в выходной поток) • Взвешенные автоматы

  21. Алгоритмы и модели – описательные модели • Регулярные выражения • Контекстно-свободные грамматики • Их вероятностные варианты

  22. Пример • Грамматика для простых предложений английского языка <предложение>::= <вопросительное предложение>|<повествовательное предложение>

  23. Пример (продолжение) <вопросительное предложение>::=<вопросительное слово><вспомогательный глагол><подлежащее><основной глагол><второстепенные члены предложения> <повествовательное предложение>::=<подлежащее><сказуемое><второстепенные члены предложения>

  24. Алгоритмы и модели – алгоритмы • Поиск по некоторому множеству гипотез: • Поиск в глубину • Динамическое программирование • Различные вероятностные варианты

  25. Алгоритмы и модели – другие • Машинное обучение • Использование логики первого порядка • Языки типа PROLOG’а • Нейронные сети Эти подходы сегодня рассматриваться небудут

  26. План доклада • Что это такое? • История • Основные методы • Конкретный пример • Открытые вопросы и перспективы

  27. Алгоритм Витерби • Применяется для распознавания речи • Пусть уже входной звук разбит на последовательность известных нам звуков • Осталось выяснить, что конкретно было сказано

  28. Постановка задачи – 1 • Дан ориентированный граф G=<V,E> • Дано множество звуков Σ • Каждой дуге uvсопоставлены: • Звук σ(uv) • Вероятность p(uv) издать этот звук • Заданы: • Начальная вершина v0 • Последовательность звуков w1…wn

  29. Постановка задачи – 2 • Сумма вероятностей на дугах, исходящих из некой вершины, равна единице • Произнесения последовательных звуков независимы • Найти наиболее вероятный путь в графе

  30. Решение – динамическое программирование • Пусть a(i, j) – максимальная вероятность «попасть» в вершину i после произнесения последовательности звуков w1w2…wj

  31. Решение – инициализация и рекуррентное соотношение • Инициализация:a(v0,0) = 1 • Рекуррентное соотношение: Как теперь получить ответ?

  32. План доклада • Что это такое? • История • Основные методы • Конкретный пример • Открытые вопросы и перспективы

  33. Перспективы • Создание интерфейса с пользователем, использующего естественный язык • Создание систем, способных анализировать тексты

  34. Заключительный слайд Если не запомнили ничего другого: • Приложения, использующие знание языка – очень перспективная область • Основная проблема – неоднозначность • В вычислительной лингвистике широко используются методы теории алгоритмов Вопросы?

  35. Источники • http://www.cs.colorado.edu/~martin/slp.html • Кормен, Лейзерон, Ривест «Алгоритмы. Построение и анализ»

More Related