1 / 52

Система « OntoGrid » для построения онтологий

Система « OntoGrid » для построения онтологий. Онтология - формальное явное описание терминов предметной области ( ПрО ) и отношений между ними ( Gruber 1993) O=<T,R,D>. Назначение онтологии.

casta
Download Presentation

Система « OntoGrid » для построения онтологий

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Система «OntoGrid»для построения онтологий Онтология - формальное явное описаниетерминов предметной области (ПрО)иотношений между ними (Gruber 1993) O=<T,R,D>

  2. Назначение онтологии Системы обучения:полезно иметь в качестве «опорного сигнала» легко воспринимаемую структуру этой области, быстро находить ссылки на источники. Поисковые системы:поиск по семантически значимым фрагментам текстов с опорой на онтологию ПрО. Научные исследования:унификация терминологии ПрО, автоматическое отслеживание данных и знаний в потоке информации. 4. Интегрирование баз данных и знаний:установление семантической эквивалентности фактов и понятий, сформулированных в разных терминах.

  3. Автоматизация разработки и сопровождения онтологии(проект OntoGRID) Инструмент для эксперта ПрО, строящего онтологию. Средства распределенной разработки 2. Лингвистический процессор Лингвистическая база Интерфейс «семантика – онтология» 3. Методика использования онтологий

  4. 1Инструмент для эксперта ПрО, строящего онтологию Protege (http://protege.stanford.edu/) Mark Musen, Stanford Medical Informatics1992 Разработка онтологий 101: руководство по созданию Вашей первой онтологии Natalya F. NoyDeborah L. McGuinness Ontolingua Chimaera

  5. Структура онтологии Класс А Класс К Слот X1…xN Отношение Фасет X1=0-1 X5=Да,Нет xN-источн. Класс a1 Класс a2 Класс ki Объект Oi

  6. Средства распределенной разработки Protégé (OWL) Иван Automated System for Construction of Ontologies Djohn O1 O2 Onto-DM Лаб№13 Integrated Development Enviroment (IDE) ASCONT Admin Двуязычный форум ОНТОЛОГИЯ

  7. Лингвистический процессор 1.Блок морфологического анализа. Блок статистического анализа текстовГусев В.Д., Саломатина Н.В. 2. Система семантического анализа текста. «Визуализатор отношений» (ВизОт) Налетов А.М., Чурикова В.А., Соколова А.Н.

  8. Блокстатистического анализа • Назначение: • выявление общенаучной, предметно-ориентированной и узкоспецифичной лексики; • формирование индикаторных словарей, отражающих аспекты документа (целевая установка, метод решения, полученный результат и т.п.); • формирование системы признаков для тематической классификации документов. • Процедуры: • вычисленияL-граммных спектров; • выделения устойчивых словосочетаний с учетом морфологической и комбинаторной изменчивости; • выявления аномалий в позиционном распределении лексических единиц в тексте.

  9. L-граммное представление текстов ― анализируемая группа текстов; L-грамма―цепочка из Lподряд следующих нормализованных слов. Частотная характеристика L-го порядкагруппы текстовТ есть совокупность представленных вТL-грамм с указанием частот встречаемости и распределения по отдельным текстам: , где ― пара: <i-я L-грамма;вектор вхожденийL-граммы в каждый из текстов подборкиТ : >; ― размер словаря L-грамм; Совместный частотный спектр группы текстовТ есть совокупность частотных характеристик: , где ― длина максимальной цепочки слов, общей хотя бы для пары текстов.

  10. Фрагмент словаря аспектной лексики(по материалам конференции «Диалог’2002»; 146 докладов) • Аспект: целевая установка;L = 2, 3 • Биграммы: (Fтекст.,Fабс.) в/работа(60,110); в/статья(31,45); в/доклад(31,39); постановка/задача(14,16); наш/исследование(10,15); • Триграммы: (Fтекст.,Fабс.) в/данный/работа(16,19); в/статья/рассматриваться(10,11); в/настоящий/работа(10,10); в/рамка/проект(8,12); в/работа/рассматриваться(7,7); в/данный/доклад (5,6); настоящий/работа/посвящать (5,6); данный/работа/посвящать (5,5); в/доклад/рассматриваться(5,5);

  11. Выделение«устойчивых»цепочек слов «Устойчивая цепочка»― L-грамма (L ≥ 2), встречающаяся в большом числе разнообразных контекстов. Неустойчивой считается цепочка, которая может быть продол- жена как вправо, так и влево ограниченным числом способов. Примеры • устойчивых цепочек: порядок слов; русский язык; как уже отмечалось, таким образом; в настоящее время; один и тот же; нетрудно видеть, что; предложение со скремблингом; • неустойчивых цепочек: в русском; предложение со; посторонним вход; быть или не…

  12. Выявление позиционных аномалий • Гипотеза:лексические единицы, демонстрирующие неравномерное распределение в тексте, обычно более значимы, чем распределенные равномерно. • Сканирующие статистики ― эффективный аппарат для выявления позиционных аномалий: d(n)― длина минимального интервала, содержащего ровно nвхождений лексической единицыλ (2 ≤ λ ≤F(λ), где F(λ) ― частота встречаемости λ в тексте). Распределение d(n) при гипотезеH0 (равномерность) известно. • Применение: • оценкаинформативности лексических единиц; • построениеквазирефератов текста.

  13. Анализ текста в системе OntoGrid • Формализм для представления смысла текста + алгоритмы анализа • База лингвистических знаний предметной области • Алгоритм построения семантического представления текста • Интерфейс эксперта

  14. Задачи анализа текста • Классификация текстов • Реферирование • Поиск по заданным концептам ………. • Определение реализаций элементов онтологии в текстах • Наполнение элементов онтологии ссылками на тексты • Выявление «недогруженных» и «перегруженных элементов онтологии» ……….

  15. Анализ текста с опорой на онтологию ПрО Система анализа текста (САТ) ОНТОЛОГИЯ Проекция онтологии на ЕЯ тексты

  16. Анализ текста в системе OntoGrid БЛЗ ПрО ОНТОЛОГИЯ САТ ВизОт ЭКСПЕРТ Текст ЕЯ

  17. Иерархия реализаций смыслов в тексте Наборы неэлементарных (в общем случае) словосочетаний: понятия, отношения между понятиями Неэлементарные словосочетания – комбинации элементарных словосочетаний Элементарные словосочетания – реализации смысловых отношений: агент, объект, признак, значение, локализация, …. Слова, термины

  18. Лингвистическая база знаний предметной области • База реализаций отношений (БРО) -термины -реализации смысловых отношений • Набор критичных фрагментов (НКФ) наборы неэлементарных словосочетаний, соответствующих существенным элементам ПрО

  19. Представление реализаций смысловых отношений в БРО

  20. Формирование БРО • В ходе интерактивного анализа текста • На основе предварительной статистической обработки текстов ПрО • Использование обобщенных определений отношений (правил выделения в тексте)

  21. Интерактивный анализ текста

  22. Редактирование БРО с помощью интерфейса ВизОт

  23. * Пирамидальные сети Гладун В.П. Пирамидальная сеть― ациклический ориентированный граф, в котором нет вершин с одной заходящей дугой. Рецепторы ― соответствуют символам входного алфавита (объекты, признаки, слова, …). Концепторы― остальные вершины; соответствуют отдельным объектам или общим частям нескольких объектов.

  24. Q-сети • Однородность • Иерархичность • Функциональность Текст рассматривается как иерархическая структура фрагментов, каждый из которых представляет некоторую семантическую цельность

  25. «анализ данных» а=анализ, b=данные r=процесс-объект (r,a,b) (s,A,b) hjhjhjhj «интеллектуальный (анализ данных)» А=анализ данных, b=интеллектуальный r=процесс-свойство s=интеллектуальный анализ jhjhjjh (s,A,B) «((процесс таксономии) начинается) с (нормировки признаков)» А=(процесс таксономии) начинается, B=нормировка признаков а=начинается, b=нормировка, s=начинается с нормировки jhjhjhjjjhjj

  26. Построение семантического представления (СемП) текста * • Выделение в предложении связных цепочек • зависимостей (реализаций отношений) из БРО 1 2 3 4 5 6 7 8 9 • Взвешивание реализаций смыслового • отношения функцией f ( s , r), где s – значимость • реализации,r – расстояние между его аргументами • в предложении • Построение для каждой цепочки • зависимостей связывающей сети • максимального веса 3 9 1 2 4 8 5 6

  27. Выбираем реализации • отношений веса • большего чем g_1. • Строим по ним • непересекающиеся • фрагменты первого • типа, начиная с • самых «тяжелых» * 3 A 2 4 1 8 9 C 5 6 D B A 3 2 4 • Расширяем построенные • фрагменты, используя • оставшиеся реализации • веса большего чем g_2. 1 6 5 8 9 B C

  28. * • Объединяем фрагменты, используя реализации • отношений веса не меньшего чем gamma_3 E D A B 3 2 4 6 5 1 8 9 C

  29. Пример работы компоненты анализа текста

  30. Формирование понятий Понятие — фрагмент знаний, представляющий собой обобщенную модель класса элементов мира, в котором оперирует система,достаточную для выполнения на ее основе операций распознавания игенерации моделей конкретных элементов мира. Тексты {T} Понятия {P} Фрагменты {F} Объемы понятий ПрО {f_1,...,f_n} {g_1,...,g_m} {r_1,...,r_k} {q_1,...q_s} ..... t_1 t_2 t_3 t_4 ..... p_1 p_2 p_3 p_4 ..... {P(t_1)}

  31. * Доля j-гофрагмента в i-м понятии a_ij = Понятия p_i Тексты Фрагменты f_j

  32. * Шум j-гофрагмента для i-го понятия b_ij = Понятия p_i Тексты Фрагменты f_j

  33. * Объединяющие признаки Среди всех фрагментов текстаt, для каждого понятияp_i из{P_t},находим критичный фрагментr c максимальным значениемa_ir приb_ir < b. p_i Понятия Тексты t r Фрагменты f g

  34. * Разделяющие признаки Пусть в текстеtзатрагивается понятиеp_jи не затрагивается понятиеp_i. Пусть существует фрагментf текстаt, являющийся критичным фрагментом понятияp_iтакой что в текстеtнет критичным фрагментаrпонятияp_j, включающего в себя фрагментf. p_i p_j Понятия Тогда выберем такой фрагментrс максимальным значениемb_irи a_jr > a. Тексты t r Фрагменты f

  35. ASCONT Инструментальная система для коллективной разработки онтологии Редактор

  36. * Представление онтологии +Соответствие современным стандартам +Наличие аппарата формального вывода +Открытость +Графическое редактирование +Эффективность машинной обработки  OWL (Ontology Web Language)

  37. * Технологические требования +Совместимость с концепцией e-Science +Масштабность +Распределённость +Динамичность +Неоднородность  GRID

  38. Архитектура Центральный репозиторий Пользователи Архив <OWL> <OWL>

  39. Разработка Онтологии Онтология Эксперт Эксперт Редактор

  40. Разработка Онтологий Эксперт * Репозиторий Онтология Онтология A B Онтология C Эксперт Эксперт

  41. Окно диалога с системой

  42. Зародыш онтологии DM

  43. Онтология предметной области Data Mining (Onto-DM)

  44. Какую область будет охватывать онтология Onto-DM? Для чего мы будем использовать онтологию Onto-DM? На какие вопросы должна даватьответы онтология Onto-DM? Кто будет разрабатывать, использовать и поддерживать онтологию Onto-DM?

  45. (Онтология Onto-DM) “класс” Метод “класс” Данные “класс” Задача “класс” Пример ограничения использование реализация

  46. “класс” Данные “класс” ТаблицаОСВ “класс” МатрицаООВ ? “объект” Строка “объект” Столбец “объект” Серия “объект” Подтаблица

  47. “класс” Данные “свойство” Размер-ность “свойство” ТипШкалы “свойство” Пробел “свойство” Достовер-ность Slot “значение” 1-M, 1-N, 1-T “значение” A,R,I,O,N,C “значение” Да, Нет “значение” 0-1 Facet

  48. * “класс” Задача “класс” ТаксономияS “класс” ВыборПр изнаковX “класс” РаспознаваниеD “класс” Пробел Z “класс” ПрогнозP “Понятие” КомбиТип

  49. * Стрелки указывают на отношение: Метод Х применяетсядля решения задачи Y “класс” Метод D Z S X P … “объект” SDF LDR TDF k-NNR CruSt FB Lokator “объект” ZET WANGA “объект” FOREL KRAB NatClass K-means “объект” SPA AdDel NTPP LRP “объект” LGAP ZET WANGA “объект” SX SD DX DSX Полигоны

  50. * “класс” Пример … S X D Z P “объект” Геология Экономика “объект” Генетика медицина “объект” Речь Изображения Экология “объект” Геология Генетика “объект” Финансы Экономика “объект” Цифры Генетика Стрелки указывают на отношение: Случай Z является примером решения задачи Y методом X. Демоверсии программ

More Related