750 likes | 990 Views
Методы и методологии разработки, сопровождения и реинжиниринга онтологий. Загорулько Ю.А. Институт систем информатики имени А.П. Ершова СО РАН. План доклада. Введение Методологии и методы построения онтологий «с нуля» Метод реинжиниринга онтологий Методы коллективной разработки онтологий
E N D
Методы и методологии разработки, сопровождения и реинжиниринга онтологий Загорулько Ю.А. Институт систем информатики имени А.П. Ершова СО РАН
План доклада • Введение • Методологии и методы построения онтологий «с нуля» • Метод реинжиниринга онтологий • Методы коллективной разработки онтологий • Методы и методологии слияния онтологий
Характеристики для оценки методологий и методов • Предложенная стратегия конструирования • Предложенный процесс разработки онтологий • Использование методологии • Технологическая поддержка
Характеристики для оценки методологий и методов • Предложенная стратегия конструирования • Предложения по жизненному циклу • Стратегия отношения к приложению (методы – зависимые, независимые и полузависимые от приложения) • Использование ядерных (базовых) онтологий • Стратегия идентификации понятий(стратегии bottom-up, top-down, middle-out)
Характеристики для оценки методологий и методов • Предложенный процесс разработки онтологий • Процессы управления проектом • Процессы, связанные с разработкой онтологий (выбор и установка среды, спецификация требований, проектирование онтологии, реализация, установка, использование, сопровождение, вывод из эксплуатации) • Интегральные процессы (обеспечивают завершение и качество всей деятельности в рамках проекта)
Характеристики для оценки методологий и методов • Использование методологии(использование методологии в проекте, принятие методологии другими группами, онтологии, разработанные с помощью этого подхода, их предметные области, системы, где они используются) • Технологическая поддержка(какие средства обеспечивают полную или частичную поддержку методологии или метода)
Методологии и методы построения онтологий «с нуля»(from scratch) • Метод Cyc • Метод Ушолда и Кинга (Uschold and King’s method) • Методология Грюнингера и Фокса (Grüninger and Fox’s methodology) • Метод KACTUS • Методология METHONTOLOGY • Метод SENSUS • Методология On-To-Knowledge
Метод Cyc Методология Cyc интегрирует опыт разработки базы знаний Cyc, содержащей большой объем знаний «здравого смысла» (common sense knowledge) Построение Cyc-онтологии включает фазы : • «Ручное» кодирование явных и неявных знаний, содержащихся в источниках знаний • «Ручное» кодирование знаний с помощью программных средств, используя знания, уже сохраненные в БЗ Cyc • Полуавтоматическая фаза. Разработчик рекомендует программным средствам для чтения источники знаний и объясняет им наиболее сложные места текста.
Метод Cyc На каждой из фаз построения Cyc-онтологии выполняются две задачи : • Разработка представления знаний и онтологии верхнего уровня, содержащей наиболее абстрактные понятия. Термины, подобные таким, как «атрибут» и «значение атрибута», являются экземплярами терминов представления знаний, а вещь (thing), неосязаемое (intangible) или коллекция (collection) являются другими видами абстрактных понятий. • Представление оставшихся знаний, используя примитивы, созданные в первой задаче.
Использование метода Cyc • Cyc использовался в экспериментах в высокопроизводительной базе знаний (HPKB) – исследовательской программе, направленной на продвижение технологии компьютерного приобретения, представления и манипулирования знаниями • Построение Cyc агентов, имеющих общее ядро в виде знаний из БЗ Cyc и знания из своей специфической области • До сих пор Cyc использовался только для построения БЗ Cyc, однако Cyc имеет микро-теории, включающие знания из разных ПО, представленных с разных точек зрения. Эти микро-теории могут быть использованы в определенных областях.
Приложения метода Cyc Существует несколько модулей, интегрированных в БЗ Cyc, и машина вывода. • Система интеграции гетерогенных баз данных.Этот модуль отображает словарь Cyc в схемы баз данных. В результате данные из БД интерпретируются в соответствии с терминами словаря Cyc. • Модуль поиска по информации, содержащейся в подписях к изображениям • Модуль интеграции структурированной терминологии позволяет пользователям импортировать составные тезаурусы (multiple thesauri) и одновременно управлять ими и интегрировать их. • Модуль поиска информации в Интернет для расширения БЗ Cyc.
Метод Ушолда и Кинга (Uschold and King’s method) Метод основан на разработке Enterprise Ontology, т.е. онтологии для моделирования процессов на предприятии. Эта методология предлагает следующие этапы разработки онтологий: • Определение цели • Разработка онтологии • Оценка • Документирование
Метод Ушолда и Кинга Наиболее интересным этапом является «Разработка онтологии» : • Фиксация онтологии • Выявление (идентификация) ключевых понятий и отношений (рекомендуется использовать middle-out подход: прежде чем искать наиболее общие и наиболее частные понятия, нужно определить наиболее важные понятия, которые будут использоваться для достройки иерархий путем обобщения и специализации) • Разработка точных текстовых определений для каждого понятия и отношения • Выявление терминов, относящихся к каждому понятию и отношению • Кодирование • Интеграция существующих онтологий
Приложения метода Ушолда и Кинга • Наиболее важным проектом, разработанным в рамках этой методологии является Enterprise Ontology, которая является коллекцией терминов и определений, относящихся к (торгово-промышленным) предприятиям. Эта онтология разработана в рамках Enterprise Project при Artificial Intelligence Applications Institute в the University of Edinburgh с такими партнерами как IBM, Lloyd's Register, Logica UK Limited и Unilever. • Наиболее важным средством разработанным с использованием Enterprise Ontology является Enterprise Toolset. Оно использует основанную на агентах архитектуру для интеграции стандартных (серийно выпускаемых) программных средств в стиле plug-and-play.
Методология Грюнингера и Фокса(Grüninger and Fox’s methodology) Методология основана на опыте разработки онтологии TOVE, предназначенной для области моделирования бизнес-процессов и бизнес-деятельности. По существу, она включает построение логической модели знаний, которая описывается с помощью онтологии. Модель строиться не прямо, сначала выполняется неформальное описание, состоящее из спецификаций, которым должна удовлетворять онтология.
Методология Грюнингера и Фокса Предлагаются следующие этапы: • Фиксация мотивационного сценария • Формулирование неформальных вопросов проверки компетенции • Спецификация терминологии онтологии на формальном языке • Получение неформальной онтологии • Спецификация формальной терминологии • Формулирование вопросов компетенции с использованием терминологии онтологии • Спецификация аксиом для терминов онтологии на формальном языке. • Введение условий для описания полноты онтологии
Использование методологии Грюнингера и Фокса Эта методология использовалась при создания онтологий в проекте TOVE (Toronto Virtual Enterprise) в лаборатории интеграции предприятий университета Торонто. Эти онтологии задают интегрированную модель, формализованную с использованием логики первого порядка. TOVE онтологии включают: Онтологию Проектирования Предприятия, Онтологию Проекта, Онтологию Календарного Планирования и Онтологию Сервиса.
Приложения методологии Грюнингера и Фокса Онтологии, построенные в данной методологии, используются в следующих приложениях: • Enterprise Design Workbench (АРМ для проектирования предприятия). Это среда проектирования, которая позволяет пользователю исследовать множество проектов предприятия. Процесс исследования – это либо проектирование, анализ или перепроектирование. АРМ обеспечивает сравнительный анализ альтернативных проектов предприятий и руководство проектировщиком. • Integrated Supply Chain Management Project agents. Его цель – организовать цепочки снабжения как сеть взаимодействующих интеллектуальных агентов, каждый из которых выполняет одно или несколько функций в цепочке снабжения и координирует свои действия с другими агентами.
Метод KACTUS Проект KACTUS выполнялся в рамках европейского проекта Esprit. Одной из целей проекта является исследование возможности переиспользования знаний в сложной технической системе и роль онтологии в поддержке этого. Этот подход зависит от приложения. Каждый раз, когда создается приложение, строится и онтология, представляющая требуемые для него знания. Эта онтология может быть разработана путем переиспользования других онтологий и интегрирована в онтологии приложений, создаваемые позднее, поэтому при разработке каждого приложения выполняются следующие шаги:
Метод KACTUS При разработке каждого приложения выполняются следующие шаги: • Спецификация приложения(обеспечивает контекст приложения и вид компонент, которые приложение пытается моделировать) • Предварительный проект (эскиз) онтологии, основанный на релевантных высокоуровневых онтологических категориях. (поиск онтологий, разработанных для других приложений, их уточнение и расширение для использования в новом приложении) • Уточнение и структурирование онтологии, приведение к окончательному варианту(используются принципы минимальной связанности)
Использование метода KACTUS В качестве опыта, основанного на этом подходе, авторы представляют разработку трех онтологий как результат разработки такого же числа приложений: • Цель первого приложения – диагностировать сбои в электрической сети • Второе приложение связано с календарным планированием восстановления работы электрической сети после сбоя • Третье приложение управляет электросетью на основе двух предыдущих приложений.
Методология METHONTOLOGY Методология разработана в лаборатории ИИ Мадридского политехнического университета. METHONTOLOGY обеспечивает конструирование онтологий на уровне знаний. Она базируется на основных видах деятельности, выявленных из процесса разработки ПО (software) и методологии инженерии знаний. Она включает идентификацию процесса разработки онтологий, жизненный цикл, основанный на эволюции прототипов, и отдельные приемы для выполнения каждой деятельности.
Процесс разработки и жизненный цикл в METHONTOLOGY
Внешние и внутренние зависимости в процессе разработки онтологии в METHONTOLOGY
Использование методологии METHONTOLOGY Эта методология использовалась в UPM для построения следующих онтологий: • CHEMICALS. Содержит знания в области химических элементов и кристаллических структур. • Онтология Monatomic Ions. Собирает информацию об одноатомных ионах. • Онтологии загрязняющих веществ окружающей среды. Представляют методы обнаружения различных загрязняющих компонентов разнообразных сред: воды, воздуха, земли (грунта) и т.п., и максимальные допустимые концентрации этих компонент с учетом действующих законов
Использование методологии METHONTOLOGY • The Reference-Ontology. Это базовая онтология, описывающая предметные области онтологий, которые являются видом онтологий «желтых страниц» (справочников). • Реструктурированная версия онтологии (KA)2. Содержит знания о научных сообществах в области приобретения знаний, в частности, об ученых, научных тематиках, проектах, университетах и т.п. • Онтология силикатов (Silicate ontology). Моделирует свойства в области минералов, в частности, силикатов.
Использование методологии METHONTOLOGY • Онтологии управления знаниями ontologies (KM-LIA). Обеспечивают необходимый словарь в области, охватывающей людей, изученные уроки, машины, и программы в лаборатории искусственного интеллекта. • Онтологии, разработанные в проекте IST-1999-10589 MKBEEM о путешествиях, каталогах ткани и сдаваемых квартирах (жилье), которая была использована в мульти-язычной платформе для электронной коммерции. • Онтология OntoRoadMap – об онтологиях, методологиях разработки онтологий, средствах разработки онтологий, событиях связанных с онтологиями (конференции, семинары и т.п.) и др.
Приложения методологии METHONTOLOGY Приложения, которые используют некоторые из перечисленных онтологий: • Onto)2Agent - является базированным на онтологии WWW брокером онтологий, который использует Reference-Ontology в качестве источника знаний и находит описания онтологий, удовлетворяющих заданному множеству ограничений.
Приложения методологии METHONTOLOGY • Приложение OntoRoadMap application2, разработанное как развитие (Onto)2Agent, является основанным на онтологии web-приложением, которое позволяет сообществу регистрировать, просматривать и находить онтологии, методологии, программные средства и языки для построения онтологий, онтолого-базированные приложения в таких областях как semantic web, e-commerce, KM, NLP, III, и т.п., а также об основных конференциях, семинарах, и событиях в этой области. Оно был использовано в проекте IST-2000-29243 Ontoweb thematic network • Ontogeneration [Aguado et al., 98] – это система, которая использует (прикладную) онтологию CHEMICALS и лингвистическую онтологию GUM, чтобы сгенерировать описание текстов на испанском языке в ответ на запрос к области химии.
Метод SENSUS Онтология SENSUS предназначена для использования в обработке текстов на ЕЯ. Разработана в группе естественного языка института информационных наук ISI (Information Sciences Institute) для поддержки концептуальной структуры широкого назначения при разработке машинных трансляторов. Ее текущее содержание было получено путем извлечения и слияния (вручную) информации из различных электронных источников знаний: (1) двух лингвистических онтологий высокого уровня PENMAN Upper Model и ONTOS (2) семантических категорий из словаря WordNet (3) двух словарей – Collins Spanish/English dictionary и Kenkyusha Japanese/English dictionary
Метод SENSUS SENSUS имеет более 70 000 понятий, организованных в иерархию в соответствии с их уровнями абстракции. Он включает термины как высокого, так и среднего уровня абстракции, но, вообще говоря, не покрывает термины специфических областей. Термины конкретных областей связываются с SENSUS при построении для них онтологий, а любые нерелевантные термины удаляются из SENSUS.
Метод SENSUS При построении онтологии для прикладной области выполняются следующие шаги: • Выбирается последовательность терминов в качестве начальных (исходных). • Эти начальные термины вручную связываются с онтологией SENSUS. • Все понятия на пути от начальных терминов до корня SENSUS включаются в онтологию. • Термины, которые могли бы быть релевантными выбранной области, но не встретившиеся на этом пути, добавляются в онтологию. • Наконец, для тех вершин, через которые проходит много путей, в ряде случаев добавляется полное поддерево.
Метод SENSUS В результате применения этой последовательности шагов получается скелетная онтология для данной области. Метод предлагает добавлять вручную новые термины в этот скелет.
Использование метода SENSUS • С использованием SENSUS была разработана онтология для планирования военных авиационных кампаний (операций). Она включают набор базовых элементов, характеризующих планы авиационных кампаний: кампания, сценарий, участники, военачальники и др. Эта онтология включает онтологии оружия, систем, горючего и т.п. • На основе SENSUS в ISI совместно с ARPA Rome Planning Institute program и позже с DARPA Joint Forces Air Component Commander program. были разработаны приложения для области планирования авиационных компаний.
Методология On-To-Knowledge Методология On-To-Knowledge была разработана и применена в проекте EU IST-1999-10132 On-To-Knowledge для введения на предприятия и поддержки приложений, осуществляющих основанное на онтологии управление знаниями. Она нацелена на Процессы Знаний и Метапроцессы Знаний. В то время как первые процессы нацелены на использование онтологий, вторые управляют их разработкой и начальной настройкой (установкой). В связи с этим для нас особый интерес представляют Метапроцессы.
Сравнение стратегий конструирования онтологий
Сравнение процессов разработки онтологий
Использование предложенных методологий разработки онтологий
Метод реинжиниринга онтологий Реинжиниринг онтологии - это процесс получения концептуальной модели уже реализованной онтологии и отображения ее в другую, более подходящую концептуальную модель, которая реализуется заново. Рассмотрим метод реинжиниринга онтологий, применяемый онтологической группой в UPM. Этот метод адаптирует схему реинжиниринга программного обеспечения Чиковского (Chikofsky) к области онтологий.
Метод реинжиниринга онтологий • Инженерный анализ (reverse engineering). Цель – получить возможную концептуальную модель на основе кода онтологии. Здесь используется множество промежуточных представлений, предложенных METHONTOLOGY. • Реструктурирование (restructuring). Цель - преобразование исходной концептуальной модели в новую концептуальную модель с учетом использования реструктурированной онтологии другими онтологиями или приложениями. Деятельность по реструктуризации включает две фазы: • анализ (проверка того, что иерархия онтологии и ее классы, экземпляры, отношения и функции полны, непротиворечивы (нет конфликтов), не избыточны (нет явных или неявных повторений (дублирования) и синтаксически корректны. • синтез (реализуется корректная онтология и документируются любые сделанные изменения) • Прямая разработка (forward engineering). Цель - получить новую реализацию онтологии на базе новой концептуальной модели.
Метод реинжиниринга онтологий Некоторыми из онтологий, подвергшихся реинжинирингу, являются онтология Standard Units и онтологии, построенные в проекте IST-1999-10589 MKBEEM. В первом случае потребовались единицы измерений международной системы (International System), чтобы построить Monatomic Ions. Это привело к переиспользованию онтологии Standard Units, которая входит в Ontolingua Server.
Методы коллективной разработки онтологий • Co4: Совместная разработка согласованных баз знаний • Метод Метод (KA)2
Co4: Совместная разработка согласованных баз знаний Co4 является инфраструктурой, обеспечивающей совместное конструирование базы знаний через Web. Разработка знаний мыслится как социальный процесс, в который вовлечено сообщество множества агентов. Система Co4 нацелена на поддержку разработки знаний с помощью «знающих» людей, т.е. включение процесса рецензирования предпринятых модификаций равноправными участниками. Требование консенсуса: модификация принимается только после согласования со всеми членами (участниками).
Co4: Совместная разработка согласованных баз знаний Для того, чтобы этот подход работал, участники проекта не должны непосредственно модифицировать базу знаний, а только свое личное рабочее пространство. В Co4 каждый участник рассматривается системой как база знаний. Для построения согласованной базы знаний индивидуальные базы знаний должны быть связаны вместе. Базы знаний организуются в дерево, чьи листья являются пользовательскими базами знаний и чьи промежуточные вершины называются групповыми базами знаний. Каждая групповая БЗ представляет знания, согласованные между его сыновьями.
Co4: Совместная разработка согласованных баз знаний Групповая БЗ посылает своим подписчикам сообщения об изменениях, принятых всеми, и просьбу прислать комментарии (должны ли эти изменения быть зафиксированы или нет). Когда подписчики достаточно уверены в своих порциях знаний, они могут представить их своей групповой БЗ. Это предложение затем представляется другим подписчикам как запрос на комментарий. В ответ, пользователи должны дать один из ответов: «принять» (accept), когда они считают, что предложенные знания должны быть интегрированы в согласованную БЗ, «отвергнуть» (reject), когда так не считают, и «запрос, вызов» (challenge), когда они предлагают другое изменение.
Метод (KA)2 Метод (KA)2 получен из опыта разработки онтологий в Инициативе по Аннотированию Знаний при Сообществе Приобретения Знаний. Его цель - смоделировать общество приобретения знаний, используя онтологии, разработанные совместными усилиями группы людей, находящихся в разных местах, используя одни и те же шаблоны и язык.
Метод (KA)2 Онтология (KA)2 формирует базис для аннотирования WWW документов общества приобретения знаний для того, чтобы сделать возможным интеллектуальный доступ к этим документам. Текущая концептуальная модель онтологии (KA)2 состоит из связанных онтологий: онтология организаций, онтология персон, онтология проектов, онтология публикаций, онтология событий, онтология направлений исследования и онтология продуктов (результатов) исследования.