1 / 31

Методология наполнения онтологий – практика без теории?

Методология наполнения онтологий – практика без теории?. Рубашкин В.Ш., Пивоварова Л. М. Санкт-Петербургский университет. 1. Положение дел: Методология наполнения онтологий была и остается самым слабым звеном онтологической инженерии.

Download Presentation

Методология наполнения онтологий – практика без теории?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Методология наполнения онтологий – практика без теории? Рубашкин В.Ш., Пивоварова Л. М. Санкт-Петербургский университет

  2. 1. Положение дел: Методология наполнения онтологий была и остается самым слабым звеном онтологической инженерии. "…One of the main purposes of ontologies is to reduce the knowledge acquisition bottleneck, to acquire knowledge for building ontologies still requires alot of time and resources. [G-P, с. 112]" Каждый из "больших" онтологических проектов формулирует и реализует собственный подход к наполнению онтологий, и это само по себе свидетельствует о неблагополучии в данной области. Даже к большим и пользующимся авторитетом онтологическим системам, таким как CYCили SUMO, при внимательном ознакомлении с их наполнением возникает много вопросов, касающихся логической и терминологической полноты, логической последовательности содержимого и возможности реализовать в полном объеме ту функциональность, которая востребована развитием информационных технологий.

  3. 1. Положение дел: Приходится констатировать, что задача создания открытого для общего и многократного использования (sharable and reusable) информационного ресурса, поставленная еще в начале 90-х, до сих пор остается не решенной. NB: Документация, например, по OWL или по редакторам и резонерам НЕ содержит развернутых рекомендаций по методологии наполнения.

  4. 1. Положение дел:что имеем? Весьма существенно то, что онтологии не порождают нового знания, а лишь оформляют то понимание терминологии и языковых единиц вообще, которое уже сложилось в коммуникационной системе. Большая часть связей, фиксируемых в онтологиях - это так называемые "знания здравого смысла" (common sense metaphysics), без формализации и использования которых не может быть решена ни одна задача, так или иначе связанная с пониманием текста. Это недокументированные знания, которые почти никогда не вербализуются ни в научных коммуникациях, ни в повседневном общении. Речь идет о содержательно очень простых вещах: скажем, надо формализовать понимание того, что супермаркет или бутик есть вид торговой организации, последняя есть вид специализированной социальной системы (в отличие от города или страны); что супермаркет не станок, не теплоход, не стадион и т.д. (отношение объемной несовместимости); что всякая специализированная социальная система имеет руководителя (директор, начальник, заведующий), что в ней работаетперсонал с определенным набором социальных ролей и т.п.

  5. 1. Положение дел:что имеем? Попытки создания регламентирующих документов: 1994 Classic Knowledge Representation System Tutorial Deborah L. McGuinness,et al. AT&T Bell Laboratories and University of Pittsburgh, Использованный там пример детализирован и превращен в развернутый учебный пример (2001 Natalya Noy and Deborah McGuinness) Ontology Development 101: A Guide to Creating Your First Ontology, Так появилась пресловутая "Онтология вина", кочевавшая из документа в документ на протяжении почти десятка лет. NB: была включена в официальную документацию по OWL - OWL Web Ontology Language Guide

  6. 1. Положение дел:что имеем? OWL2: В документацию по OWL2 в качестве приложения включен уже другой пример наполнения, рассматривающий возможный способ формализации некоторых терминов родства и связанных с ними характеристик: OWL 2 Web Ontology Language. Primer. W3C Recommendation 27 October 2009. Бросается в глаза чрезвычайная упрощенность используемых примеров по сравнению с реальными терминосистемами. Такого рода "игрушечные" примеры скорее служат развернутой иллюстрацией к описанию синтаксиса OWL, чем методическим руководством для систематизации и формализации реальных терминосистем.

  7. Положение дел:что имеем? • Самым полезным на сегодня методическим пособием, показывающим как можно систематизировать большой языковый материал, являются сами "большие" онтологии. • НО • Пример SUMO-MILO:SUMO_Transport.ppt#5. RoadVehicle • Transp_Sumo.doc • Что следовало бы: InTez.exe

  8. Положение дел:что имеем? • Определенное методологическое ядро, пригодное, прежде всего для построения доменных онтологий, тем не менее, сформировалось. • Сложилась определенная практика, предусматривающая следующую последовательность конструктивных действий: • Отбор значимых для предметной / проблемной области концептов. • Категоризация терминов: • Дальнейшая внутрикатегорная систематизация - построение таксономии. • Установление нетаксономических отношений

  9. Положение дел:что имеем? • Более детальный вариант такого описания шагов по построению онтологии можно найти в обзоре, приведенном в [G-P, p. 132 и след.]. • А) 4 этапа построения онтологии: спецификация, концептуализация, формализация, реализация. • Понимание этих этапов в очень кратком изложении таково. • Спецификация – определение функциональности онтологии. • Концептуализация – структурирование (как можно более тщательное) доменной терминологии на содержательном уровне. • Формализация – "преобразует концептуальную модель в формальную или полувычислимую (semi-computable) модель". • Реализация (implementation) – строит вычислимую модель на языке представления онтологий. • Собственно содержательный этап структурирования терминосистемы – концептуализация.

  10. Положение дел:что имеем? • Концептуализация. • Для этого этапа (conceptual modeling) авторы указанной работы подробно определяют принятую ими последовательность действий: • Построение словаря терминов, включая сюда также естественно-языковые определения терминов, синонимы и акронимы. • Построение таксономии для концептов. Отмечается необходимость одновременно фиксировать отношение несовместимости (disjoint). • Построение ad hoc (т.е., экспертно) графа бинарных (!) отношений между концептами. Отмечается важность точного определения условий заполнения аргументов отношений (domains and ranges). • Построение "словаря концептов" – с привязкой к концептам атрибутов и отношений.

  11. 1. Положение дел:что имеем? • Детализация описания бинарных отношений (п. 3). Предусматривается дополнительное указание числа возможных значений (cardinality – 1:1, 1:N), логических характеристик отношения (симметричность, транзитивность) и наличие конверсива. • Описание атрибутов: область применимости (domain); тип данных для значения; единица измерения, точность представления, область определения ("от…до…"), - если атрибут числовой; минимальное и максимальное число возможных значений – (0,1), (1,1), (0,N), (1,N). • Описание "атрибутовклассов" (?). • Описание специфичных для области знаний констант. • Описание экземпляров: отнесение к классу и указание значений релевантных для класса атрибутов.

  12. 1. Положение дел:что имеем? Есть еще 2 пункта, которые, по существу, подразумевают переход к следующему этапу ("формализация") и предусматривают формулировку аксиом и правил, так или иначе ограничивающих допустимые описания экземпляров. [ Логического различия между "аксиомами" и "правилами" обнаружить не удается. Пол всей видимости имеется в виду то различие, что "аксиомы" представляют, так сказать, абсолютные ограничения, обуславливаемые законами природы (На поезде из Европы можно попасть только в Европу – поездка в Азию через Россию с точки зрения авторов, видимо противоречит законам природы), в то время как "правила" представляют административные и юридические ограничения, действительные в определенный период времени (Все круизы из Европы в Коста-Рику организуются компанией Costa Cruises). ]

  13. Положение дел:что имеем? • Самая актуальная проблема – • язык, среда и дисциплина, • обеспечивающие накопление и интеграцию онтологических знаний. • Один из ключевых элементов такой среды – • онтология верхнего уровня, обеспечивающая такую интеграцию.

  14. 2. Онтология верхнего уровня • Wiki: • "Почему онтология верхнего уровня НЕ осуществима" – • "Почему онтология верхнего уровня осуществима" • Wiki: • Upper ontology (top-level ontology, or foundation ontology) is an ontology which describes very general concepts that are the same across all knowledge domains. The most important function of an upper ontology is to support very broad semantic interoperability between a large number of ontologies accessible "under" this upper ontology. Возможное операциональное определение: Онтологическая подсистема, достаточная для последующего присоединения любых доменных онтологий и для представления логических связей междуконцептами, значимых во всех или хотя бы в нескольких частных онтологиях.

  15. 2. Онтология верхнего уровня Практика построения онтологий верхнего уровня: "Еще одна, еще одна, еще одна…": YAGO- Yet Another Great Ontology) YAMATO - Yet Another More Advanced Top-level Ontology top-level_Survey.xls TopLevel_Filling.ppt Viviana Mascardi, Valentina Cordì, Paolo Rosso A Comparison of Upper Ontologies(Technical Report): Since all of us have a computer science background, these criteria are more familiar to us than philosophical ones.

  16. “John’s height of 160cm long” • <“John’s height” instance-of height> • <”height” (role) is-a quality role type> • <quality instance-of quality role type > • <“height” (role) is-played-by length> • <quality role type is-played-by generic quality type > • <length is-a generic quality type> • <160cm long instance-of length quantity> • <length quantity is-a quantity> • Имеется в виду: • <объект, атрибут(признак), числовое значение, единица измерения> • вариант: • <объект, атрибут(признак), числовое значение > 2. Онтология верхнего уровня • Общие замечания: • Два подхода: • Представление метазнаний (метапонятий) • Интеграция предметных понятий и связей между ними • (Преобладает сочетание того и другого с разным акцентом) • Различие и несопоставимость используемой терминологии мешает обнаружить содержательные совпадения (отсутствие традиции) • "Много единиц" Sample facts from the YAGO • Проблема логической полноты и последовательности.

  17. 2. Онтология верхнего уровня Общие замечания: Обзор Top-Level онтологийнаводит на мысль, что их построение рассматривается скорее как интимное дело эксперта, которое регламентации и методологическому регулированию не подлежит.

  18. Как возникает онтология верхнего уровня: • Построение онтологии, рассчитываемой на многократное применение, предполагает стремление к логической полноте концептуальной системы. При добавлении в онтологию имени некоторого подкласса всегда полезно задаться вопросами: • - из какого исходного класса выделен данный подкласс? • - по какому основанию он выделен? • и самое главное: • - какие еще подклассы могут быть выделены по данному основанию из данного исходного класса? • Отвечая на такие вопросы, получаем фрагмент таксономии, который часто выводит за пределы рассматриваемой и непосредственно формализуемой дисциплинарной области.

  19. Как возникает онтология верхнего уровня: Пример. Центральное положения в системе концептуальной системы лингвистики должен занимать концепт текстовое произведение - текст, представляющий одно законченное сообщение, представляющий содержание одного коммуникационного акта. ср. SUMO: Text - A &%LinguisticExpression or set of &%LinguisticExpressions that perform a specific function related to &%Communication, e.g. express a discourse about a particular topic). (Научная статья, монография или диссертация; роман, эссе или губермановский "гарик"; устав гарнизонной и караульной службы, закон о правах потребителей, инструкция по использованию лекарства, рекламный постер, короткий приказ армейского командира в бою, бытовой диалог …) предложение, слово, морфема, … - лишь "детали" и "узлы" для построения востребованного социумом "изделия".

  20. Как возникает онтология верхнего уровня: Далее необходима более детальная функциональная спецификация объектов класса текстовое произведение - художественное произведение и деловой документ. деловой документ – подклассы: нормативный документ, научно-технический документ, организационно-распорядительный документ, ценная бумага. - Из лингвистики в такие области как литературоведение, юриспруденция, экономика и финансы, управленческая деятельность и т. д.

  21. Как возникает онтология верхнего уровня: • Какие еще "произведения", реализующие самостоятельную коммуникативную функцию, можно указать? • Примеры: • симфония, натюрморт, архитектурный ансамбль и даже лампасы на генеральских бриджах. • Речь идет о разбиении некоторого исходного класса семиотический (ментальный) объект по основанию • тип знакового материала с порождение подклассов: • текстовый объект, музыкальный объект, объект изобразительного искусства, утилитарный объект со знаковыми функциями. • Построение такого ряда необходимо для обеспечения полноты таксономической системы и, соответственно, полноты отображения определенного аспекта миропонимания. • С другой стороны, - выход за пределы дисциплинарно ориентированной терминосистемы, как результат последовательной работы по ее формализации.

  22. Что должна содержать Top-Level онтология? • Один, два, три, …; много, мало, несколько, …; весьма, сверх-, ультра- …; … • Далеко - близко; раньше – позже; редко –часто; шар, куб, пластина, лист, цилиндрический; больше – меньше;… • 'логическое И', 'логическое ИЛИ', 'логическое НЕ'; все, существует, некоторые; большинство, меньшая часть, несколько; всегда, иногда; везде, нигде; • совокупность, стая, стадо, толпа, куча, скопление…; и др. • Общеязыковые отношения: 'часть-целое', анти-, 'быть предназначенным для',причинна • Общие термины-категоризаторы (предмет, экземпляр, процесс, действие, отношение, свойство, связь, совокупность и т. п.) • Индикаторы кореференции ('этот', 'другой', 'такой же' • Фазовые определители процессов/действий: 'начинать(ся)', 'заканчивать(ся)', 'продолжаться'

  23. Что должна содержать Top-Level онтология? • Вопросительные элементы: кто, что, кого, кому, где, как, зачем, когда, ли и т. п.). • Верх дерева признаков, включая системообразующую часть и общие термины каждого из основных направлений научной, художественной и практической деятельности. • По-видимому, также бытовая и вообще общеязыковая знаменательная лексика, образующая разговорное ядро языка.

  24. Основные противопоставления верхнего уровня • (значимы для организации наследования свойств) • Basic distinctions (YAMATO): • (1) Substrate and entity • (2) Entity and property • (3) Physical and abstract • (4) Continuant(Object) vs. Occurrent(Process) • (5) Entity and relation • (6) Representation and non-representation (1) Space and time are indispensable for things to exist in the world, while these two can existindependently of entities. (2) Any entity cannot exist without any property, e.g., any physical object has necessarily a couple ofproperties (color, mass, size, etc.). At the same time, any property cannot exist alone. (3)A physical thing as something which needs time and space to exist, and introduce semi-abstract which needs only time to exist. Abstract things are defined as things that need neither time nor space. (6) We need to deal with representation in our ontology,since there apparently exist music, novels, texts, symbols and so on in the real world. Representationand non-representation (object, process, relation, attribute, etc.) are very different from each other. Forthe representation, it is not easy to identify what their instances are. For example, what is an instanceof a piece of music, what is an algorithm, … (4)YAMATO is based on a solid theory of objects, processes and events (5) Typical examples are action and attributethat are sometimes formalized as a relation because an action is often formalized as one between anactor and an object and an attribute as one between an object and a value. But, of course, they are notrelations ontologically. They are intrinsically entities included in an ontology.

  25. Основные противопоставления верхнего уровня • (значимы для организации наследования свойств) • Мир естественного (мир природы): • дискретный – континуум • агрегатное состояние • локализованный (self connected object) – нелокализованный • объект – квазиобъект • неживое – живое – одушевленное • масштабирование объектов

  26. Основные противопоставления верхнего уровня • Мир социального (мир культуры) • эмпирический объект - семиотический объект • (город – теорема) • объект материальной культуры - социальный индивид • человек (личность) - социальная система • жизнеорганизующая социальная система – • специализированная социальная система • (город - филармония) • функционально значимый объект - вспомогательный объект • (автомобиль - колесо)

  27. Общие рекомендации по формализации терминосистем • Не отдельные термины, а терминосистемы. Формализация должна быть одинаковой для всего ряда однотипных языковых явлений. • Опора на хорошо выстроенную онтологию верхнего уровня. • Действия по формализации частных терминосистем: • (!) Жесткая поддержка DisjointUnion-дисциплины построения иерархической системы классов – разбиение каждого из исходных классов (Partition) с явным указанием оснований деления. Выявление базовых признаков и других информационно значимых элементов путем содержательного анализа словарных определений. NB: Две проблемы – связь свойство – значение; несовместимость классов.

  28. Обычная таксономия: Макротело - красный - синий - зеленый - … - тяжелый - легкий - … - твердый - жидкий - газ При этом свойство цвет придется определить как <owl:ObjectProperty rdf:ID = ”Цвет”> <rdf:type rdf:resource="&owl:FunctionalProperty" /> <rdfs:domain rdf:resource = ”#Макротело” /> <rdfs:range rdf:resource = ”#Макротело”/> </owl:ObjectProperty> Но такое определение оставляет возможность на вопрос о цвете отвечать тяжелый или твердый.

  29. Остается возможность сформировать искусственные подклассы: Макротело - Тела имеющие цвет -- красный -- синий -- зеленый -- … - Тела имеющие вес -- тяжелый -- легкий -- … - Тела, характеризующиеся агрегатным состоянием --твердый -- жидкий -- газ <owl:ObjectProperty rdf:ID = ”Цвет”> <rdf:type rdf:resource="&owl;FunctionalProperty" /> <rdfs:domain rdf:resource = ”#Макротело” /> <rdfs:range rdf:resource = ”#Телаимеющиецвет”/> </owl:ObjectProperty>

  30. Еще лучше было бы исключить класс Тела имеющие цвет из области определения domain. Альтернативный способ решения той же задачи может выглядеть так. Сначала определяем систему базовых признаков, организованных в дерево признаков: InTez.exe Макротело - цвет -- красный -- синий -- зеленый -- … - вес -- тяжелый -- легкий -- … - агрегатное состояние -- твердый -- жидкий -- газ Альтернатива в OWL2 – конструкция DisjojntUnion

  31. Логическая реконструкция словарных определений в терминах построенной на этапе 2 системы базовых признаков. • Необходим язык формальных толкований терминов – при этом должна использоваться не только конъюнкция, но и другие логические средства, - например определение через отношение. • «Множественное наследование» как способ представления определения через конъюнкцию можно рассматривать как удобный технологический прием – особенно при наличии системы графического редактирования. • NB: Не энциклопедические определения терминов, а отнесение к системе базовых признаков. • Ср.: «остров - часть суши, окруженная водой» vs • SubClassOf ГеографическийОбъект, • DisjoinClasses Остров, Полуостров, Залив, Пролив, Мыс, Канал, Риф, Лагуна, Море и т. п. • Логический контроль должен, главным образом не обнаруживать ошибки, а предотвращать их появление. • Тщательно составленный и хорошо прокомментированный • системный пример (или ядро универсальной онтологии с • примерами доменного расширения и достаточным комментарием)

More Related