Интеграция баз данных на основе онтологий

Интеграция баз данных на основе онтологий Тузовский А.Ф.Томский политехнический университет (институт Кибернетики )

Интеграция баз данных на основе онтологий Развитие систем интеграции информации Тузовский А.Ф.Томский политехнический университет (институт Кибернетики )

Постановка задачи интеграции • Задача интеграции данных заключается в соединении данных из различных источников и предоставлении пользователю единого (унифицированного) представления этих данных, в том числе возможности извлечения интересующей пользователя информации по запросу. • Система интеграции данных позволяет освободить пользователя от необходимости самостоятельно отбирать источники, в которых находится интересующая пользователя информация, обращаться к каждому источнику по отдельности, и вручную сопоставлять и объединять данные из различных источников.

Проблемы задачи интеграции данных • Разнородность (гетерогенность) источники данных используют разные модели (и даже метамодели). • Автономность, то есть источники разработаны и эксплуатируются независимо друг от друга, независимо спроектированы под решение конкретных, различных задач, различными методами. • Распределенностьисточники физически или логически, доступными через только сетевые протоколы удаленного доступа, в частности, информационные источники могут быть распределены в сети Интернет.

Виды разнородности • различие моделей данных – данные в различных источниках могут представляться разными способами, в различных моделях данных (например, реляционная, объектно-ориентированная модели данных, XML, слабоструктурированные, неструктурированные данные, и т.д.); • синтаксическая неоднородность – данные могут по-разному представляться при передаче их в соответствии с протоколами взаимодействия (например, бинарные, текстовые, XML, и т.д.); • структурная неоднородность – данные в различных источниках могут по-разному представлены и организованы в структуру (например, ФИО может быть представлено одной строкой или тремя строками); • семантическая неоднородность – данные могут быть представлены в различных системах понятий, схожие понятия могут по-разному интерпретироваться в разных источниках данных. • техническая неоднородность– интегрируемые информационные системы – источники данных работают под управлением различных операционных систем, на различном техническом обеспечении, предоставляют различные способы коммуникации для доступа к системе, различные интерфейсы и протоколы взаимодействия, и т.д.; • неоднородность методов доступа к данным - в частности, различное назначение и выразительность языков запросов для извлечения данных, различные ограничения на форму запросов;

Обобщенная архитектура систем интеграции информации

Общие компонентами являются • Посредники • Адаптеры • Дополнительные подсистемы • Обычно система, основанная на посредниках не поддерживает работу с данными (добавление, изменение, удаление данных).

Посредник (или посредники) • интерфейс доступа, который используется приложениями интегрированной системы, либо с помощью промежуточного ПО (Web Service, SPARQL и т.п.) или с помощью прикладного интерфейса API. • процессор запросов (query processor), которые отвечает за разделение, оптимизацию и выполнениезапросов поступающих в систему. • каталог метаданных (metadata catalog) (или база знаний в случае систем, основанных на онтологиях), который хранит • глобальную модель данных, которая может описываться (defined) и поддерживаться явно (defined) или неявно, как объединение всех локальных моделей данных. • статистические данные, такие, как селективности (selectivities) или гистограммы (histograms). • Компонент регистрации (registry) используемый для регистрации и де-регистрации источников данных (обычно регистрация требует предоставления метаданных о источнике и отображения модели (model mapping)).

Процессор запросов • центральный элемент посредника; • выполняет следующие действия: • получения запроса пользователя • разбор запроса; • формирование общего плана выполнения. • формирование под-планов к адаптерам источников; • оптимизация по времени обработки (стоимости); • отправка под-планов адаптерам источников; • получение результатов; • формирование ответа пользователю.

Адаптеры(wrappers) • компоненты, связанные с источниками данных для решения проблем технической разнородности и разнородностей метамоделей. • Регистрация в посреднике. • принимают запросы к источнику на некотором языке. • преобразует запрос в язык источника; • Выполняет запрос. • Отправляет результаты посреднику.

Постановка задачи • Формально систему интеграции данных T можно описать в виде триплета <G, S, M>, где: • G – глобальная модель (схема) описанная на языке LGс использованием алфавита AG, который состоит из символов для описания элементов схемы в G; • S – исходная модель (схема) описанная на языке LSс использованием алфавита AS, который включает символы для элементов всех источников; • M – отображение (mapping) между G и S, описанное в форме утверждений (assertions): qS ⤳ qGи qG ⤳ qS • Такое определение не ограничивается только реляционной моделью, т.е., система интеграции, основанная на RDF будет использовать такие понятия языка RDF, как классы, свойства и типы данных в качестве элементов схемы.

Формирование глобальной онтологии (предметной области) • Моделирование онтологии конкретных предметных областей, (domain ontologies) является дорогой и трудоемкой задачей, требующей участия экспертов • Однако данная работа должна быть выполнена только один раз основным сообществом, которое умеет разрабатывать и поддерживать словари с помощью средств совместной работы разработанных сообщество Semantic Web. • Даже не эксперты могут добавлять и отображать (map) новые источники данных с помощью широко признанных вспомогательных онтологий, например,Dublin Core, FOAF, SOAP, DOAP и т.д.). • Для конкретной прикладной области разумным считается следующий подход: • вначале выполнить поиск существующих онтологий, • затем заполнить разрывы между ними на основе подхода снизу-вверх (bottom-up, от частных понятий к более общим).

Эксперименты во многих прикладных проектах Semantic Web показали, что специальный подход сверху-вниз часто является не очень многообещающим, приводящим к долгим философским спорам между участниками. • Обычно не практичным является попытка описать сразу всю предметную область, хотя начальные источники данных описывают только небольшую часть данной предметной области. • Вместо этого, обычно лучше использовать подход снизу-вверх (bottom-up) и моделировать необходимые понятия (concepts) на основе существующих онтологий, в тоже время сохраняя некоторую степень обобщенности и планируя возможные будущие точки расширения.

Онтология предметной области наблюдения за солнцем

Отображение моделей • Два основных подхода к спецификации семантического отображения терминов в системах интеграции данных: • Global-as-view - отдельные глобальные понятия специфицируются в терминах локальной системы понятий: qS ⤳ qG подходит для статичных систем интеграции данных, проектируемых «снизу вверх», • Local-as-view- отдельные локальные понятия специфицируются в терминах глобальной системы понятий: qG ⤳ qS подходитдля динамичных систем интеграции данных, проектируемых «сверху вниз». • Некоторым компромиссом является гибридный подход GLAV.

Формирование и описание отображений • Формальное описание соответствий или логическое отображение (logical mapping), соответственно, в действительности зависит от метамоделей и возможностей системы интеграции в целом. • Например: • При работе с реляционными базами данных, в качестве языка отображения может использоваться SQL, так как отображения могут быть описаныв виде SQL представлений (views). • Язык описания онтологий OWL. • Язык правил SWRL или RIF. • Язык D2RQ-Map, используемый сервером D2R-Server для формирования отображений реляционной модели на язык RDF.

Когда поступает запрос к целевой модели (например, к виртуальной глобальной модели), то система использует логическое отображение для формирования локальных запросов и для соответствующего преобразования всех исходных данных.

Логическое отображение создается или вручную или полуавтоматически с помощью алгоритмов формирования соответствия схем или онтологий. • Такие алгоритмы также могут использоваться для облегчения создания интегрированной глобальной модели. Они основываются на определении соответствия на основе: • сопоставления лексического сходства (например, с использованием • расстояния (метрики) Левенштейна, • n-gram моделей, • фонетических алгоритмов), • сопоставления на основе сравнения графов, как, например, • алгоритм распространения сходства (similarity flooding) предложенный в работе, • на основе использования таксономии и тезаурусы конкретных предметных областей. • Так как эти алгоритмы основываются на эвристиках, то полностью автоматические подходы работают не достаточно точно.

Двухэтапный подход к отображению/преобразованию

Прямой или одноэтапный подход к отображению/преобразованию

Логический вывод глобальных запросов • Глобальные запросы формулируются (записываются) на языке описания глобальных запросов LQ с использованием алфавита глобальной схемы AG. • Помимо такого общего определения, природа конкретной системы интеграции зависит от выразительности и характеристик языков описания отображения, схем и запросов. • C логической точки зрения, ответ на глобальный запрос фактически является задачей логического вывода. • Система должна создать результирующие кортежи, которые удовлетворяют глобальному запросу путем логического объединения промежуточных кортежей из набора источников на основе заданных отображений. • Особое внимание требуется в том случае, если информационная система накладывает дополнительные глобальные ограничения. Если информационная система интегрирует данные из автономных источников, то глобальные ограничения могут приводить к запросам, на которые нет ответов.

Походы к созданию систем интеграции на основе посредников • На основе реляционных моделей данных (1990 г.г.): • Основная метамодель: ODMG-93 • На основе онтологий (конец 1990-х начало 2005г.): • Основная метамодель: языки описания онтологий • На основе технологий Semantic Web (с 2004 г.): • Основная метамодель: RDF

СИИ на основе реляционных моделей данных

Архитектура системы интеграции Garlic

Архитектура и процессы в системе DISCO

Архитектура системы TSIMMIS.

СИИ на основе реляционных онтологий

Схема системы InfoSleuth, включающая агенты для интеграции информации

Архитектура виртуальной обсерватории (ИПИ РАН) АРХИТЕКТУРА ПРОМЕЖУТОЧНОГО СЛОЯ ПРЕДМЕТНЫХ ПОСРЕДНИКОВ ДЛЯ РЕШЕНИЯ ЗАДАЧ НАДМНОЖЕСТВОМ ИНТЕГРИРУЕМЫХ НЕОДНОРОДНЫХ РАСПРЕДЕЛЕННЫХ ИНФОРМАЦИОННЫХ РЕСУРСОВ В ГИБРИДНОЙ ГРИД-ИНФРАСТРУКТУРЕ ВИРТУАЛЬНЫХ ОБСЕРВАТОРИЙ Д.О. Брюхов, А. Е. Вовченко, В.Н. Захаров, О.П. Желенкова, Л.А. Калиниченко, Д.О.Мартынов, Н.А. Скворцов, С.А. Ступников

Общая архитектура посредника Yacob Mediator

Единое научное информационное пространство Предлагаемый алгоритм включает следующие основные этапы: • Переформулировка относительно аксиом глобальной онтологии; • Переформулировка относительно отображений онтологии; • Переформулировка относительно аксиом онтологии источников; • Минимизация полученного запроса. Бездушный Алексей А. (ВЦ РАН) Математическая модель интеграции данных на основе дескриптивной логики, 2008

Технологии Semantic Web • Язык описания данных RDF в виде триплетов (граф). • Языки описания моделей данных на основе языков RDFS и OWL (которые сами описываются в виде наборов триплетов и графов). • Язык запросов SPARQL к наборам триплетов (графам).

Интеграция данных на основе семантических технологий • Различные источники данных могут быть объединены в общую модель с помощью RDF. • Путем добавления других технологий Semantic Web, они могут быть интегрированы в общую модель знаний.

Преимущества использования RDF в качестве глобальной метамодели • RDF по определению ориентирован на работу в web-сети (Web-centric) и является хорошо масштабируемым, так как взаимосвязанные RDF онтологии могут быть распределены по сети World Wide Web; • RDF онтологии могут быть опубликованы любым пользователем в web сети для того, чтобы расширить существующие понятия (concepts) (взаимосвязями) с новыми понятиями, если это требуется (например, при добавлении нового источника данных к системе SemWIQ, информация которого не описывается текущей глобальной моделью, которая по существу является суммой всех опубликованных онтологий, использованных для описания источников данных). • Идентификаторы URI используются в качестве глобальных идентификаторов для всех понятий (concepts), что облегчает управление глобальным пространством имен URI (global URI namespace), путем использования Системы Доменных Имен (Domain Name System, DNS).

RDF, RDF-Schema, OWL и другие стандарты W3C разрабатываемые на их основе являются стандартизированными и широко используемыми языка представления знаний. • RDF граф может быть описан простым способом в виде набора триплетов , что облегчают слияние не полных, фрагментированных графов из распределенных источников. • RDF-Schema, OWL и другие словари построенные над RDF Core предоставляют все типичные средства (mechanisms) описания понятий, известные из других сред (например, Entity Relationship Model и UML), которые требуются для моделирующих онтологий. • RDF-Schema и OWL поддерживают терминологические dscrfpsdfybz(t-box) и утверждающие высказывания (assertional statements) (a-box), также, как и многие возможности дескриптивные логики, которые могут использоваться для выполнения логического вывода над данными и наложения ограничений.

Для каждого правильной (valid) строки SPARQL запроса qlex, существует формально определенный план запроса (query plan) q, который рекурсивно описывается объединением отдельных алгебраических операторов p. • Алгебраический план часто используется вместо термина план запроса.

Пример алгебраического плана • Для примера запроса показан его алгебраический план.

Текстовое описание плана запроса Slice((0; 10), Project((?name ?mbox ?i), Order((?name), LeftJoin( BGP((?s rdf:typefoaf:Person), (?s foaf:name ?name), (?s foaf:interest ?i)), BGP((?s foaf:mboxsha1_sum ?mbox)) ) ) ) )

Подходы к решению задачи формирования плана выполнения запросов • Решение задачи математической (дескриптивной) логики. • Структурный подход на основе графов.

Соотношение выразительности и парадигмы интеграции

СИИ на основе семантических технологий Semantic Web

Проект SemWIQ • распределенные источники данных, отображенные (mapped to) на распределенные онтологии. • масштабируемость относительно количества источников данных и количества и размера онтологий. • полное использование технологий SW. Andreas Langegger "A Flexible Architecture for Virtual Information Integration based on Semantic Web Concepts", 2010

Системы интеграции информации SemWIQ • Цели разработки системы: • виртуальная интеграция распределенных и разнородных информационных систем, • использование концепций Semantic Web, • применение подхода, использующего обработку целостного запроса для того, чтобы гарантировать высокую производительность и масштабируемость, • гибкость и низкая начальная стоимость (low entry cost).

Системы интеграции информации SemWIQ • Система SemWIQспособна справится со всеми уровнями разнородности, включая разнородность метамоделей. В связи с этим, SemWIQосновывается на классическом подходе, использующим посредники-адаптеры: • разнородные источники данных виртуально интегрируются посредством адаптеров и • центральный процессора обработки федеративных запросов (federated query processor) является ответственным за формирование ответов на запросы, путем делегирования (передачи) под-запросов адаптерам. • Процесс обработки запросов (query process) основывается на использовании каналов (pipelining), что позволяет уменьшить время ответа и гарантирует масштабируемость системы путем потоковой передачи результатов через конвейер (pipeline) от исходных информационных систем до отправившего запрос клиента (requesting client).

Описание системы SemWIQ • Глобальная метамодель (Global metamodel) – в системе SemWIQ в качестве глобальной метамодели используется RDF. • Глобальный язык запросов (Global query language) – язык SPARQL,может содержать любые понятия онтологий, но однако, запрос будет возвращать результаты только в том случае, если они могут быть получены с помощью глобального виртуального набора данных, т.е. путем объединения предоставляемых виртуальных RDF графов. • Интерфейс и протокол адаптера (Wrapper interface and protocol) – Интерфейсом взаимодействия между адаптерами и посредником является SPARQL. • Каждый адаптер может обрабатывать под-запросыSPARQL и организовывать поток передачи (stream) отображений промежуточных решающих соответствий посреднику (потоковая передача (streaming) результатов обработки SPARQL запросов в XML формате по протоколу HTTP хорошо работает с использованием «Streaming API for XML» (StAX), который используется компонентом Jena ARQ.).

Архитектура системы SemWIQ

Архитектура системы SemWIQ • Интерфейс (Interface) • SPARQL Protocol и RDF Query Language (SPARQL) . • API для Java приложений (mediator API). • Каталог метаданных (Metadata catalog) – RDF хранилище, которое содержит информацию о зарегистрированных источниках данных (описанную с использованием voiD), их текущее состояние возможности их использования и статистические данные RDFStats(RDFStatsstatistics). • Такие статистические данные используются для интеграции (federate) и оптимизации глобальных SPARQL запросов. • Данные каталога метаданных могут быть сохранены в любом, основанном на JenaRDF хранилище, но лучше Jena TDB • Система SemWIQвключает много-поточный монитор источников данных, который наблюдает в фоновом режиме за зарегистрированными источниками данных, основываясь на конфигурируемых профайлах и обновляет текущее состояние их доступности (availability state), а также статистические данные RDFStats.

Архитектура системы SemWIQ (2) • Компонент регистрации (Registry component) – новые источники данных могут быть зарегистрированы и вычеркнуты (de-registered) в посреднике SemWIQ с помощью registry APIи через REST-вида Web-сервис. • Источник данных регистрируется в виде соответствующего URI идентификатора конечной точкой SPARQL предоставляемого соответствующим адаптером. • В ходе регистрации монитор источников данных пытается найти метаданные в формате voiD в web сети, которые могут включать описание системы, которая поддерживает набор данных, лицензионную информацию, и предметные термины, связанные с этим набором данных. • Кроме этого данный монитор собирает статистические данные (RDFStats), если она предоставляются системой (natively provided), а в противном случае он будет использовать встроенный RDFStats компонент (RDFStats component) и генерировать статистические данные удаленно.

Архитектура системы SemWIQ (3) • Процессор запросов (Query processor) – процессор обработки запросов системы SemWIQполучает глобальный SPARQL запрос и • Формирует разделение на под-планы запроса на основе состояния каталога метаданных. • Оптимизация • Выполнение • Адаптеры (Wrappers) – для каждой системы информации источника и соответствующей модели исходных данных используется специфический адаптер для определения отображения и преобразования данных в RDF формат за один шаг.

Интеграция баз данных на основе онтологий