400 likes | 535 Views
Семантический Веб : текущее состояние исследований и перспективные направления. Дмитрий Уланов (dulanov@gmail.com) 03.02.2006, ИСП РАН ( www.ispras.ru). План презентации. Технология Семантический Веб Текущие наработки и проекты Актуальные направления исследований.
E N D
Семантический Веб: текущее состояние исследований и перспективные направления Дмитрий Уланов (dulanov@gmail.com) 03.02.2006, ИСП РАН (www.ispras.ru)
План презентации • Технология Семантический Веб • Текущие наработки и проекты • Актуальные направления исследований
Ограничения традиционного WWW HTML-страницаописывает как представить информацию визуально в Веб-браузере и трудно поддаётся смысловому анализу компьютерами. Для неё невозможно автоматизировать даже такие тривиальные задачи, как нахождение людей, проектов, программ в Интернете.
Семантический Веб Технология Семантический Веб (Semantic Web) позволяет компьютеру интерпретировать информацию в Вебе наравне с людьми, для чего разработана графовая модель описания ресурсов RDF (Resource Description Framework), которая является спецификацией W3C. С помощью RDF можно создавать любые утверждения о любых ресурсах.
Графовая модель RDF Утверждения о ресурсах в модели RDF состоят из троек: Ресурсы и свойства представляются в виде URI, а литералы в формате Unicode.URI позволяет уникальным образом идентифицировать ресурсы в Вебе, а Unicode решает проблему мультиязычности. Ресурс [URI] Ресурс [URI] или Свойство [URI] Литерал [Unicode]
Модель RDF для данной презентации ISPRAS:ontology#Presentation ISPRAS:ontology#type ISPRAS:seminar#03022006 foaf:name dc:date dc:title Семантический Веб Дмитрий Уланов 03.02.2006 xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:foaf="http://xmlns.com/foaf/0.1/"
RDF/XML для данной презентации <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#” xmlns:foaf=“http://xmlns.com/foaf/0.1/” xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:ispras=“ISPRAS:ontology#” <ispras:Presentation rdf:id=“ISPRAS:seminar#03022006”> <dc:title>Семантический Веб</dc:title> <foaf:name>Дмитрий Уланов</foaf:name> <dc:date>03.02.2006</dc:date> </ispras:Presentation> </rdf:RDF>
N-Triples для данной презентации <ISPRAS:seminar#03022006> <ISPRAS:ontology#type> <ISPRAS:ontology#Seminar>. <ISPRAS:seminar#03022006> <http://purl.org/dc/elements/1.1/title> “СемантическийВеб”. <ISPRAS:seminar#03022006> <http://xmlns.com/foaf/0.1/creator> “Дмитрий Уланов”. <ISPRAS:seminar#03022006> <http://purl.org/dc/elements/1.1/date> “03.02.2006”.
Использование словаря Dublin Core В вышеприведённых утверждениях RDF в качестве свойств троек использовался словарь DC (Dublin Core): dc:title – заголовок ресурса dc:date – дата создания dc:creator – автор ресурса DC создан с помощью RDF схемы (RDF Schema). xmlns:dc="http://purl.org/dc/elements/1.1/"
Пример утверждения на RDF схеме Модель RDF универсальна и не зависит от предметной области, но с помощью RDF схемы можно создавать ресурсы предметной области и определять их свойства и иерархию.Например, можно написать утверждение: foaf:Person rdfs:subClassOf ISPRAS:ontology#Lector xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:foaf="http://xmlns.com/foaf/0.1/"
RDF схема это не XML схема RDF схема описана в утверждениях RDF. В отличие от XML схемыопределяет ресурсы (термины) предметной области, а не ограничивает структуру RDF. За ресурсами RDF схемы в спецификации W3C закреплена семантика. Например, за ресурсом rdfs:subClassOf закреплена семантика наследования.
Что такое семантика данных? Под семантикой данных будем понимать возможностьформального описания смысла передаваемых данных, делая их независимыми от приложений. Это особенно важно в Интернете, где данные и приложения должны быть независимыми. Какие данные сегодня можно использовать в отрыве от создающих их приложений: данные из реляционных баз данных, XML-документы? Нет, потому что их семантика зашита в логике программы и/или неформально в спецификациях. Только данные снабжённые явной семантикой можно сделать действительно независимыми от приложений!
Зачем нужен RDF, чем плох XML? Вложенность тегов XML не несёт никакой семантики, только синтаксис. Возможные формы представления утверждения “Сергей Кузнецов читает курс по базам данных” в формате XML: <course name=“базы данных”> <lecturer>Сергей Кузнецов</lecturer> </course> <lecturer name=“Сергей Кузнецов”> <teaches>базы данных</teaches> </lecturer> <teachingOffering> <lecturer>Сергей Кузнецов</lecturer> <course>базы данных</course> </teachingOffering> Приложение, которое использует первый формат, не сможет понять два других формата и наоборот. Поэтому, XML хорош только как формат (синтаксис) для обмена данными, но не как модель описания семантики данных!
Где в RDF семантика? На уровне модели RDF семантика появляется благодаря использованию онтологий OWL (Ontology Web Language), благодаря которым компьютер может понимать как известный ему ресурс или свойство связано с другим, неизвестным ему ресурсом или свойством соответственнои производить другие логические выводы над утверждениями RDF. Онтологии основываются на математическом аппарате формальной логики (description logic, DL), малое подмножество которого охвачено RDF схемой. DL является вычислимым подмножеством логики первого порядка.
Пример использования семантики Как проинтерпретирует следующие утверждения приложение, которое понимает только ресурсы словаря foaf? <ISPRAS:seminar#03022006> <ISPRAS:ontology#Lector> “Дмитрий Уланов”. <ISPRAS:ontology#Lector> <rdfs:subClassOf> <foaf:Person> Оно поймёт, что ISPRAS:ontology#Lectorявляется foaf:Person и выведет новое утверждение: <ISPRAS:seminar#03022006> <foaf:Person> “Дмитрий Уланов”
Словарь описания онтологий OWL Словаря RDF схемы не всегда достаточно для создания предметных областей, OWL расширяет RDF схемувозможностями DL, заимствованными из ранее разработанного языка по описанию онтологий DAML-OIL агентства DARPA. owl:equivalentClass ISPRAS:ontology#Person foaf:Person rdfs:subClassOf rdfs:subClassOf ISPRAS:ontology#Student ISPRAS:ontology#Lector owl:disjointWith xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:owl="http://www.w3.org/2002/07/owl#" xmlns:foaf="http://xmlns.com/foaf/0.1/"
Правила вывода новых фактов SWRL Благодаря дополнению OWL языком RuleML (подмножество Datalog) в виде словаря SWRL (A Semantic Web Rule Language) появилась возможность использовать дизъюнкты Хорна (Horn-like rules) для явного указания способа вывода новых фактов из утверждений RDF. Пока словарь SWRL находится в стадии стандартизации.
Сериализация правилав RDF/XML parent(?x,?y) & brother(?y,?z) → uncle(?x,?z): <swrl:Imp rdf:ID="Def-hasUncle"> <swrl:body> <swrl:AtomList> <rdf:first> <swrl:IndividualPropertyAtom> <swrl:propertyPredicate rdf:resource="#hasParent"/> <swrl:argument1 rdf:resource="#x"/> <swrl:argument2 rdf:resource="#y"/> </swrl:IndividualPropertyAtom> </rdf:first> … </swrl:AtomList> </swrl:head> </swrl:Imp>
Семантические хранилища Предполагается, что большие объёмы RDF данных будут храниться в семантических хранилищах и для доступа к ним использоваться язык запросов SPARQL, который находится в стадии стандартизации W3C – аналог SQL для RDBMS. Пример запроса “вывести все названия презентаций, созданных Дмитрием Улановым” на SPARQL: PREFIX dc: <http://purl.org/dc/elements/1.1/> PREFIX foaf: <http://xmlns.com/foaf/0.1/> SELECT ?title WHERE { ?presentation foaf:name “Дмитрий Уланов”. ?presentation dc:title ?title}
Эволюционный подход Семантический Веб это не замещение нынешнего WWW, а его эволюционное развитие. RDF/XML либо внедряется внутрь HTML или доступен по URL. По этому принципу уже широко используются в WWW RDF-данные с использованием словарей RSS, FOAF (Friend Of A Friend), DOAP (Description Of A Project).
Словарь FOAF и портал LiveJournal Код HTML Данные RDF
Что в итоге мы получили? Технология Семантический Веб успешно решает следующие задачи: • независимость данных от приложений; • семантическая интеграция данных; • создание основы для повсеместного использования компьютерных агентов (сервисов).
План презентации • Технология Семантический Веб • Текущие наработки и проекты • Актуальные направления исследований
Основы Семантического Веба Семантический Веб создан не на пустом месте. В него заложены фундаментальные основы: • графовая модель представления полуструктурированных данных (OEM, Lore); • формальная логика(логика первого порядка, базы знаний, фреймы); • архитектура WWW (URI, Unicode, XML, HTTP); • криптография с открытым ключом.
Программная поддержка технологии • библиотеки для интерпретации стека языков RDF для всех популярных языков программирования (Jena, Redland, RDFLib); • редакторы онтологий (Protégé); • системы рассуждений над онтологиями (Racer, KAON, FACT); • семантические хранилища (Sesame, Kowari, YARS); • семантические браузеры (Simile, Piggy Bank, Gnowsis, Haystack); • поисковики семантических данных (Swoogle); • конверторы из разных форматов представления данных в/из RDF/XML (Aperture, RDFizers, D2R); • прикладные программы (Bibster, FOAF Explorer).
Коммерческие продукты • Adobe's XMP – метоописания о файлах; • Oracle's 10.2 Database –встроенная поддержка модели RDF; • Tucana's Knowledge Discovery Suite – платформа для интеграции информации приложений (Enterprise Information Integration , EII)
План презентации • Технология Семантический Веб • Текущие наработки и проекты • Актуальные направления исследований
Направления исследований (1) • 1. Foundations • 1.0 Knowledge Engineering and Ontology Engineering • 1.1 Knowledge Representation and Reasoning • 1.2 Information Management • 1.3 Basic Web Information technologies • 1.4 Agents • 1.5 Natural Language Processing
Направления исследований (2) • 2 Semantic Web Core topics • 2.0 Infrastructure • 2.1 Resource Description Framework and RDFSchema • 2.2 Languages • 2.3 Ontologies • 2.4 Rules and Logic • 2.5 Proof • 2.6 Security and trust and privacy • 2.7 Applications
Направления исследований (3) • 3 Semantic Web Special Topics • 3.1 Natural language processing and human language technologies • 3.2 Social impact of the Semantic Web • 3.3 Social networks and Semantic Web • 3.4 Peer-to-peer and Semantic Web • 3.5 Agents and Senatic Web • 3.6 Semantic Grid • 3.7 Outreach to industry • 3.8 Benchmarking and scalability
Задача 1: использование OWL в MDA Создание и использование онтологий популярно в области баз знаний, но не в разработке ПО, где хорошо зарекомендовал себя UML. В настоящее время OMG предпринимает ряд попыток по использованию онтологий в моделях MDA (ontology.omg.org). Вариант решения: OWL → ODM (Ontology Definition Metamodel) → OUP (Ontology UML Profile)
Задача 2: семантическая интеграция данных Задача интеграции данных активно решается начиная с 80-х годов прошлого столетия, причём на разных уровнях, от системного (различия в используемых форматах доступа к данным) и синтаксического (наименование и структура схемы данных) до семантического (различия в семантике хранимых данных). Но если проблемы системной и синтаксической интеграции решены, то семантическая интеграция остаётся актуальной проблемой. Для решения задачи семантической неоднородности данных необходимо формальным образом выделить смысл интегрируемых данных, в чём хорошо зарекомендовали себя онтологии. Важной проблемой является постановка задачи интеграции данных, но благодаря проекту THALIA она уже решена.
Тестовый набор THALIA В рамках проекта THALIA (Test Harness for the Assessment of Legacy information Integration Approaches – тестовый набор для оценки существующих решений по интеграции информации) создан испытательный стенд, агрегирующий данные по обучающим курсам для 25 компьютерных факультетов со всего мира.Данные по курсам доступны в виде XML-файлов с XML-схемой. Сформулированы 12 эталонных XQuery запросов для 12 основных проблем синтаксической и семантической неоднородности. Приведен алгоритм количественной оценки эффективности системы интеграции.
Задача 3: архитектура “Семантической Шины” Семантическая Шина (Semantic Bus) – это архитектурное решение, предложенное Tim Berners-Lee и направленное на решение проблемы интеграции данных приложений (EII).
Реализация архитектуры Для новых приложений “Семантическая Шина” представима в виде разделяемого информационного пространства. Такой подход был воплощён в проекте Linda для интеграции распределённых процессов. Импорт данных из унаследованных систем осуществляется посредством использования RDF-адаптеровтрёх типов (наосновезапросов RDF, URIQA ииндексацииресурсов), т.е. реализует архитектуру медиаторов (проекты SIMS, TSIMMIS, OBSERVER, COIN).
Вопросы? Контактная информация:Дмитрий Уланов (dulanov@gmail.com), аспирант ИСП РАН (www.ispras.ru)