Information retrieval and the Semantic Web

Information retrieval and the Semantic Web Докладчик: Кийко Александр

Пландоклада • Ранжированиев информационном поиске • Основные подходы к обработке семантических документов • Прототипы • Заключение

1. Схема работы поисковой машины (ПМ) Индексирование ПМ Коллекция документов ПМ Поисковый запрос Функция ранжирования Документ 1 Документ 2 Документ 3 Документ R …

Ранжирование в информационном поиске (абстрактно) • Запрос: «Получение свидетельства пенсионного страхования» • Документ 1: «… Вчера получил пенсионноесвидетельство на работе…» • Документ 2: «… Пенсионное страхование будет осуществляться частными компаниями…» • Документ 3: «Свидетельство пенсионного страхования… помощь в получении водительских прав…отставка Лужкова»

Векторная модель • Мера близости – косинус угла между векторами запроса и документа • Терминам назначаются веса

Принципы назначения весов терминам • Меньший вес присваивается терминам, которые встречаются во многих документах; • Больший вес присваивается терминам, которые много раз встречаются в одном документе; • Меньший вес присваивается документам, содержащим много различных терминов.

Ранжирование в информационном поиске (формально) fd,t– частота встречаемости термина в документе ft – число документов в которых встречается термин

2. Технологии Semantic Web Документ Документ Документ Документ Документ Документ Документ Документ Документ Семантическая разметка Семантическая разметка Метаданные Метаданные Google ? ?

Языки разметки • RDF (Resource Description Framework) • OWL (Web Ontology Language) • DAML+OIL

Пример RDF файла <foaf:knows> <foaf:Person> <foaf:nick>Cal</foaf:nick> <foaf:name>Cal Henderson</foaf:name> <rdfs:seeAlsordf:resource="http://www.iamcal.com/foaf.xml"/> </foaf:Person> </foaf:knows>

RDF - триплеты

RDF – триплеты (2) • Каждый RDF-триплет состоит из subject, predicate, object. • Каждый RDF-триплет описывает уникальный факт

Компоненты системы Метаданные в формате RDF Поисковая машина Система обработки RDF-файлов (включая построение логического вывода) ?

Задачи • Кодирование и декодирование RDF • Индексирование • Ранжирование • Использование семантики

Использование поисковых систем для поиска по семантическим документам (Semantic web document)

Тестовые системы • OWLIR • Swangler

Swangler • Осуществляет преобразование документа в формате RDF в документ с аннотациями, который может быть индексирован поисковой машиной • Предоставляет интерфейс поиска, запросы должны иметь специальный формат

Область применения • Существует большое количество RDF и OWL документов, то есть большое количество семантических сетей • Стандарт HTML не позволяет добавить разметку к тексту • Поисковые машины могут на самом деле индексировать такие документы, но делать это некорректно

Пример работы RDF -триплет (http://www.xfront.com/owl/ontologies/camera/#Digital http://www.w3.org/2000/01/rdf-schema#subClassOf http://www.xfront.com/owl/ontologies/camera/#PurchaseableItem) -> (7 различных комбинаций, в которых отдельные параметры заменяются на значение «любой», результат хэшируется) BE52HVKU5GD5DHRA7JYEKRBFVQ WS4KYRWMO3OR3A6TUAR7IIIDWA 2THFC7GHXLRMISEOZV4VEM7XEQ HO2H3FOPAEM53AQIZ6YVPFQ2XI 6P3WFGOWYL2DJZFTSY4NYUTI7I N656WNTZ36KQ5PX6RFUGVKQ63A IIVQRXOAYRH6GGRZDFXKEEB4PY

OWLIR • Система поиска по документам, содержащим текст и семантическую разметку (RDF, DAML+OIL или OWL) • Работает с разными поисковыми машинами, тестировалась на двух: two-HAIRCUT и WONDIR • Создана для фильтрации университетских событий (спортивные матчи, открытые лекции и т.д.)

Описание OWLIR: события

Система построения логических выводов • Используется Java Expert System Shell Пример вывода: ->Событие: фильм “Очень страшное кино” можно сделать вывод о жанре, используя IMDB ->Жанр: “комедия” ->Будет сгенерировано несколько терминов и добавлено к документу перед индексированием

Схема работы OWLIR

Запрос к системе • Запрос отображается в документ, содержащий RDF – триплеты и текст <DOC> <TEXT>'UMBC Blood Drive!! Office of Student Life launches its annual Blood Drive for the Red Cross on Mon, Nov 20 in the UC Ballroom from 10am - 4pm. </TEXT> <TRIPLE>triple(charity_001)( ‘http://gentoo.cs.umbc.edu/howlir/announcements/charity#charity_001_place', ‘http://gentoo.cs.umbc.edu/ontologies/event_ont#Building', 'University Center'). </TRIPLE> </DOC>

Интеграция • Логические системы дают хорошие результаты, но очень плохо масштабируются • Во время операции поиска находятся документы, содержащие термины из запроса • Логическая система применяется к небольшому набору данных для поиска подходящего решения

Ранжирование • Каждый RDF-триплет отображается в 1 терм • Релевантность определяется по тем же формулам, что и в классическом поиске • Sim(q, d) – косинус угла между векторами запроса и документа, но размерность вектора равна N + M • N – количество терминов в документах • M – количество RDF-триплетов

Результаты

3.Swangling • Как осуществлять преобразование семантических элементов в обычные термы (swangling)? • Когда применять логические выводы? • Применять к документу перед индексированием • Применять к запросу во время поиска • Какова должны быть глубина вывода?

Использование поисковых машин • Crowlers • Ограничения • Индексируемые символы • Длина запроса

Заключение • Рассмотрены подходы, с помощью которых семантические документы могут быть индексированы и запрошены из традиционных поисковых машин • Рассмотрены демонстрационные системы: OWLIR, Swangler.

Information retrieval and the Semantic Web

Information retrieval and the Semantic Web

Presentation Transcript

Information Retrieval and Web Search

Information Retrieval and the Semantic Web

Information Retrieval and Web Search

Information Retrieval on the Semantic Web Using Ontology-based Visualization

Information Retrieval and Web Search

Semantic Web Application: Music Retrieval

Web Information Retrieval

Web Information Retrieval

Web Information retrieval

Information Retrieval and Web Search

Web Information Retrieval

Information Retrieval and Web Search

Web Search and Information Retrieval

Information Retrieval and Web Search

Web Information Retrieval

Information Retrieval and Web Search

Information Retrieval and Web Search

Information Retrieval and Web Search

Information Retrieval and Web Search