300 likes | 464 Views
Information retrieval and the Semantic Web. Докладчик: Кийко Александр. План доклада. Ранжирование в информационном поиске Основные подходы к обработке семантических документов Прототипы Заключение. 1. Схема работы поисковой машины (ПМ). Индексирование. ПМ. Коллекция документов. ПМ.
E N D
Information retrieval and the Semantic Web Докладчик: Кийко Александр
Пландоклада • Ранжированиев информационном поиске • Основные подходы к обработке семантических документов • Прототипы • Заключение
1. Схема работы поисковой машины (ПМ) Индексирование ПМ Коллекция документов ПМ Поисковый запрос Функция ранжирования Документ 1 Документ 2 Документ 3 Документ R …
Ранжирование в информационном поиске (абстрактно) • Запрос: «Получение свидетельства пенсионного страхования» • Документ 1: «… Вчера получил пенсионноесвидетельство на работе…» • Документ 2: «… Пенсионное страхование будет осуществляться частными компаниями…» • Документ 3: «Свидетельство пенсионного страхования… помощь в получении водительских прав…отставка Лужкова»
Векторная модель • Мера близости – косинус угла между векторами запроса и документа • Терминам назначаются веса
Принципы назначения весов терминам • Меньший вес присваивается терминам, которые встречаются во многих документах; • Больший вес присваивается терминам, которые много раз встречаются в одном документе; • Меньший вес присваивается документам, содержащим много различных терминов.
Ранжирование в информационном поиске (формально) fd,t– частота встречаемости термина в документе ft – число документов в которых встречается термин
2. Технологии Semantic Web Документ Документ Документ Документ Документ Документ Документ Документ Документ Семантическая разметка Семантическая разметка Метаданные Метаданные Google ? ?
Языки разметки • RDF (Resource Description Framework) • OWL (Web Ontology Language) • DAML+OIL
Пример RDF файла <foaf:knows> <foaf:Person> <foaf:nick>Cal</foaf:nick> <foaf:name>Cal Henderson</foaf:name> <rdfs:seeAlsordf:resource="http://www.iamcal.com/foaf.xml"/> </foaf:Person> </foaf:knows>
RDF – триплеты (2) • Каждый RDF-триплет состоит из subject, predicate, object. • Каждый RDF-триплет описывает уникальный факт
Компоненты системы Метаданные в формате RDF Поисковая машина Система обработки RDF-файлов (включая построение логического вывода) ?
Задачи • Кодирование и декодирование RDF • Индексирование • Ранжирование • Использование семантики
Использование поисковых систем для поиска по семантическим документам (Semantic web document)
Тестовые системы • OWLIR • Swangler
Swangler • Осуществляет преобразование документа в формате RDF в документ с аннотациями, который может быть индексирован поисковой машиной • Предоставляет интерфейс поиска, запросы должны иметь специальный формат
Область применения • Существует большое количество RDF и OWL документов, то есть большое количество семантических сетей • Стандарт HTML не позволяет добавить разметку к тексту • Поисковые машины могут на самом деле индексировать такие документы, но делать это некорректно
Пример работы RDF -триплет (http://www.xfront.com/owl/ontologies/camera/#Digital http://www.w3.org/2000/01/rdf-schema#subClassOf http://www.xfront.com/owl/ontologies/camera/#PurchaseableItem) -> (7 различных комбинаций, в которых отдельные параметры заменяются на значение «любой», результат хэшируется) BE52HVKU5GD5DHRA7JYEKRBFVQ WS4KYRWMO3OR3A6TUAR7IIIDWA 2THFC7GHXLRMISEOZV4VEM7XEQ HO2H3FOPAEM53AQIZ6YVPFQ2XI 6P3WFGOWYL2DJZFTSY4NYUTI7I N656WNTZ36KQ5PX6RFUGVKQ63A IIVQRXOAYRH6GGRZDFXKEEB4PY
OWLIR • Система поиска по документам, содержащим текст и семантическую разметку (RDF, DAML+OIL или OWL) • Работает с разными поисковыми машинами, тестировалась на двух: two-HAIRCUT и WONDIR • Создана для фильтрации университетских событий (спортивные матчи, открытые лекции и т.д.)
Система построения логических выводов • Используется Java Expert System Shell Пример вывода: ->Событие: фильм “Очень страшное кино” можно сделать вывод о жанре, используя IMDB ->Жанр: “комедия” ->Будет сгенерировано несколько терминов и добавлено к документу перед индексированием
Запрос к системе • Запрос отображается в документ, содержащий RDF – триплеты и текст <DOC> <TEXT>'UMBC Blood Drive!! Office of Student Life launches its annual Blood Drive for the Red Cross on Mon, Nov 20 in the UC Ballroom from 10am - 4pm. </TEXT> <TRIPLE>triple(charity_001)( ‘http://gentoo.cs.umbc.edu/howlir/announcements/charity#charity_001_place', ‘http://gentoo.cs.umbc.edu/ontologies/event_ont#Building', 'University Center'). </TRIPLE> </DOC>
Интеграция • Логические системы дают хорошие результаты, но очень плохо масштабируются • Во время операции поиска находятся документы, содержащие термины из запроса • Логическая система применяется к небольшому набору данных для поиска подходящего решения
Ранжирование • Каждый RDF-триплет отображается в 1 терм • Релевантность определяется по тем же формулам, что и в классическом поиске • Sim(q, d) – косинус угла между векторами запроса и документа, но размерность вектора равна N + M • N – количество терминов в документах • M – количество RDF-триплетов
3.Swangling • Как осуществлять преобразование семантических элементов в обычные термы (swangling)? • Когда применять логические выводы? • Применять к документу перед индексированием • Применять к запросу во время поиска • Какова должны быть глубина вывода?
Использование поисковых машин • Crowlers • Ограничения • Индексируемые символы • Длина запроса
Заключение • Рассмотрены подходы, с помощью которых семантические документы могут быть индексированы и запрошены из традиционных поисковых машин • Рассмотрены демонстрационные системы: OWLIR, Swangler.