210 likes | 369 Views
Перспективы применения семантических технологий при построении виртуальных научных сообществ. Денис Голомазов аспирант механико-математического факультета МГУ младший научный сотрудник НИИ механики МГУ denis.golomazov@gmail.com. План доклада. Что такое семантические технологии?
E N D
Перспективы применения семантических технологий при построении виртуальных научных сообществ Денис Голомазов аспирант механико-математического факультета МГУ младший научный сотрудник НИИ механики МГУ denis.golomazov@gmail.com 4 февраля 2010 года
План доклада • Что такое семантические технологии? • Зачем они нужны? • Каково текущее состояние дел? • Каковы перспективы?
Семантические технологии - это • Модель данных RDF • Онтологии • Логический вывод
Модель данных RDF • Рассмотрим утверждения вида «субъект – предикат – объект» (тройки) • Земля является планетой • Земля находится в солнечной системе • «Земля», «является», «планета», «находится», «солнечная система» - ресурсы, определяемые уникальными адресами • Так можно описывать действительность – мы задали модель данных
Онтологии • Онтология – совокупность утверждений-троек • Онтология состоит из терминологической и фактологической частей • Терминологическая часть (словарь): • «Планета – это небесное тело» • «Звезда – это не планета» • «Планета имеет орбиту» • «Планета имеет массу (действительное число > 0)» • «Планета может иметь спутники» • Фактологическая часть: • «Земля – это планета» • «Земля имеет массу 6x10^24 кг» • «Луна – спутник Земли»
Логический вывод • Мы хотим автоматически выводить новые факты из существующих • Например: «Земля является планетой», «Планета является небесным телом» -> «Земля является небесным телом» • Для этого вводим специальные ресурсы, имеющие значение(правило выведения новых троек) • Например, ресурсы «класс», «являться членом класса», «быть подклассом». • Значение ресурсов: если существуют тройки «C – это подкласс D», «x – член класса C», то из этого выводится новый факт «x – член класса D».
Что дают семантические технологии? • Единая модель данных (RDF) • Общее видение предметной области • Компьютеру доступен смысл информации
А зачем это? • Новый уровень поиска • Более сложные запросы • Решение вопросов синонимии и мультиязычности • Конкретизация/обобщение запроса • Интеграция информации • Поддержка принятия решений • Выявление скрытого знания
Сложные запросы • Какова космическая стратегия Китая в следующие 20 лет? • Как связаны стратегии Китая и США? • Как решалась задача открытия экзопланет в прошлом? • Какие есть алгоритмы сейчас? • Какова лучшая методика в данной ситуации? • Какие новые алгоритмы были описаны в публикациях за последний год в этой области?
Интеграцияинформации: цели • Управление информацией как активом (жизненный цикл информации) • Анализ трендов и изменений в индустрии • Накопление и использование опыта • Перевести скрытое знание из отчетов и голов экспертов в единую систему • Возможность просмотра информации с различным уровнем детализации • Общий доступ к информации • Взаимодействие с приложениями
Принятие решений: цели • Оптимизация принятия похожих решений • чтобы не повторять ошибок • Оценка решений • выбор решения с наибольшей выгодой • с учетом рисков • Моделирование последствий решений • разные модели • и общее видение разных моделей
Откуда брать RDF-тройки • Готовые тройки: • Файлы .rdf(Google: 2.5 млндокументов) • созданные вручную • сгенерированные сервисами (livejournal, facebook etc) • Структурированные данные: • Конверторы *->rdf (таблицы, реляционные БД) • Микроформаты • RDFa • Неструктурированные данные: • Конверторы HTML->RDF (“scrapers”)
Проект Linking Open Data • Переведем в RDF существующие базы данных в открытом доступе • Проставим ссылки из баз друг на друга • Получим большую коллекцию связанных RDF-троек
Проект Linking Open Data Главная проблема: у каждой базы своя онтология
Онтологии • Google: 186 тыс. онтологий • Онтологии общей направленности: SKOS, Dublin Core, YAGO, DBpedia, Umbel • Специализированные онтологии, всевозможные тематики: • люди, сообщества, наука, проекты, веб-ресурсы, теги, бизнес, языки, география, биология, музыка, еда,…
Заинтересованные сферы • Медицина и науки о человеке • Активно используют онтологии • Нефтегазовая индустрия • Semantic Web for Oil&Gas Workshop • Финансовые услуги • Промышленность • Социальные сети • Правительство • Медийный бизнес
Текущие задачи • Перевод информации в RDF • Автоматическое создание онтологий • Разработка согласованных словарей • Интеллектуальная собственность
Перспективы • Интернет – семантически единое информационное пространство • Взаимодействие человека с Сетью осуществляется посредством интеллектуальных агентов, которые: • Отвечают на сложные вопросы • Взаимодействуют друг с другом
Проект «Impact» • Система анализа научного прогресса на основе информации из отчетов научных сотрудников • Цель: отвечать на запросы вида • Какие направления активно исследуются в данной области знаний? • Какие публикации по данному направлению вышли за прошедший период? • В каких еще задачах используются методы данного направления? • Какие конференции посвящены данному направлению? • Каков научный вклад данного ученого/подразделения за прошедший период?
Перспективы применения семантических технологий при построении виртуальных научных сообществ Денис Голомазов denis.golomazov@gmail.com Спасибо за внимание. 4 февраля 2010 года