180 likes | 348 Views
Исследование регламентируемых фрагментов российского Веба. Печников Андрей Анатольевич, к.ф.-м.н., ст.н.с. Институт прикладных математических исследований Карельского научного центра РАН.
E N D
Исследование регламентируемых фрагментов российского Веба Печников Андрей Анатольевич, к.ф.-м.н., ст.н.с. Институт прикладных математических исследований Карельского научного центра РАН
Регламентируемый веб-ресурс - это веб-ресурс, для которого существует (должен существовать) нормативный документ, в котором изложены цели, задачи, основные структурные составляющие, правила обновления, добавления и изменения информации веб-ресурса. • Целевое множество - задаваемое прямым перечислением множество регламентируемых сайтов. • Сопутствующее множество - множество сайтов, не входящих в целевое множество, на которые существуют гиперссылки с сайтов целевого множества. • Фрагмент Веба - объединение сайтов целевого и сопутствующего множеств и множество связывающих их гиперссылок. 2
Объекты исследований: • академический фрагмент Веба (целевое множество – официальные сайты научных учреждений РАН); • университетский фрагмент Веба (целевое множество – официальные сайты классических университетов РФ); • бюрократический фрагмент Веба (целевое множество – официальные сайты органов государственной власти Республики Карелия). 3
Информационная система для вебометрических исследований: • Робот-сборщик гиперссылок • База данных • Операции, функции, фильтры БД ВИ: • Разработаны около 20 штук по мере возникновения необходимости. • Первая – ВЫБОРКА, .... • затем – ССЫЛКИ НА ЗАДАННЫЙ САЙТ, ССЫЛКИ С ЗАДАННОГО САЙТА, • СОПУТСТВУЮЩЕЕ МНОЖЕСТВО, • .... МАТРИЦА СМЕЖНОСТИ, • ..... И т.д.
уровень, откуда, зачем, куда Пример <02>< mathem.krc.karelia.ru/event.php><XI Всероссийская конференция RCDL’2009> <rcdl2009.krc.karelia.ru> Уникальная гиперссылка – это ссылка из множества всех гиперссылок, имеющих одинаковый контекст и адрес целевой страницы, сделанная со страницы с наивысшим уровнем. Академический Веб: 288 сайтов целевого множества, отсканированы все, 2,190,000 страниц, обнаруженных ссылок – 720,000, из них уникальных 82500. Из 23000 сайтов сопутствующего множества отсканировано 2300, обнаруженных ссылок – 1,100,000, из них уникальных 125000. 5
На примере академического Веба Много ссылок – с 10 и более сайтов из T, Мало – менее, чем с 10 сайтов из T. 6
Диаграмма академического Веба Дробь N/R обозначает количество сайтов, входящих в данное подмножество (N) и среднее количество уникальных гиперссылок, сделанных на сайты этого подмножества с целевого множества (R).
Вывод 1: слабая связность на целевом множестве Максимальная компонента сильной связности содержит 175 сайтов и имеет диаметр, равный 6 (вершины более темного цвета), а каждая из остальных 113 состоит из единственной вершины (более светлые вершины).
Примеры: Сайты-коммуникаторы академического Веба Прикладные проблемы управления макросистемами 2010
Вывод 2 : ценность коммуникаторов • При добавлении коллекторов: • мощность максимальной компоненты связности увеличивается до 214. • При добавлении индукторов: • мощность максимальной компоненты связности увеличивается до 190. • При добавлении посредников: • мощность максимальной компоненты связности увеличивается до 191. • При добавлении всех трех подмножеств коммуникаторов: • мощность максимальной компоненты связности увеличивается до 237. • Во всех четырех случаях диаметр наибольшей компоненты связности становится равным 7.
Пример взвешенного веб-графа для 4 сайтов. Граф – сильно связный. Дуги имеют различные веса. d(i,t) – длина кратчайшего пути из вершины i в вершину tв графе G(T,Е), где i,tT. Критерий доступности сайта tна множестве T - средняя длина пути в заданную вершину tT из любой вершины iT, i≠t, которая задается следующим образом: На примере для вершины 1: midd(1)=(1+3+1)/3=5/3. Далее будем использовать просто сумму, а не среднюю сумму, т.к. это не влияет на результат. Задача дележа затрат (1)
Вариант 2. Задача дележа затрат (2)
Вариант 3. Кооперативные игры. Вектор Шепли — принцип оптимальности распределения выигрыша между игроками в задачах теории кооперативных игр. Представляет собой распределение, в котором выигрыш каждого игрока равен его среднему вкладу в благосостояние тотальной коалиции при определенном механизме ее формирования. Задача дележа затрат (3)
На нашем примере Задача дележа затрат (4)
Задача расстановки ссылок в локализованной системе веб-ресурсов (1) Пусть n – количество участников, ci – значимость i-го участника, ci>0, i=1..n, mi – максимально возможное количество прямых ссылок от i-го на других участников, mi>0, i=1..n. Матрица ссылок X=(xij), i,j=1..n, где xij=1, если существует ссылка от i-го участника к j-му, и xij=0, если нет. Ограничения будут определены несколько ниже. F(X) ‑ функция, характеризующая некоторый интегральный показатель значимости всех участников веб-системы и зависящая от того, каким образом расставлены ссылки между ее участниками. Функция приращения значимости: • чем больше ссылок на ресурс, тем он становится «значимее», • чем больше значимость ресурса i, тем больше возрастает значимость ресурса j, если xij=1, • чем больше исходящих ссылок от ресурса i, тем меньше приращение значимости каждого ресурса j, для которого xij=1.
Ограничения • Целевая функция 1 Чем меньше , тем больше • Целевая функция 2 Задача расстановки ссылок в локализованной системе веб-ресурсов (2)
Задача расстановки ссылок в локализованной системе веб-ресурсов (3) , Апробация и модификация моделей на данных Яндекса ограничение заменено на строгое равенство, в качестве приняты значения тИЦ, отобрано 20 реальных сообществ, содержащих от 7 до 84 участников. По модели 1: • Религия. Православие, • Баннерная сеть Ket.Ru, • Министерства РФ, • Сайты КарНЦ РАН (0.905), • Целлюлозно-Бумажная Баннерная Сеть По модели 2: • Сайты КарНЦ РАН, • Министерства РФ, • Баннерная сеть Ket.Ru, • Религия. Православие, • Целлюлозно-Бумажная Баннерная Сеть. Задача расстановки ссылок в локализованной системе веб-ресурсов (3)