1 / 18

Исследование регламентируемых фрагментов российского Веба

Исследование регламентируемых фрагментов российского Веба. Печников Андрей Анатольевич, к.ф.-м.н., ст.н.с. Институт прикладных математических исследований Карельского научного центра РАН.

brigit
Download Presentation

Исследование регламентируемых фрагментов российского Веба

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Исследование регламентируемых фрагментов российского Веба Печников Андрей Анатольевич, к.ф.-м.н., ст.н.с. Институт прикладных математических исследований Карельского научного центра РАН

  2. Регламентируемый веб-ресурс - это веб-ресурс, для которого существует (должен существовать) нормативный документ, в котором изложены цели, задачи, основные структурные составляющие, правила обновления, добавления и изменения информации веб-ресурса. • Целевое множество - задаваемое прямым перечислением множество регламентируемых сайтов. • Сопутствующее множество - множество сайтов, не входящих в целевое множество, на которые существуют гиперссылки с сайтов целевого множества. • Фрагмент Веба - объединение сайтов целевого и сопутствующего множеств и множество связывающих их гиперссылок. 2

  3. Объекты исследований: • академический фрагмент Веба (целевое множество – официальные сайты научных учреждений РАН); • университетский фрагмент Веба (целевое множество – официальные сайты классических университетов РФ); • бюрократический фрагмент Веба (целевое множество – официальные сайты органов государственной власти Республики Карелия). 3

  4. Информационная система для вебометрических исследований: • Робот-сборщик гиперссылок • База данных • Операции, функции, фильтры БД ВИ: • Разработаны около 20 штук по мере возникновения необходимости. • Первая – ВЫБОРКА, .... • затем – ССЫЛКИ НА ЗАДАННЫЙ САЙТ, ССЫЛКИ С ЗАДАННОГО САЙТА, • СОПУТСТВУЮЩЕЕ МНОЖЕСТВО, • .... МАТРИЦА СМЕЖНОСТИ, • ..... И т.д.

  5. уровень, откуда, зачем, куда Пример <02>< mathem.krc.karelia.ru/event.php><XI Всероссийская конференция RCDL’2009> <rcdl2009.krc.karelia.ru> Уникальная гиперссылка – это ссылка из множества всех гиперссылок, имеющих одинаковый контекст и адрес целевой страницы, сделанная со страницы с наивысшим уровнем. Академический Веб: 288 сайтов целевого множества, отсканированы все, 2,190,000 страниц, обнаруженных ссылок – 720,000, из них уникальных 82500. Из 23000 сайтов сопутствующего множества отсканировано 2300, обнаруженных ссылок – 1,100,000, из них уникальных 125000. 5

  6. На примере академического Веба Много ссылок – с 10 и более сайтов из T, Мало – менее, чем с 10 сайтов из T. 6

  7. Диаграмма академического Веба Дробь N/R обозначает количество сайтов, входящих в данное подмножество (N) и среднее количество уникальных гиперссылок, сделанных на сайты этого подмножества с целевого множества (R).

  8. Вывод 1: слабая связность на целевом множестве Максимальная компонента сильной связности содержит 175 сайтов и имеет диаметр, равный 6 (вершины более темного цвета), а каждая из остальных 113 состоит из единственной вершины (более светлые вершины).

  9. Примеры: Сайты-коммуникаторы академического Веба Прикладные проблемы управления макросистемами 2010

  10. Вывод 2 : ценность коммуникаторов • При добавлении коллекторов: • мощность максимальной компоненты связности увеличивается до 214. • При добавлении индукторов: • мощность максимальной компоненты связности увеличивается до 190. • При добавлении посредников: • мощность максимальной компоненты связности увеличивается до 191. • При добавлении всех трех подмножеств коммуникаторов: • мощность максимальной компоненты связности увеличивается до 237. • Во всех четырех случаях диаметр наибольшей компоненты связности становится равным 7.

  11. Пример взвешенного веб-графа для 4 сайтов. Граф – сильно связный. Дуги имеют различные веса. d(i,t) – длина кратчайшего пути из вершины i в вершину tв графе G(T,Е), где i,tT. Критерий доступности сайта tна множестве T - средняя длина пути в заданную вершину tT из любой вершины iT, i≠t, которая задается следующим образом: На примере для вершины 1: midd(1)=(1+3+1)/3=5/3. Далее будем использовать просто сумму, а не среднюю сумму, т.к. это не влияет на результат. Задача дележа затрат (1)

  12. Вариант 2. Задача дележа затрат (2)

  13. Вариант 3. Кооперативные игры. Вектор Шепли — принцип оптимальности распределения выигрыша между игроками в задачах теории кооперативных игр. Представляет собой распределение, в котором выигрыш каждого игрока равен его среднему вкладу в благосостояние тотальной коалиции при определенном механизме ее формирования. Задача дележа затрат (3)

  14. На нашем примере Задача дележа затрат (4)

  15. Задача расстановки ссылок в локализованной системе веб-ресурсов (1) Пусть n – количество участников, ci – значимость i-го участника, ci>0, i=1..n, mi – максимально возможное количество прямых ссылок от i-го на других участников, mi>0, i=1..n. Матрица ссылок X=(xij), i,j=1..n, где xij=1, если существует ссылка от i-го участника к j-му, и xij=0, если нет. Ограничения будут определены несколько ниже. F(X) ‑ функция, характеризующая некоторый интегральный показатель значимости всех участников веб-системы и зависящая от того, каким образом расставлены ссылки между ее участниками. Функция приращения значимости: • чем больше ссылок на ресурс, тем он становится «значимее», • чем больше значимость ресурса i, тем больше возрастает значимость ресурса j, если xij=1, • чем больше исходящих ссылок от ресурса i, тем меньше приращение значимости каждого ресурса j, для которого xij=1.

  16. Ограничения • Целевая функция 1 Чем меньше , тем больше • Целевая функция 2 Задача расстановки ссылок в локализованной системе веб-ресурсов (2)

  17. Задача расстановки ссылок в локализованной системе веб-ресурсов (3) , Апробация и модификация моделей на данных Яндекса ограничение заменено на строгое равенство, в качестве приняты значения тИЦ, отобрано 20 реальных сообществ, содержащих от 7 до 84 участников. По модели 1: • Религия. Православие, • Баннерная сеть Ket.Ru, • Министерства РФ, • Сайты КарНЦ РАН (0.905), • Целлюлозно-Бумажная Баннерная Сеть По модели 2: • Сайты КарНЦ РАН, • Министерства РФ, • Баннерная сеть Ket.Ru, • Религия. Православие, • Целлюлозно-Бумажная Баннерная Сеть. Задача расстановки ссылок в локализованной системе веб-ресурсов (3)

More Related