110 likes | 323 Views
База данных внешних гиперссылок. http://grid.krc.karelia.ru/webometrics/login.php?action=login. Гостевой вход: guest/guest. Задачи рационального поведения в Вебе.
E N D
База данных внешних гиперссылок http://grid.krc.karelia.ru/webometrics/login.php?action=login Гостевой вход: guest/guest
Задачи рационального поведения в Вебе Присутствие целевых множеств в Вебе может быть значительно улучшено как за счет увеличения количества взаимных гиперссылок, так и за счет увеличения их связности с помощью сайтов-коммуникаторов. Далее рассматриваются три задачи: • задача расстановки гиперссылок в множестве сайтов, повышающая их присутствие в Вебе с точки зрения поисковых машин, • задача дележа затрат на создание веб-коммуникатора, • задача об оценке полезности участия в множестве сайтов, ссылающихся на один и тот же сайт-коммуникатор и имеющих обратные гиперссылки с него.
Задача расстановки гиперссылок n – количество сайтов-участников, ci – значимость i-го сайта, ci>0, i=1..n, X=(xij), i,j=1..n, xij=1, если существует ссылка от i-го сайта на j-й, xij=0, если нет. c1 c2 • Значимость (Google, Яндекс): • чем больше ссылок на ресурс, тем он «значимее», x13 • чем больше значимость ресурса i, тем больше возрастает значимость ресурса j, если xij=1, • чем больше исходящих ссылок от ресурса i, тем меньше приращение значимости каждого ресурса j, для которого xij=1. c3 c5 Зададим c4 0<<1 mi – максимально возможное количество ссылок от i-го на другие сайты, mi>0, i=1..n.
Задача 1: Задача 2: (1) (1’) .................(2) .................(3) ................(4) .................(5) Исследование (1’, 2-5): Исследование (1-5): Замена приводит к задаче линейного программирования Строится функция Лагранжа для её решения верно Находятся условия Приближенный алгоритм: в каждой строке i матрицы значение 1 получают те , для которых имеет максимальное значениев этой строке. Приближенный алгоритм: в каждой строке i выбирается элемент t c наименьшим и новым значением , наиболее близким к среднему по столбцу.
Апробация на данных Яндекса: 20 реальных сообществ, содержащих от 7 до 84 участников, в качестве приняты значения тИЦ, =0,85(damping-factor - Brin, Page). Сообщества с согласованным поведением: • Сайты КарНЦ РАН, • Министерства РФ, • Баннерная сеть Ket.Ru, • Религия. Православие, • Целлюлозно-Бумажная Баннерная Сеть.
Задача о дележе затрат Веб-граф G(T,E,W) – сильно связный со взвешенными дугами, веса wi≥1. d(i,t) – длина кратчайшего пути из iв t, Критерий доступности сайта tна целевом множестве T: Владельцы сайтов – игроки договорились создать веб-коммуникатор h, с которого обязательно будут сделаны гиперссылки c весом 1 на любой сайт из T и с каждого сайта из T будет сделана гиперссылка на h, имеющая вес 1. Тогда , middh(i)2. h Пример: 1 3 2 4
Z– стоимость сайта h, zi - взнос каждого игрока, . Вопрос: каковы должны быть значения z1, z2, …, zn, справедливые (в некотором смысле) для каждого игрока-владельца сайта целевого множества? Коалиция S – (под)множество сайтов из T, участвующих в создании h, причем h будет ссылаться только на участников коалиции, и только они будут ссылаться на коммуникатор. Характеристическая функция для i-го участника v(i) = midd(i)–middhS(i) рассчитывается с учетом того, того что коммуникатор создается только для членов коалиции S, middhS(i) - средняя длина пути в вершину i из всех других вершин коалиции S, кроме h и её самой. Решение основано на разделении платы пропорционально компонентам вектора Шепли, строящемуся с учетом среднего вклада каждого участника в выигрыш гранд-коалиции, z1, z2, …, znделится пропорционально величинам
Взвешенный веб-граф КарНЦ РАН Одинаковый: Z={0.125, 0.125, 0.125, 0.125, 0.125, 0.125, 0.125, 0.125} Кооперативный: Z={0.000, 0.105, 0.169, 0.129, 0.105, 0.153, 0.169, 0.169}
Задача об участии в сообществе динамического каталога (СДК) p0 Пользователи Веба 0 (головной сайт) pi Рядовые сайты Каталог ссылок 1 2 i 1-pi0 pi0 qj qjcat k k+1 n 1 Известны n qjcat– вероятность перехода с j-й позиции каталога, q1cat≥ q2cat≥…≥ qkcat, qk+1cat= qk+2cat=… qncat=0. pi ‑ вероятность попадания пользователя на i-й сайт СДК, q0 pi0 ‑ вероятность перехода с i-го рядового сайта на головной сайт (вероятность того, что пользователь, попав на i-й рядовой сайт, останется на нем, равна 1-pi0 ); Неизвестны: qj- вероятность перехода на любой рядовой сайт с j-й позиции каталога. q0 ‑ вероятность того, что пользователь, попав на головной сайт, останется на нем;
Обозначим ij- вероятность нахождения ссылки i-го рядового сайта на j-й позиции в каталоге, Тогда Доход от участия в СДК для i-го сайта: Для нахождения ij построена система n2+2nуравнений Для случая двух рядовых сайтов достаточное условие выигрыша обоих участников
Некоторые результаты имитационного моделирования: Тестовый пример «Кольцо сайтов» LawDir