280 likes | 443 Views
http://reina.usal.es. REcuperación de la INformación Avanzada. ¿Cómo trabajar en el grafo web?. José Luis Alonso Berrocal. Dpto. de Informática y Automática. Estructura de enlaces en el web. Recorrido del grafo web. Básicamente lo podemos recorrer:. Recorrido en anchura (breadth-first).
E N D
http://reina.usal.es REcuperación de la INformación Avanzada ¿Cómo trabajar en el grafo web? José Luis Alonso Berrocal Dpto. de Informática y Automática.
Recorrido del grafo web. Básicamente lo podemos recorrer: Recorrido en anchura (breadth-first). Recorrido en profundidad (depth-first). El mejor posible (best-first).
Recorrido del grafo (II) Recorrido en anchura: 1-2-3-4-7-5-8-9-10-6 Recorrido en profundidad: 1-2-4-5-6-3-7-8-9-10
Procedimiento básico WEB URL inicial Se carga la página Se extraen los URL Almacenar la información Urls visitados Urls a seguir Seguir el siguiente URL Operaciones de normalización: - convertir URL a minúscula - Eliminar anclas - Emplear igual codificación - Heurística para pag. Defecto - Resolver URL relativo Base de datos Ficheros ascii
Web crawlers para captura de datos WebBot Harvest-NG Webvac Spider SocSciBot 3 y SocSciBot_Tools SacarinoBot y EloisaBot Tools
Sacarino (Sonda AutomatiCA para la Recuperación de INformaciÓn en el web)
Resumen de los datos Se pueden resumir los datos de la siguiente forma:
importancia pagina i importancia pagina j Nº enlaces salientes desde página j paginas j que enlazan a pagina i PageRank
Estructura de enlaces en el web 1 2 3 4 5 6 7 8 9 10 1 0 0 1/2 0 0 0 0 0 0 0 ? ? 2 1/2 0 0 0 0 0 1/5 0 0 0 ? ? 3 1/2 1/2 0 0 0 0 0 0 1/2 0 ? ? 4 0 1/2 0 0 0 1/4 1/5 1 0 0 ? ? 5 0 0 0 1/2 0 1/4 0 0 1/2 0 ? ? 6 0 0 0 0 1 0 0 0 0 0 ? ? 7 0 0 1/2 1/2 0 0 0 0 0 0 ? ? 8 0 0 0 0 0 1/4 1/5 0 0 0 ? ? 9 0 0 0 0 0 0 1/5 0 0 1 ? ? 10 0 0 0 0 0 1/4 1/5 0 0 0 ? ?
Resultado final ---- Iteración 1 ---- 0.0500.0700.1500.1950.1250.1000.1000.0450.1200.045 NORM es 1.000000 Residual es 0.380000 ---- Iteratión 3 ---- 0.0600.0720.0930.1330.1260.1830.1230.0660.0800.066 NORM es 1.000000 Residual es 0.297500 ---- Iteración 10 ---- 0.0460.0480.0920.1530.1610.1600.1210.0660.0880.066 NORM es 1.000000 Residual es 0.017855 ---- Iteración 20 ---- 0.0450.0470.0910.1530.1620.1610.1220.0650.0890.065 NORM es 1.000000 Residual es 0.000896 El “eigen vector” principal (contiene los valores del PageRank)
http://reina.usal.es Muchas Gracias José Luis Alonso Berrocal berrocal@usal.es