1 / 28

¿Cómo trabajar en el grafo web?

http://reina.usal.es. REcuperación de la INformación Avanzada. ¿Cómo trabajar en el grafo web?. José Luis Alonso Berrocal. Dpto. de Informática y Automática. Estructura de enlaces en el web. Recorrido del grafo web. Básicamente lo podemos recorrer:. Recorrido en anchura (breadth-first).

ellie
Download Presentation

¿Cómo trabajar en el grafo web?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. http://reina.usal.es REcuperación de la INformación Avanzada ¿Cómo trabajar en el grafo web? José Luis Alonso Berrocal Dpto. de Informática y Automática.

  2. Estructura de enlaces en el web

  3. Recorrido del grafo web. Básicamente lo podemos recorrer: Recorrido en anchura (breadth-first). Recorrido en profundidad (depth-first). El mejor posible (best-first).

  4. Recorrido del grafo (II) Recorrido en anchura: 1-2-3-4-7-5-8-9-10-6 Recorrido en profundidad: 1-2-4-5-6-3-7-8-9-10

  5. Procedimiento básico WEB URL inicial Se carga la página Se extraen los URL Almacenar la información Urls visitados Urls a seguir Seguir el siguiente URL Operaciones de normalización: - convertir URL a minúscula - Eliminar anclas - Emplear igual codificación - Heurística para pag. Defecto - Resolver URL relativo Base de datos Ficheros ascii

  6. Recorrido avanzado

  7. Recorrido avanzado (II)

  8. Web crawlers para captura de datos WebBot Harvest-NG Webvac Spider SocSciBot 3 y SocSciBot_Tools SacarinoBot y EloisaBot Tools

  9. Sacarino (Sonda AutomatiCA para la Recuperación de INformaciÓn en el web)

  10. Sacarino (Clasificación)

  11. Sacarino (Clasificación II)

  12. Sacarino (Clasificación III)

  13. Creación de matrices

  14. Operaciones con matrices

  15. Matriz de distancia.

  16. Resumen de los datos Se pueden resumir los datos de la siguiente forma:

  17. Tratamiento de los datos

  18. Herramienta de cálculo

  19. Matriz sparse

  20. importancia pagina i importancia pagina j Nº enlaces salientes desde página j paginas j que enlazan a pagina i PageRank

  21. Estructura de enlaces en el web 1 2 3 4 5 6 7 8 9 10 1 0 0 1/2 0 0 0 0 0 0 0 ? ? 2 1/2 0 0 0 0 0 1/5 0 0 0 ? ? 3 1/2 1/2 0 0 0 0 0 0 1/2 0 ? ? 4 0 1/2 0 0 0 1/4 1/5 1 0 0 ? ? 5 0 0 0 1/2 0 1/4 0 0 1/2 0 ? ? 6 0 0 0 0 1 0 0 0 0 0 ? ? 7 0 0 1/2 1/2 0 0 0 0 0 0 ? ? 8 0 0 0 0 0 1/4 1/5 0 0 0 ? ? 9 0 0 0 0 0 0 1/5 0 0 1 ? ? 10 0 0 0 0 0 1/4 1/5 0 0 0 ? ?

  22. Resultado final ---- Iteración 1 ---- 0.0500.0700.1500.1950.1250.1000.1000.0450.1200.045 NORM es 1.000000 Residual es 0.380000 ---- Iteratión 3 ---- 0.0600.0720.0930.1330.1260.1830.1230.0660.0800.066 NORM es 1.000000 Residual es 0.297500 ---- Iteración 10 ---- 0.0460.0480.0920.1530.1610.1600.1210.0660.0880.066 NORM es 1.000000 Residual es 0.017855 ---- Iteración 20 ---- 0.0450.0470.0910.1530.1620.1610.1220.0650.0890.065 NORM es 1.000000 Residual es 0.000896 El “eigen vector” principal (contiene los valores del PageRank)

  23. Pajek

  24. Conversión a formato Pajek

  25. Representación del grafo

  26. Representación del grafo (II)

  27. Representación del grafo (III)

  28. http://reina.usal.es Muchas Gracias José Luis Alonso Berrocal berrocal@usal.es

More Related