190 likes | 309 Views
Análisis de la persistencia y del estado de páginas web en los resultados de Google. José Luis Ortega, José Antonio Prieto, Natalia Arroyo, Víctor Pareja, Isidro Aguillo Laboratorio de Internet CINDOC (CSIC) jortega@cindoc.csic.es. Introducción.
E N D
Análisis de la persistencia y del estado de páginas web en los resultados de Google José Luis Ortega, José Antonio Prieto, Natalia Arroyo, Víctor Pareja, Isidro Aguillo Laboratorio de Internet CINDOC (CSIC) jortega@cindoc.csic.es
Introducción • Crecimiento exponencial del web en la década de los noventa. • Incorporación masiva de contenidos. • Medio de gran expectativa social y economica. • El ritmo de crecimiento de sedes web se ralentiza hasta llegar, en el periodo 2001-2002, a un decrecimiento del 1% (O’Neill et al., 2003). • Crisis de las puntocom. • Estabilización en la incorporación de contenidos.
Trabajos relacionados • Harter y Kim (1996): • citas electrónicas en revistas electrónicas. • 1/3 no disponibles. • Koehler (1999, 2002, 2004): • periodo 1999 – 2001. • páginas operativas sólo el 34,4% • Nelson y Allen (2002): • bibliotecas digitales a lo largo de un año. • 3% de objetos no disponibles (linkrot). • Medio más estable.
Objetivos • Estabilidad de los índices del buscador Google. • Estado y disponibilidad de los resultados. • Estimación de la persistencia en las consultas.
Metodología I • Tres consultas • “alhambra de granada” (500 resultados) • “mezquita de cordoba” (500 resultados) • “catedral de jaen” (230 resultados) • durante 15 semanas (frec. semanal) • del 29 de enero de 2004 al 6 de mayo de 2004
Metodología II • Seguimiento de las páginas obtenidas a partir de la primera consulta. • Disponibilidad de los resultados a lo largo del tiempo.
Metodología IIIHerramientas • Web Data Extractor 4.0 • Extracción de los resultados de las distintas consultas realizadas. • Xenu's Link Sleuth • Comprobación del estado en que se encuentran dichos resultados.
Resultados El número de documentos que permanecen en cada consulta, originarios de la primera, desciende describiendo una curva logarítmica inversa. R2< 0,9
Resultados • Se asemeja al descenso de la actividad radioactiva de un isótopo a lo largo del tiempo. • Permite estimar el ritmo de decaimiento de la consulta.
Consultas Vida Media alhambra de granada 0,048 mezquita de cordoba 0,058 catedral de jaen 0,227 Vida Media Tiempo transcurrido desde la observación original hasta el momento en que sólo recuperamos la mitad de resultados de la consulta original.
Fórmula del Decaimiento Rt=R0e(- t) Donde = -0,693t/T (1/2) • Rt = Persistencia de resultados después del intervalo t • R0 = Resultados de la primera consulta. • e = base del logaritmo natural (2,718...). • t= tiempo transcurrido en años. • T(1/2)= Vida Media de la consulta.
Consultas Programación alhambra de granada 1,2% mezquita de cordoba 3,67% catedral de jaen 0,96% ResultadosFormatos Mayor permanencia para páginas estáticas frente a páginas dinámicas y ficheros de programación.
Consultas Forbidden Request Not Found OK alhambra de granada 1,99% 12,24% 83,7% mezquita de cordoba 9,08% 18% 71,26% catedral de jaen 6,78% 15,77% 72,78% ResultadosEstado Alto porcentaje de páginas no operativas (linkrot). Entre 14,2% y 27%
Discusión y Conclusiones I • Los índices de Google están diseñados para el posicionamiento pero no para detectar páginas desaparecidas. • Dificultad de detectar los soft 404. • Bar-Yossef et al. (2004): 25% de los 200 (OK) son soft 404. • Se estima que el 14% de las páginas indizadas en Google han desaparecido.
Discusión y Conclusiones II • La Vida Media nos permite estimar la variabilidad en una consulta. • La formula del Decaimiento nos permite estimar los contenidos más duraderos. • Evaluación y mejora de los buscadores.
Discusión y Conclusiones IIILimitaciones • No se puede generalizar con sólo tres consultas. • ¿Es esta realidad propia de Google o es extensible al resto de buscadores? • ¿Y al resto de Internet (Bibliotecas Digitales, FTP, etc.)?