1 / 65

Análisis Bibliométricos en Internet

Análisis Bibliométricos en Internet. Alicia Ocaso y Silvia Spinak. - 1999. 1. Bibliometría. Definición: Bibliometría es la “aplicación de análisis estadísticos para estudiar las características del uso y creación de documentos ”.

Download Presentation

Análisis Bibliométricos en Internet

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análisis Bibliométricos en Internet Alicia Ocaso y Silvia Spinak. - 1999. 1

  2. Bibliometría • Definición: Bibliometría es la “aplicación de análisis estadísticos para estudiar las características del uso y creación de documentos”. Spinak, E. 1996. “Diccionario Enciclopédico de Bibliometría, Cienciometría e Infometría”. Pág. 34. 2

  3. Aplicación en la Web Aplicar hipótesis y leyes de la Bibliometría para: • Analizar el comportamiento de los documentos • Medir recursos, acceso y utilidad de la información publicada en Internet • Valorar el impacto de esa información 3

  4. Sitio • Def. 1: es un grupo de páginas Web localizadas en la misma dirección IP • Def. 2: un conjunto de páginas que se relacionan temáticamente dentro de una misma dirección IP OCLC Research / Web Characterization Project (Setiembre 1999) 4

  5. Página • Unidad de información Consiste en uno o más recursos Web, que serán vertidos simultáneamente como una unidad en la pantalla. Los recursos Web son el texto, imágenes, sonido, etc. • Página = Documento 5

  6. ¿Qué medimos en la Web? A nivel macro: • Con las direcciones IP medimos sitios • Con los motores de búsqueda medimos páginas 6

  7. Algunos números 7

  8. Cantidad de sitios • Número de sitios 4,882,000 (+/- 3%) • Crecimiento 1997 1998 1999 1,570,000 2,851,000 4,882,000 • Permanencia Direcciones IP cambiadas 1998-1999= 44% OCLC Online Computer Library Center, (Setiembre 1999) 8

  9. Recuperación de páginas Cobertura estimada de diferentes buscadores según NEC Steve Lawrence and C. Lee Giles, NEC Research Institute (Setiembre 1999) 9

  10. Cantidad de páginas Según Nature, se estima que existen unas 800 millones de páginas. Porcentaje de cobertura por los distintos buscadores Danny Sullivan, Search Engine Watch (Setiembre 1999) 10

  11. Cantidad de páginas Cantidad de páginas indexadas por los distintos buscadores Danny Sullivan, Search Engine Watch (Setiembre 1999) 11

  12. Motores de búsqueda Crecimiento temporal Danny Sullivan, Search Engine Watch (Setiembre 1999 12

  13. Distribución por idioma Acceso por idioma: 57% en inglés Global Reach Web Site 13

  14. Uso de la Web En Terabytes trasmitidos de 1992 a 1995. 1 Terabyte = 1 billón de bytes = más de 15.000 CDs Ray Larson, Berkeley, 1996 14

  15. Encuestas de uso de la Web Las encuestas buscan detectar: • las páginas más citadas • los sitios más importantes y productivos • qué nuevas palabras pueden ser utilizadas para clasificar los sitios, y sus documentos o páginas 15

  16. Tipos de encuestas • Preguntas a los usuarios • Muestreos de documentos 16

  17. Una metodología Georgia Tech Graphics, Visualization, and Usability Web Surveys • programas inteligentes • recopilación de datos • uso intensivo de análisis estadístico • recolección de datos cualitativos (formularios HTML) • grandes muestreos y muestreos al azar http://donturn.fis.utoronto.ca/research/augmentis.html 17

  18. Objetivos de las encuestas • Bibliométricamente, las encuestas buscan hacer agrupaciones (clusters) de distintos tipos para determinar cuáles son las tendencias en el uso de la Web • Pueden medir cómo reaccionan los usuarios y cómo utilizan los documentos sin necesidad de preguntarles directamente 18

  19. Características de los documentos Web Del mismo modo que existen diferentes guías de publicación y normas que influyen en la Bibliometría de los documentos impresos, los documentos Web también tienen sus características. 19

  20. Grupo de investigaciónInktomi (Hotbot) • Examinaron Tamaño del documento Uso de los tags de HTML Cantidad de tags con respecto al tamaño promedio de documento Uso de los atributos de los tags Errores de sintaxis de los tags Uso de la extensión de especificación de browser Protocolos utilizados en las URLs hijas Tipo de archivo utilizado en las URLs hijas Número de links embebidos en las páginas Legibilidad Utilización de puerto en el servidor http://donturn.fis.utoronto.ca/research/augmentis.html 20

  21. Grupo de investigaciónInktomi (Hotbot) • Crearon tablas ponderadas detectando información del tipo • cuáles eran las 10 términos más utilizados • cuáles los 10 errores más comunes • Conclusiones • existencia de múltiples características medibles • posibilidad de identificar la unicidad del documento. • este tipo de información luego podría ser utilizada para comparar e identificar el comportamiento de los usuarios con respecto a determinado tipo de documento. 21

  22. ¿Qué hacemos con estos números? 22

  23. Dificultades en el análisis estadístico • Imposibilidad de tener cifras exactas de sitios y páginas • Inestabilidad de los sitios y páginas 23

  24. Inestabilidad • Los sitios y páginas de Internet son efímeros y muy cambiantes. • Los documentos en la Web son “el punto intermedio de lo publicado y lo no publicado”. Koehler, W. 1999. “An Analysis of Web Page and Web Site Constancy and Permanence” Pag. 162. 24

  25. Estudios realizados • E.E.U.U. • Wallace Koehler Diciembre de 1996 a Enero 1998 Koehler, W. 1999. “An Analysis of Web Page and Web Site Constancy and Permanence”. • Israel • Bar-Ilan, J. y Peritz, B. Enero a Junio de 1998 Bar-Ilan, J. y Peritz, B. 1999. “The Availability and Life Span of a Specific Topic on the Web; the Case of “informetrics”: a Quantitative and Content Analysis” 25

  26. ¿Cuán permanentes son los sitios en Internet? • Tres tipos de comportamiento: • Permanencia: en un año, el 31% habían cambiado de dirección • Intermitencia: en una semana, el 5% desaparece pero vuelven • Desaparición: en una semana, el 0,5% desaparece totalmente Koehler, W. 1999. “An Analysis of Web Page and Web Site Constancy and Permanence” Pag. 179. 26

  27. ¿Cuán constantes son los sitios en Internet? • El 97% sufrieron algún tipo de cambio • Cambio: Estructura Tamaño Koehler, W. 1999. “An Analysis of Web Page and Web Site Constancy and Permanence” Pag. 179. 27

  28. ¿Difiere el comportamiento por tipo de sitio? • Los más estables: nombre de institución en el dominio los sitios .gov • Los que más cambian: los sitios .com los sitios .edu • Difieren según quién lo publique Koehler, W. 1999. “An Analysis of Web Page and Web Site Constancy and Permanence” Pag. 163-164. 28

  29. Internet = “cerebro mundial” • El escritor H.G.Wells de finales de la década del 30, predijo la creación de un cerebro mundial en el libro “World Brain”. • Si Internet es el cerebro mundial, podemos decir que: tiene poca memoria cuando recuerda, cambia mucho de manera de pensar. Koehler, W. 1999. “An Analysis of Web Page and Web Site Constancy and Permanence” Pag. 179. 29

  30. Medición de Impacto 30

  31. Impacto de los sitios en la Web • Buscar patrones de distribución y uso de la información basado en citas y sus frecuencias de uso • La bibliometría mide el impacto número de citaciones al documento en un año / la cantidad de publicaciones • Las citas en Internet cantidad de visitas enlaces o links 31

  32. Mediciones NO objetivas • Contar cantidad de accesos • Engañoso • Hábitos del usuario • Contar los enlaces o links • Efecto “Mateo” • Efecto “Matilda” 32

  33. Categorización de sitios según su actividad de citas • Ciegos • Sólo reciben citas y no responden • Autoritativos • Se los cita más que lo que ellos citan a otros • Ejes • Citan más de lo que los citan a ellos • Puentes • Citan en casi la misma proporción que son citados http://www.undoc.csic.es/cybermetrics/cybermetrics99.html 33

  34. Gráfica de categorización http://www.undoc.csic.es/cybermetrics/cybermetrics99.html 34

  35. Leyes Bibliométricas en la Web • Ley de Zipf • Ley de Bradford 35

  36. Ley de Zipf • Analiza las distribuciones de frecuencias en una lista ordenada de “fuentes” que producen “items”, ej. Palabras. • Ley del mínimo esfuerzo (comportamiento individual de todo individuo). 36

  37. Aplicación en la Web • Cuanto más enlaces o links deba hacer el usuario para llegar a una página, menos visitas recibirá. • El esfuerzo en la Web se mide en tiempo y no en dinero. http://donturn.fis.utoronto.ca/research/augmentis.html 37

  38. Ley de Bradford • “Si las revistas científicas se ordenan en secuencia decreciente de productividad de artículos sobre un tema dado, éstas pueden dividirse en un núcleo de revistas dedicadas más en particular al tema y varios grupos o zonas conteniendo el mismo número de artículos que el núcleo, donde el número de revistas en el núcleo y las zonas sucesivas estará en la relación de 1 : n : n2” . Spinak, E. 1996. “Diccionario Enciclopédico de Bibliometría, Cienciometría e Infometría”. Pág. 38. 38

  39. Ley de Bradford • Las publicaciones se distribuyen en un núcleo y luego en una zona de dispersión que Bradford la dividió en 2 partes. • Las primeras publicaciones se agruparán en el núcleo y las siguientes en la zona de dispersión en esa relación matemática. • Ejemplo: • En el núcleo: • 8 revistas publican 110 artículos • En zona de dispersión: • 29 revistas publican 133 artículos • 127 publican 152 artículos 39

  40. Aplicación en la Web • La indexación temática cumple la misma distribución. • En Internet se observa que a medida que transcurre el tiempo, al principio hay un incremento sostenido en el enlace a un tema, pero luego sigue una abrupta y permanente reducción. 40

  41. Sitios Actualizados • Expresión: R= número de enlaces en el 1er. Año R, Ra, Ra2, Ra3, Ra4, ..., Rat-1 • Sirve para medir el grado de obsolescencia en el tiempo. • Necesidad de mantener los sitios actualizados. 41

  42. Estudios de Casos 42

  43. I) Datos bibliométricos a partir de un servidor Downie analizó las siguientes categorías: Análisis de la solicitud de información Análisis basados en el usuario • Quién es (organización) • De dónde viene (ubicación geográfica) • Qué es (qué tipo de browser utiliza) Análisisbasadoenlosbytes Downie, Stephen J. 1996 43

  44. Datos bibliométricos a partir de un servidor Estas técnicas pueden unirse para crear un escenario detallado de la visita o visitas del usuario al sitio y de sus preferencias, sus problemas y sus acciones. Downie descubrió que las solicitudes de información coincidían con la distribución de Zipf. 44

  45. Datos bibliométricos a partir de un servidor Otros resultados confirmaron que una configuración pobre del servidor así como falta de acceso y uso a los archivos logs completos hacían que se perdiera mucha información. Se debe destacar que Downie tuvo en cuenta criterios éticos para la observación que la mayoría de los webmaster no practican. 45

  46. II) Valorando el impacto • Estudio realizado por Josep M. Rodríguez i Gairín de la Universidad Politécnica de Catalunya, 1997. • Usando capacidad de indización y recuperación del buscador Altavista http://escher.upc.es/josep-/publica/altavis.htm 46

  47. Limitaciones del “Citation Index de Internet” Utiliza metainformación de las “KeyWords” para generar sus índices Anchor:xx Host:xx image:xx link:xx title:xx http://escher.upc.es/josep-/publica/altavis.htm 47

  48. Midiendo el impacto Contadores estadísticos complementado con Páginas externas que “las citan” Impacto de la Institución = Páginas que son citadas/páginas publicadas http://escher.upc.es/josep-/publica/altavis.htm 48

  49. Análisis comparativo • Impacto de Universidades españolas UPM UPC UJI UCM • Páginas 6708 5774 1859 1706 • Enlaces 2742 3695 7483 1861 • Cociente 0.40 0.63 4.02 1.09 UPM =Universidad Politécnica de Madrid UPC = Universidad Politécnica de Catalunya UJI = Universidad Jaume I UCM = Universidad Complutense de Madrid http://escher.upc.es/josep-/publica/altavis.htm 49

  50. Consideraciones a este modelo de valoración • Los robots no recogen todas las páginas • (limitaciones: bajo suscripción, passwords, páginas aisladas, protocolos de exclusión, etc.) • La fiabilidad en la búsqueda es bastante discutible • La cantidad de enlaces no es proporcional a la calidad de la información http://escher.upc.es/josep-/publica/altavis.htm 50

More Related