1 / 12

Seminario de Análisis Documental

Ley de Zipf y sus aplicaciones en el Análisis Documental. Seminario de Análisis Documental. Presenta: Lilian Martínez Carrillo Profesor: Georgina Araceli Torres. México, D.F., 2011. George Kingsley Zipf (1902-1950).

kareem
Download Presentation

Seminario de Análisis Documental

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ley de Zipf y sus aplicaciones en el Análisis Documental Seminario de Análisis Documental • Presenta: Lilian Martínez Carrillo • Profesor: Georgina Araceli Torres México, D.F., 2011

  2. George Kingsley Zipf (1902-1950) Fue un lingüista y filólogo estadounidense que aplicó el análisis estadístico al estudio de diferentes lenguas.

  3. LEY DE ZIPF • En 1935, George Kingsley Zipf, después de estudiar la ocurrencia de palabras en varios textos, formuló lo que se conoce como ley de Zipf. Dice: si tomamos cualquier longitud de palabras de un texto, y se analiza la ocurrencia de las mismas, en orden decreciente de frecuencia y se multiplica por su frecuencia, esto es igual a la constante.

  4. LEY DE ZIPF

  5. La frecuencia por el rango es igual a la constante FxR=C LEY DE ZIPF La frecuencia de aparición (F) de una palabra en un texto es inversamente proporcional a su rango (R) C F= R

  6. La ley de Zipf también da la dependencia de la frecuencia de ocurrencia de una palabra con respecto al número de palabras que se usen, o sea, a la amplitud del vocabulario utilizado. Mientras menor sea el vocabulario, mayor será la frecuencia de las palabras en los primeros rangos. LEY DE ZIPF Ley del mínimo esfuerzo

  7. LEY DE ZIPF Y EL AD Recuperación de información Indización automática.

  8. LEY DE ZIPF Y EL AD Indización automática y la generación de Tesauros • Identificación y adquisición de componentes representativos de un dominio • Análisis léxico • Tratamiento de palabras vacías • Tratamiento de términos flexionados • Tratamiento de palabras compuestas • Filtrado de términos • Obtención de relaciones entre componentes

  9. LEY DE ZIPF Y EL AD Indización automática y la generación de Tesauros • Análisis léxico • Adquisición de componentes (términos que representan un significado colectivo) • Tratamiento de palabras vacías [artículos, preposiciones, conjunciones] • Eliminación de palabras vacías (con listas construidas previamente o después del filtrado) • Descriptores simples o Compuestos • Tratamiento de términos flexionados [términos relacionados morfológicamente, variaciones de género, número o tiempo verbal] • Reducción a términos canónicos (efectividad en la recuperación de información, reducir el tamaño de los resultados) • Tratamiento de palabras compuestas • Algoritmos (relaciones entre descriptores y relaciones jerárquicas)

  10. LEY DE ZIPF Y EL AD Indización automática y la generación de Tesauros • Filtrado de términos • Identificación de términos representativos • IDF [Indización estadística de Términos por Frecuencia] La zona media representa el documento En el caso de que un término tenga una frecuencia en un documento mayor que la media fijada en el resto de documentos se tomara como descriptor para todos. No es necesario que un término aparezca en todos los documentos a filtrar para que sea descriptor. • Método N-grams

  11. LEY DE ZIPF Y EL AD Indización automática y la generación de Tesauros • Obtención de relaciones entre componentes • Obtención de relaciones jerárquicas • Asociaciones temáticas • (proceso de clusterización que agrupa en clases aquellos descriptores que responden a una serie de características comunes) • Encontrar la raíz • Calculo del centroide • Descriptor más general del cluster (mayor numero de apariciones en el total de docs del corpus) • Descriptor más general del cluster (el que aparezca en un mayor número de documentos) • Descriptor más general (combinando las dos ideas anteriores) • Agrupación de clases

  12. Gracias por su atención

More Related