120 likes | 351 Views
Ley de Zipf y sus aplicaciones en el Análisis Documental. Seminario de Análisis Documental. Presenta: Lilian Martínez Carrillo Profesor: Georgina Araceli Torres. México, D.F., 2011. George Kingsley Zipf (1902-1950).
E N D
Ley de Zipf y sus aplicaciones en el Análisis Documental Seminario de Análisis Documental • Presenta: Lilian Martínez Carrillo • Profesor: Georgina Araceli Torres México, D.F., 2011
George Kingsley Zipf (1902-1950) Fue un lingüista y filólogo estadounidense que aplicó el análisis estadístico al estudio de diferentes lenguas.
LEY DE ZIPF • En 1935, George Kingsley Zipf, después de estudiar la ocurrencia de palabras en varios textos, formuló lo que se conoce como ley de Zipf. Dice: si tomamos cualquier longitud de palabras de un texto, y se analiza la ocurrencia de las mismas, en orden decreciente de frecuencia y se multiplica por su frecuencia, esto es igual a la constante.
La frecuencia por el rango es igual a la constante FxR=C LEY DE ZIPF La frecuencia de aparición (F) de una palabra en un texto es inversamente proporcional a su rango (R) C F= R
La ley de Zipf también da la dependencia de la frecuencia de ocurrencia de una palabra con respecto al número de palabras que se usen, o sea, a la amplitud del vocabulario utilizado. Mientras menor sea el vocabulario, mayor será la frecuencia de las palabras en los primeros rangos. LEY DE ZIPF Ley del mínimo esfuerzo
LEY DE ZIPF Y EL AD Recuperación de información Indización automática.
LEY DE ZIPF Y EL AD Indización automática y la generación de Tesauros • Identificación y adquisición de componentes representativos de un dominio • Análisis léxico • Tratamiento de palabras vacías • Tratamiento de términos flexionados • Tratamiento de palabras compuestas • Filtrado de términos • Obtención de relaciones entre componentes
LEY DE ZIPF Y EL AD Indización automática y la generación de Tesauros • Análisis léxico • Adquisición de componentes (términos que representan un significado colectivo) • Tratamiento de palabras vacías [artículos, preposiciones, conjunciones] • Eliminación de palabras vacías (con listas construidas previamente o después del filtrado) • Descriptores simples o Compuestos • Tratamiento de términos flexionados [términos relacionados morfológicamente, variaciones de género, número o tiempo verbal] • Reducción a términos canónicos (efectividad en la recuperación de información, reducir el tamaño de los resultados) • Tratamiento de palabras compuestas • Algoritmos (relaciones entre descriptores y relaciones jerárquicas)
LEY DE ZIPF Y EL AD Indización automática y la generación de Tesauros • Filtrado de términos • Identificación de términos representativos • IDF [Indización estadística de Términos por Frecuencia] La zona media representa el documento En el caso de que un término tenga una frecuencia en un documento mayor que la media fijada en el resto de documentos se tomara como descriptor para todos. No es necesario que un término aparezca en todos los documentos a filtrar para que sea descriptor. • Método N-grams
LEY DE ZIPF Y EL AD Indización automática y la generación de Tesauros • Obtención de relaciones entre componentes • Obtención de relaciones jerárquicas • Asociaciones temáticas • (proceso de clusterización que agrupa en clases aquellos descriptores que responden a una serie de características comunes) • Encontrar la raíz • Calculo del centroide • Descriptor más general del cluster (mayor numero de apariciones en el total de docs del corpus) • Descriptor más general del cluster (el que aparezca en un mayor número de documentos) • Descriptor más general (combinando las dos ideas anteriores) • Agrupación de clases