800 likes | 1.08k Views
Una nueva técnica para procesamiento de texto no estructurado mediante vectores de n -gramas de longitud variable con aplicación a diversas tareas de tratamiento de lenguaje natural.
E N D
Una nueva técnica para procesamiento de texto no estructurado mediante vectores de n-gramas de longitud variable con aplicación a diversas tareas de tratamiento de lenguaje natural Una nueva técnica para procesamiento de texto no estructurado mediante vectores de n-gramas de longitud variable con aplicación a diversas tareas de tratamiento de lenguaje natural
Gracias a la Web accedemos auna gran cantidad de información. La sobrecarga de información Por culpa de sufrimos sobrecarga 2%
Analizadas no sólo en la Web sino también en USENET y correo electrónico. Generalmente basadas en una o más de las siguientes tres técnicas: • Agentes • Filtrado colaborativo (Goldberg et al. 1992) • Recomendación por contenidos Algunas conclusiones “Los usuarios proporcionan feedback explícito sólo a regañadientes” (Balabanovic 1998, p.6). La evaluación implícita proporciona información igualmente útil (Morita y Shinoda 1994) (Lieberman 1995) (Konstan et al. 1997) La coincidencia de palabras clave es inadecuada (Balabanovic et al. 1995, p.8) y otros mecanismos ofrecen mejores resultados (Morita y Shinoda 1994). Los datos acerca de los intereses de los distintos usuarios son muy valiosos al combinarse entre sí (Rucker y Marcos 1997) (Kantor et al. 2000). Soluciones a la sobrecarga de información 17%
Tesis (versión resumida) “Una única técnica sencilla, basada en el uso de vectores de n-gramas de longitud variable, independiente del idioma y aplicable a diversas tareas de tratamiento de lenguaje natural con resultados similares a los de otros métodos ‘ad hoc’ es viable.” 25%
Tesis Se puede obtener para los distintos n-gramas, gi, de un texto escrito en cualquier idioma una medida de su significatividad, si, distinta de la frecuencia relativa de aparición de los mismos en el texto, fi, pero calculable a partir de la misma. Esta métrica de la significatividad intradocumental de los n-gramas permite asociar a cada documento, di, un único vector, vi, susceptible de comparación con cualquier otro vector obtenido del mismo modo aun cuando sus respectivas longitudes puedan diferir. Puesto que tales vectores almacenan ciertos aspectos de la semántica subyacente a los textos originales, el mayor o menor grado de similitud entre los mismos constituye un indicador de su nivel de relación conceptual, facilitando la clasificación y categorización de documentos, así como la recuperación de información. Asimismo, cada vector individual es capaz de transformar el texto original a partir del cual fue obtenido dando lugar a secuencias de palabras clave y resúmenes automáticos. 27%
=20.48/97.52 =20.48/81.92 Descripción de la técnica blindLight = SQ=97.52 ST=81.92 SQT=20.48 38%
Semántica subyacente en blindLight “Puesto que tales vectores almacenan ciertos aspectos de la semántica subyacente a los textos originales, el mayor o menor grado de similitud entre los mismos constituye un indicador de su nivel de relación conceptual” 44%
Romances Indoeuropeos Germánicos Germánicos del oeste Germánicos del norte Clasificación de documentos con blindLight 55%