Gracias a la Web accedemos a una gran cantidad de información.

Una nueva técnica para procesamiento de texto no estructurado mediante vectores de n-gramas de longitud variable con aplicación a diversas tareas de tratamiento de lenguaje natural Una nueva técnica para procesamiento de texto no estructurado mediante vectores de n-gramas de longitud variable con aplicación a diversas tareas de tratamiento de lenguaje natural

Gracias a la Web accedemos auna gran cantidad de información. La sobrecarga de información Por culpa de sufrimos sobrecarga 2%

La sobrecarga de información 3%

Delimitación del problema 5%

Analizadas no sólo en la Web sino también en USENET y correo electrónico. Generalmente basadas en una o más de las siguientes tres técnicas: • Agentes • Filtrado colaborativo (Goldberg et al. 1992) • Recomendación por contenidos Algunas conclusiones “Los usuarios proporcionan feedback explícito sólo a regañadientes” (Balabanovic 1998, p.6). La evaluación implícita proporciona información igualmente útil (Morita y Shinoda 1994) (Lieberman 1995) (Konstan et al. 1997) La coincidencia de palabras clave es inadecuada (Balabanovic et al. 1995, p.8) y otros mecanismos ofrecen mejores resultados (Morita y Shinoda 1994). Los datos acerca de los intereses de los distintos usuarios son muy valiosos al combinarse entre sí (Rucker y Marcos 1997) (Kantor et al. 2000). Soluciones a la sobrecarga de información 17%

Soluciones a la sobrecarga de información 19%

Formulación definitiva del problema 23%

Tesis (versión resumida) “Una única técnica sencilla, basada en el uso de vectores de n-gramas de longitud variable, independiente del idioma y aplicable a diversas tareas de tratamiento de lenguaje natural con resultados similares a los de otros métodos ‘ad hoc’ es viable.” 25%

Tesis  Se puede obtener para los distintos n-gramas, gi, de un texto escrito en cualquier idioma una medida de su significatividad, si, distinta de la frecuencia relativa de aparición de los mismos en el texto, fi, pero calculable a partir de la misma.  Esta métrica de la significatividad intradocumental de los n-gramas permite asociar a cada documento, di, un único vector, vi, susceptible de comparación con cualquier otro vector obtenido del mismo modo aun cuando sus respectivas longitudes puedan diferir.  Puesto que tales vectores almacenan ciertos aspectos de la semántica subyacente a los textos originales, el mayor o menor grado de similitud entre los mismos constituye un indicador de su nivel de relación conceptual, facilitando  la clasificación  y categorización de documentos,  así como la recuperación de información.  Asimismo, cada vector individual es capaz de transformar el texto original a partir del cual fue obtenido dando lugar a secuencias de palabras clave y resúmenes automáticos. 27%

Soporte para la tesis 28%

Descripción de la técnica blindLight 30%

=20.48/97.52 =20.48/81.92 Descripción de la técnica blindLight  = SQ=97.52 ST=81.92 SQT=20.48 38%

Semántica subyacente en blindLight “Puesto que tales vectores almacenan ciertos aspectos de la semántica subyacente a los textos originales, el mayor o menor grado de similitud entre los mismos constituye un indicador de su nivel de relación conceptual” 44%

Semántica subyacente en blindLight 45%

Clasificación de documentos con blindLight 52%

Romances Indoeuropeos Germánicos Germánicos del oeste Germánicos del norte Clasificación de documentos con blindLight 55%

Categorización de documentos con blindLight 64%

Recuperación de información con blindLight 78%

Gracias a la Web accedemos a una gran cantidad de información.

Gracias a la Web accedemos a una gran cantidad de información.

Presentation Transcript

IAR134 Procesamiento de Señales

FE PETRO BOMBAS SUMERGIBLES

Introducción a la Metodología SciELO para texto completo

CURSO DE TECNICAS EN SUTURA

PROCESAMIENTO DE IMÁGENES EN LABORATORIO Y PATOLOGIA

FINANCIAMIENTO ESTRUCTURADO Y TITULARIZACION

TEXTO DISSERTATIVO- ARGUMENTATIVO Ensino Fundamental – 9º ano

EL TEXTO EXPOSITIVO

Ingeniería Técnica Industrial – Electrónica Industrial

EL TEXTO NARRATIVO TÉCNICAS PARA UNA REDACCIÓN CREATIVA

texto instructivo texto narrativo texto poético texto descriptivo

Edivox: trabalhando com comandos de bloco

Medios físicos de transmisión de la información y sistemas de cableado estructurado

DNA: Estructura , replicacion , transcripcion , procesamiento y mutaciones

Hipertexto

Capitulo II

ELEMENTOS PARA UNA NUEVA POLITICA PUBLICA DE LIBROS DE TEXTO GRATUITOS EN MEXICO

Medios físicos de transmisión de la información y sistemas de cableado estructurado

II ANTENAS

LEY FEDERAL DE TELECOMUNICACIONES

Vectores

Cali Cómo Vamos