710 likes | 841 Views
Acceso a la Información en Internet: retos para la Ingeniería Lingüística. Julio Gonzalo julio@lsi.uned.es UNED. “Lenguaje Natural”. Todo hombre ama o besa a una mujer Juan busca un unicornio Juan regaló un libro a María y unos guantes a Alicia. “Lenguaje Natural”.
E N D
Acceso a la Información en Internet: retos para la Ingeniería Lingüística Julio Gonzalo julio@lsi.uned.es UNED
“Lenguaje Natural” • Todo hombre ama o besa a una mujer • Juan busca un unicornio • Juan regaló un libro a María y unos guantes a Alicia.
“Lenguaje Natural” • “Cuando se lleva dos años con una mujer, debe haber algo más que ... otra cosa” (Jesulín de Ubrique). • “Sacaré a los jugadores que me parezca, ya sean italianos, rusos o extranjeros” (Javier Clemente). • “Ahora tengo más tiempo libre que nunca, porque, aunque hago un programa en directo, es decir, que se emite todos los días, es grabado” (Mar Flores).
Algunas aplicaciones PLN • Correctores ortográficos y de estilo. • Traducción automática. • Interfaces voz en servicios telefónicos. • Sistemas de dictado automático. • Sistemas de traducción voz - voz
Tareas intermedias • Análisis morfológico • Reducción de la ambigüedad léxica: • Etiquetado de categoría sintáctica (tagging) • Etiquetado semántico (word sense disambiguation) • Parsing (detección de sintagmas, etc.) • Recursos: bases de datos léxicas, corpora anotado. • Alineamiento de corpora paralelo
Anotación semántica (WSD) • Decidir cuál es, en un contexto determinado, el sentido en que se usa una palabra. (spring is my favourite season) • ¿Cuántos sentidos tiene una palabra? • ¿Para qué utilizaremos esa información? • SENSEVAL: competición de sistemas de anotación semántica.
Ingenería Lingüística en Acceso a Información en Internet • Motores de búsqueda (Google, Terra), filtrado, categorización, etc. • Question answering (pregunta/respuesta) • Extracción de información. • Extracción de resúmenes. • Traducción automática. • Búsqueda multilingüe.
Motores de búsqueda • Consulta, exploración, filtrado, categorización. • Recolección y actualización de páginas: spiders, crawlers, worms. • Representación de índices: Tokenización, stop words, stemming, asignación pesos, estructura.
Tamaño consultas en Internet Fuente: Oard 2000
Evaluación: TREC • Organizada por NIST (EEUU). • Ad-Hoc track: • colección varios Gb de documentos. • “topics” (consultas con tres niveles de detalle) • Juicios de relevancia realizados por evaluadores. • Efectividad: precisión / recall. • Eficiencia? Usabilidad?
0.353 Precision/recall
Potencial de las Tecnologías de la Lengua en motores de búsqueda • Tokenización (vg Chino) • Unidades mayores de indexación (v.g. “Ingeniería Lingüística”) • Reconocimiento de entidades (v.g “Al Gore”, “the vice-president”) • Distinción de sentidos, detección de sinónimos.
Vínculos semánticos entre índices • Abono festival de música • Abono agricultura • Mantillo, estiércol abono • “diseño de zapatos de verano” vs. “sandaliasdiseñadas en Italia ... Han sido diseñadas para la comodidad veraniega”
Question answering • Respuesta concreta vs. Documentos relacionados (tipo Trivial Pursuit). • Filtrado inicial de documentos + procesamiento de Lenguaje Natural. • Cuanto más se limita el tamaño de la respuesta, más utiles son las técnicas de Ingeniería Lingüística.
Extracción de Información • New York Times Co. named Russell T. Lewis, 45, president andgeneral manager of its flagship New York Times newspaper,responsible for allbusiness-side activities. He was executivevice president and deputy general manager. Hesucceeds LanceR. Primis, who in September was named president and chiefoperating officer of the parent. <ORGANIZATION-1> NAME : "New York Times Co." <ORGANIZATION-2> NAME : "New York Times" <PERSON-1> NAME : "Russell T. Lewis" <PERSON-2> NAME : "Lance R. Primis" <SUCCESSION-1> ORGANIZATION : <ORGANIZATION-2> POST : "president" WHO_IS_IN : <PERSON-1> WHO_IS_OUT : <PERSON-2>
Aplicaciones EI Análisis de periódicos para encontrar casos de fusiones empresariales. Monitorización de noticias de agencia y transcripciones de radio y TV para extraer descripciones de actividades terroristas por tipos de acción, sospechosos, lugar y fecha. Análisis de historiales clínicos, extrayendo diagnóstico, síntomas, tests, tratamientos, etc. Búsqueda de información (vs. Documentos)!!!
Extracción de resúmenes • Tipos: • Extracto vs. resúmen • Genérico vs. basado en consulta (UMICH) • Informativo vs. indicativo • Neutral vs. Sesgado (UEM) • Técnicas: • Búsqueda de información • Extracción de información + generación
Traducción automática • Las diferencias de idioma son una barrera para la transmisión de información en Internet. • ¿La Ingeniería Lingüística puede prevenir el efecto empobrecedor de Internet sobre la diversidad lingüística?