1 / 70

Acceso a la Información en Internet: retos para la Ingeniería Lingüística

Acceso a la Información en Internet: retos para la Ingeniería Lingüística. Julio Gonzalo julio@lsi.uned.es UNED. “Lenguaje Natural”. Todo hombre ama o besa a una mujer Juan busca un unicornio Juan regaló un libro a María y unos guantes a Alicia. “Lenguaje Natural”.

gazit
Download Presentation

Acceso a la Información en Internet: retos para la Ingeniería Lingüística

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Acceso a la Información en Internet: retos para la Ingeniería Lingüística Julio Gonzalo julio@lsi.uned.es UNED

  2. “Lenguaje Natural” • Todo hombre ama o besa a una mujer • Juan busca un unicornio • Juan regaló un libro a María y unos guantes a Alicia.

  3. “Lenguaje Natural” • “Cuando se lleva dos años con una mujer, debe haber algo más que ... otra cosa” (Jesulín de Ubrique). • “Sacaré a los jugadores que me parezca, ya sean italianos, rusos o extranjeros” (Javier Clemente). • “Ahora tengo más tiempo libre que nunca, porque, aunque hago un programa en directo, es decir, que se emite todos los días, es grabado” (Mar Flores).

  4. Algunas aplicaciones PLN • Correctores ortográficos y de estilo. • Traducción automática. • Interfaces voz en servicios telefónicos. • Sistemas de dictado automático. • Sistemas de traducción voz - voz

  5. Tareas intermedias • Análisis morfológico • Reducción de la ambigüedad léxica: • Etiquetado de categoría sintáctica (tagging) • Etiquetado semántico (word sense disambiguation) • Parsing (detección de sintagmas, etc.) • Recursos: bases de datos léxicas, corpora anotado. • Alineamiento de corpora paralelo

  6. Herramientas

  7. Anotación semántica (WSD) • Decidir cuál es, en un contexto determinado, el sentido en que se usa una palabra. (spring is my favourite season) • ¿Cuántos sentidos tiene una palabra? • ¿Para qué utilizaremos esa información? • SENSEVAL: competición de sistemas de anotación semántica.

  8. Ingenería Lingüística en Acceso a Información en Internet • Motores de búsqueda (Google, Terra), filtrado, categorización, etc. • Question answering (pregunta/respuesta) • Extracción de información. • Extracción de resúmenes. • Traducción automática. • Búsqueda multilingüe.

  9. Motores de búsqueda • Consulta, exploración, filtrado, categorización. • Recolección y actualización de páginas: spiders, crawlers, worms. • Representación de índices: Tokenización, stop words, stemming, asignación pesos, estructura.

  10. Tamaño consultas en Internet Fuente: Oard 2000

  11. Evaluación: TREC • Organizada por NIST (EEUU). • Ad-Hoc track: • colección varios Gb de documentos. • “topics” (consultas con tres niveles de detalle) • Juicios de relevancia realizados por evaluadores. • Efectividad: precisión / recall. • Eficiencia? Usabilidad?

  12. 0.353 Precision/recall

  13. Potencial de las Tecnologías de la Lengua en motores de búsqueda • Tokenización (vg Chino) • Unidades mayores de indexación (v.g. “Ingeniería Lingüística”) • Reconocimiento de entidades (v.g “Al Gore”, “the vice-president”) • Distinción de sentidos, detección de sinónimos.

  14. Vínculos semánticos entre índices • Abono  festival de música • Abono  agricultura • Mantillo, estiércol  abono • “diseño de zapatos de verano” vs. “sandaliasdiseñadas en Italia ... Han sido diseñadas para la comodidad veraniega”

  15. Question answering • Respuesta concreta vs. Documentos relacionados (tipo Trivial Pursuit). • Filtrado inicial de documentos + procesamiento de Lenguaje Natural. • Cuanto más se limita el tamaño de la respuesta, más utiles son las técnicas de Ingeniería Lingüística.

  16. Extracción de información

  17. Extracción de Información • New York Times Co. named Russell T. Lewis, 45, president andgeneral manager of its flagship New York Times newspaper,responsible for allbusiness-side activities. He was executivevice president and deputy general manager. Hesucceeds LanceR. Primis, who in September was named president and chiefoperating officer of the parent. <ORGANIZATION-1> NAME : "New York Times Co." <ORGANIZATION-2> NAME : "New York Times" <PERSON-1> NAME : "Russell T. Lewis" <PERSON-2> NAME : "Lance R. Primis" <SUCCESSION-1> ORGANIZATION : <ORGANIZATION-2> POST : "president" WHO_IS_IN : <PERSON-1> WHO_IS_OUT : <PERSON-2>

  18. Aplicaciones EI Análisis de periódicos para encontrar casos de fusiones empresariales. Monitorización de noticias de agencia y transcripciones de radio y TV para extraer descripciones de actividades terroristas por tipos de acción, sospechosos, lugar y fecha. Análisis de historiales clínicos, extrayendo diagnóstico, síntomas, tests, tratamientos, etc. Búsqueda de información (vs. Documentos)!!!

  19. Extracción de resúmenes • Tipos: • Extracto vs. resúmen • Genérico vs. basado en consulta (UMICH) • Informativo vs. indicativo • Neutral vs. Sesgado (UEM) • Técnicas: • Búsqueda de información • Extracción de información + generación

  20. Traducción automática • Las diferencias de idioma son una barrera para la transmisión de información en Internet. • ¿La Ingeniería Lingüística puede prevenir el efecto empobrecedor de Internet sobre la diversidad lingüística?

More Related