1 / 66

Aplicaciones del PLN

Aplicaciones del PLN. Traducción Automática Recuperación de la Información Information Retrieval (IR) Búsqueda de la Question Answering (Q&A) Resumen automático Clasificación de documentos. Traducción Automática 1.

eunice
Download Presentation

Aplicaciones del PLN

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Aplicaciones del PLN • Traducción Automática • Recuperación de la Información • Information Retrieval (IR) • Búsqueda de la • Question Answering (Q&A) • Resumen automático • Clasificación de documentos

  2. Traducción Automática 1 • Proceso de pasar un texto en una lengua fuente a uno en una lengua objetivo preservando una serie de propiedades • la principal es el significado • TA textual vs oral • TA vs Traducción asistida • MAHT, HAMT • Historia de la TA

  3. Traducción Automática 2 • Algunas lecturas introductorias • Generales • Juan Alberto Alonso (2000) La Traducció automàtica capítulo 4 de Les tecnologies del llenguatge, M.A.Martí (ed) UOC • Joseba Abaitua (1997) • http://www.uvigo.es/webs/sli/paxinas/abaitua.html • TA estocástica • Kevin Knight (1999) • http://www.isi.edu/natural-language/people/knight.html • Horacio Rodriguez (2001) Técnicas estadísticas para la TA • http://www.lsi.upc.es/~horacio/doctorat/tapln/StochasticMT.zip • Otras fuentes • http://www.clsp.jhu.edu/ws99/projects/mt/ • http://www.iti.upv.es/~fcn/ • http://www.iti.upv.es/~prhlt/

  4. Traducción Automática 3 • Aproximaciones básicas • Sistemas de traducción directa • Sistemas basados en transfer • Sistemas basados en Interlingua • Memorias de traducción • Sistemas probabilísticos vs simbólicos

  5. Traducción Automática 4 Interlingua E. Semántica E. Semántica transfer semántico E. Sintáctica E. Sintáctica transfer sintáctico E. Léxica E. Léxica traducción directa Texto fuente Texto objetivo

  6. Traducción Automática 5 • Recorrido histórico • 1940's nacimiento (Weaver & Booth, GAT, CETA, ...) • 1950's investigación activa (Systran, Metal, ...) • 1966 Informe ALPAC • hasta 1975 travesía del desierto • 1975 hasta 1985 resurgencia (Europa y Japón) • Eurotra, Atlas, • 1985 recuperación gradual

  7. Traducción Automática 6 • Razones de la recuperación • Necesidad • Cambio (humilde!!) en las expectativas • Potencia de computación • WWW • Desarrollo de la LC • Sistemas estadísticos e híbridos

  8. Traducción Automática Estadística • Dado un texto en un lenguaje fuente (f ) deseamos obtener su traducción en un lenguaje objetivo (o) de forma que se maximice la probabilidad de o dado f, P(o|f). Modelodellenguaje objetivo Modelo de la traducción

  9. Noisy Channel Model 1 e f ê Noisy Channel Decoder • Problemas • obtención de los modelos • P(f|e) • P(e) • búsqueda de ê (decoder)

  10. Noisy Channel Model 2 • P(f|e) • Asegura una "buena" traducción de las palabras del texto • P(e) • Asegura una "buena" gramaticalidad del texto en la lengua objetivo

  11. Proceso de Traducción f' Lexicon Model Transformación Alignment Model f Language Model Decoder e Transformación e'

  12. Modelos estadísticos del lenguaje • Modelos estadísticos • Modelos del lenguaje (LM) • Vocabulario (V), palabra • w  V • Lenguaje (L), oración • s  L • L  V* normalmente infinito • s = w1,…wN • Probabilidad de s • P(s)

  13. Implementación de LM • Implementación intuitiva • Enumerar s  L • Calcular las p(s) • Parámetros del modelo |L| • Simplificaciones • historia • hi = { wi, … wi-1} • Modelos de Markov

  14. Modelo de traducción 1 • P(f|e) • fuente: f = f1f2...fm • objetivo: e = e1e2…el • alineamiento: a = a1a2…am • en general • a  {1,…,m}  {1,…,l} • se suele tomar • a: {1,…,m}  {0,…,l} • a(j)  0 a fj le corresponde ea(j) • a(j) = 0 fj no está alineada • A(f,e) es el conjunto de alineamientos posibles • existen 2lm alineamientos

  15. Modelo de traducción 2 • Lo básico es estimar las probabilidades de los alineamientos, normalmente a partir de corpus alineados, parallel corpora, (a veces a partir de corpus simplemente equivalentes o comparables) • Modelos clásicos de traducción • IBM 1: sólo probabilidades léxicas • IBM 2: + posición • IBM 3: + fertilidad • ...

  16. Alineamientos 1 and the program has been implemented 1 2 3 4 5 6 le programme a été mis en application 1 2 3 4 5 6 7

  17. Alineamientos 2 the balance was the territory of the aboriginal people 1 2 3 4 5 6 7 8 9 le reste appartenait aux autochtones 1 2 3 4 5

  18. Alineamientos 3 the poor don't have any money 1 2 3 4 5 6 les pauvres sont demunis 1 2 3 4

  19. Alineamientos 4 NULL Mary did not slap the green witch 0 1 2 3 4 5 6 7 Mary no dió una bofetada a la bruja verde 1 2 3 4 5 6 7 8 9 alineamiento: [1, 3, 4, 4, 4, 0, 5, 7, 6]

  20. Alineamientos 5 x x x x x x x x witch green the slap not did Mary Mary no dió una bofetada a la bruja verde 1 2 3 4 5 6 7 8 9

  21. Recuperación de la Información 1 La IR trata de la Representación, Almacenamiento, Organización y acceso a las Unidades de Información Textos (documentos) Hipertextos, Multimedia, ...

  22. Componentes de un SRI (Oard,Dorr,96) {0,1} juicio humano: j espacio de las consultas: Q espacio de los documentos: D Consulta Documento q d representación 1 representación 2 espacio de representación: R función de comparación: c {0,1}

  23. Sistema ideal c(q(cons), d(doc)) = j(cons, doc) cons Q doc D

  24. Proceso de la Recuperación de Información texto consulta Interfaz de usuario texto Opeaciones textuales realimentación representación operaciones sobre la consulta Indexado consulta Gestor de BD Búsqueda Indices documentos recuperados documentos clasificados Base de textos Clasificación

  25. Características de los SRI • Tipo de información almacenada • Texto, voz, información estructurada • Lenguaje de consulta • Exacto, ambiguo • Tipo de emparejamiento • Exacto, aproximado • Tipo de información deseada • Vaga, precisa • Relevancia: utilidad de la información para el usuario de acuerdo a su consulta.

  26. Operaciones sobre los documentos • Preproceso • análisis léxico, estandarización • formas no estándard, fechas, números, siglas, locuciones, lexías, ... • lematización • análisis morfológico, consulta a formarios, reglas léxicas/morfol, alg. Porter • filtrado • Stopwords (diccionarios negativos) • Clasificación • manual • automática • clasificación • clustering • Compresión

  27. Indexado • indexado manual vs automático • indicadores • objetivos: estructurales • subjetivos: textuales (de contenido) • indexado pre-coordinado vs post-coordinado • términos simples vs términos en contexto Modelo más corriente: Bag of simple words

  28. Representación de los documentos • Modelos clásicos • texto completo • booleano • vectorial • probabilístico • Variantes evolucionadas del modelo probabilístico • Bayesiano • Redes de inferencia • Redes de creencia • paradigmas alternativos • Modelo vectorial generalizado • Modelo booleano extendido • Latent Semantic Indexing • Redes neuronales

  29. Operaciones de consulta Modelo booleano simple Expresiones booleanas sobre términos que aparecen en el documento o palabras clave. Conectivos: AND, OR, NOT, paréntesis Extensiones: restricciones de distancia (nivel párrafo, nivel frase, adyacencia) ventana fija o variable Modelo booleano extendido: ponderación de términos: frecuencia del término en el documento, en la colección, normalización Expansión de las consultas uso de F.Conocimiento externas (ej. WN) extensión con sinónimos y/o hiperónimos truncado de términos generalización morfológica relevance feedback

  30. Medidas de calidad de la recuperación recuperados = a + b relevantes = a + d recall (cobertura) = a / (a + d) precisión = a / (a + b) a recuperado b d recall = están todos los que son precisión= son todos los que están c relevante Cuando el resultado es una ordenación de documentos con un índice de relevancia asociado (ranked) y no un booleano, las medidas pueden ser vectores de precisión a (normalmente) 3, 5, 7, 9, 11 puntos de cobertura (p.ej. a niveles (0.2, 0.5, 0.8) o medias de estos vectores.

  31. Modelo booleano t1 t2 t3 ... ti ... tm d1 0 1 0 d2 1 0 1 0 d3 ... dj ... dn atributos: todos los términos (palabras, lemas, multipalabras, ...) que aparecen en la colección (excepto los stopwords) filas: cada documento representado por un vector de booleanos (1 si el término aparece en el documento, 0 en caso contrario). Hay n documentos columnas: cada término representado por un vector de booleanos. Hay m términos no es posible una respuesta ponderada no se tiene en cuenta ni frecuencia ni orden ni importancia de los términos

  32. Modelo Vectorial 1 t1 t2 t3 ... ti ... tm d1 d2 d3 ... dj wij ... dn wij peso (relevancia) del término j en el documento i Forma más corriente de definir la relevancia tfij frecuencia del término tj en el documento di dfj # documentos en los que aparece tj idfj log (N / dfj ) wij = tfij *idfj

  33. Modelo Vectorial 2 Otra forma dvj poder discriminador de un término. Si al seleccionarlo disminuye la similitud entre documentos (la densidad) dvj = Q - Qj Q densidad sin seleccionar el término tj N = # documentos Qj densidad seleccionando el término tj relevancia: wij = tfij *dvj

  34. Modelo Vectorial 3 Otra forma C = centroide de la colección de documentos Q densidadrespecto al centroide C El cálculo de la relevancia es idéntico al caso anterior En cualquier caso la consulta se representa también vectorialmente y se seleccionan los documentos más próximos de acuerdo a una distancia

  35. Medidas de similitud Medida de similitud Producto escalar Coeficiente de Dice Coseno Coeficiente de Jaccard Modelo booleano Modelo vectorial

  36. IR y LN • Recursos de LN • Tareas de PLN • Indexado • palabras, raices, lemas, acepciones, multitérminos • , frases, … • problemas: • nombres propios • palabras desconocidas • unidades no estándar • polisemia • => Sólo levemente mejor que usar monotérminos (formas) • Recuperación • expansión de las consultas

  37. CLIR • Cross Language Information Retrieval • Recuperación de documentos de acuerdo a peticiones formuladas por una persona sin tener en cuenta la lengua en que los documentos y las consultas han sido expresadas • Técnicas • Traducir los documentos • Traducir las consultas • Proyectar unos y otras a un espacio de indexado neutral • Limitaciones • Los textos de las consultas son más cortos que los documentos • El contexto (y la fiabilidad) al traducir la consulta es menor • Los errores de traducción son menos graves en los documentos

  38. Aproximaciones a CLIR (Oard,97) CLIR Texto libre Vocabulario Controlado Basado en Corpus Basado en Conocimiento Corpus paralelos Corpus comparables Corpus monolingües Basado en Diccionarios Basado en Ontologías Alineación de documentos Alineación de oraciones Alineación de términos Basado en Tesauros

  39. Sistemas de Q&A Un sistema de QA parte de una consulta expresada en lenguaje natural y debe devolver no un documento que sea relevante (es decir que contenga la respuesta) sino la propia respuesta (normalmente un hecho) Si los sistemas de IR convencionales utilizaban técnicas básicamente estadísticas, los sistemas de Q&A utilizan de forma creciente técnicas de TLN Question Answering 1

  40. Algunos sistemas de QA accesibles a través de Internet: START http://www.ai.mit.edu/projects/infolab/globe.html IO search engine http://www.ionaut.com:8400/ Webclopedia http://www.isi.edu/natural-language/projects/webclopedia/ AskJeeves http://www.ask.com LCC http://www.languagecomputer.com/ Question Answering 2

  41. Aparición en las competeciones del TREC a partir del TREC-8 (1999) Disciplinas relacionadas Recuperación de la información (obviamente) y disciplinas afines (I routing, filtering, harvesting, ...) Answer Finding Dada una base de preguntas y respuestas (como las habituales FAQ) se trata de localizar la (s) pregunta (s) más próximas a la planteada para devolver su (s) respuesta (s) FAQ Finder: http://infolab.cs.uchicago.edu/faqfinder/ Interfaces en LN a bases de datos Sistemas de Integración de información (InformationIntegration, II) Extracción de la Información (InformationExtraction, IE) Question Answering 3

  42. Q&A, Qué leer • Horacio Rodriguez (2001) • http://www.lsi.upc.es/~horacio/doctorat/tapln/QA.zip • Documentos de las conferencias TREC • TREC-8 http://trec.nist.gov/pubs/trec8/t8_proceedings.html • TREC-9 http://trec.nist.gov/pubs/trec9/t9_proceedings.html • TREC-10 http://trec.nist.gov/pubs/trec10/t10_proceedings.html http://www.isi.edu/natural-language/projects/webclopedia/ http://www.seas.smu.edu/~sanda/ http://www.cs.utexas.edu/users/sanda/ http://www.languagecomputer.com/ http://www.dlsi.ua.es/~vicedo/ http://www.dlsi.ua.es/~antonio/

  43. Q&A en las evaluaciones del TREC Evaluación del TREC 9

  44. Q&A en las evaluaciones del TREC y CLEF • Participación del grupo Talp (UPC) en • TREC 2003 • CLEF 2004 • TREC 2004

  45. Q&A, Arquitectura básica 1 • Uso detécnicas de IR • utilizar las palabras de la pregunta como términos de una consulta y recuperar los documentos más relevantes de acuerdo a ella. • Extensiones de tipo heurístico para localizar la respuesta • Más adecuadas en la competición de 250 bytes • Pero ... • no todas las palabras de la pregunta son relevantes para buscar la respuesta • recuperar el documento relevante no concluye la tarea, hay que extraer de él la respuesta.

  46. Q&A, Arquitectura básica 2 La mayoría de los sistemas de QA se organizan en 4 subtareas • Tratamiento de la pregunta • IR de los documentos relevantes • Segmentación en fragmentos, • IR de los fragmentos • Extracción de la respuesta.

  47. Q&A, Arquitectura básica 3 Normalmente las cuatro tareas se abordan en secuencia • Tratamiento de la pregunta Términos relevantes Tipo de pregunta Foco ... • IR de los documentos • relevantes Documentos relevantes • Segmentación en fragmentos, • IR de los fragmentos fragmentos relevantes • Extracción de la respuesta. respuesta

  48. Resumen Automático 1 • A summary is a reductive transformation of a source text into a summary text by extraction or generation • Sparck-Jones, 2001

  49. Resumen Automático 2 • Localizar las partes de un texto que son relevantes (para las necesidades de un usuario) y producir un resumen de las mismas • Sum vs IE • IE • Se define a priori la estructura a extraer • “Sé lo que deseo, búscamelo” • Sum • No tiene por qué haber una definición previa de criterios de interés • “Qué hay aquí de interesante”

  50. Resumen automático, Qué leer • Tutorial • E.Hovy, D. Marcu (1998) • Horacio Rodriguez (2001) Summarization • http://www.lsi.upc.es/~horacio/doctorat/tapln/Summarisation.zip

More Related