1 / 32

Descubriendo las reglas para construir nuevas palabras

Descubriendo las reglas para construir nuevas palabras. Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales, Instituto Nacional de Astrofísica, Óptica y Electrónica. Morfología. Entrada: Secuencia de fonemas (letras) Salida:

seven
Download Presentation

Descubriendo las reglas para construir nuevas palabras

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Descubriendo las reglas para construir nuevas palabras Morfología Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales, Instituto Nacional de Astrofísica, Óptica y Electrónica

  2. Morfología • Entrada: • Secuencia de fonemas (letras) • Salida: • Secuencia de pares (lema, tag(s)) • Estudia: • Composición de fonemas/grafemas en formas léxicas (palabras) a partir de sus raíces (lema) + categorías morfológicas (inflexión, derivación, composición). Laboratorio de Tecnologías del Lenguaje

  3. Contenido • ¿Cómo construimos nuevas palabras? • ¿Qué es una palabra? • Funciones de la Morfología • Inflexión • Derivación y Composición • Algunos enfoques para su resolución Laboratorio de Tecnologías del Lenguaje

  4. ¿Para qué la morfología? • Usos corrientes • Corrigiendo la ortografía • *presición => inherente a la palabra • Yo caminabas => concordancia número y género • termino / término => contexto / categoría gramatical • sólo / solo => contexto / categoría gramatical • Separando en sílabas • ta-re-a • trans-crip-ción • dí-a Laboratorio de Tecnologías del Lenguaje

  5. ¿Para qué la morfología? • Recuperando su origen – significado • Para clasificación de textos: mientras más se mencione una palabra (un significado) con mayor seguridad el texto versa sobre ese tema • huracán, huracanes • lluvia, lluvias • Como primer paso de un analizador sintáctico Laboratorio de Tecnologías del Lenguaje

  6. ¿Para qué la morfología? • Recordemos: • Recuperación de información: recopilación de documentos pertinentes • Extracción de información: extracción de piezas de información de interés a partir de documentos • Minería de texto: descubriendo nuevas asociaciones entre las piezas de información extraídas Laboratorio de Tecnologías del Lenguaje

  7. Morfología computacional • Trata con el procesamiento de las palabras tanto en su forma escrita (grafemas) como su forma hablada (fonemas). • Sistematización para la creación de nuevas palabras así como formas léxicas a partir de unidades más pequeñas. • Nuevas palabras deberán considerar la fonología del lenguaje • déjà vu • bougambillia – bugambilia • computadora – ordenador Laboratorio de Tecnologías del Lenguaje

  8. Conceptos básicos • Morfemas - los bloques básicos, entidades abstractas expresando características básicas • Conceptos semánticos (raíces) • Puerta, lápiz • Características abstractas • Puerta-s plural

  9. Conceptos básicos • ¿qué es una palabra? • “algo” entre blancos – ¿entonces en el habla? • “algo” con significado – • Dímelo - una sola palabra pero son tres “algos” Laboratorio de Tecnologías del Lenguaje

  10. Conceptos básicos • ¿qué es una palabra? • “algo” entre blancos – ¿entonces en el habla? • “algo” con significado – • Dímelo - una sola palabra pero son tres “algos” • Unidades a partir de las cuales se forman oraciones • Las palabras se agrupan por su función estructurando una frase (parte de la oración) Laboratorio de Tecnologías del Lenguaje

  11. Funciones de la morfología • Varía considerablemente entre idiomas: • Inglés/Español • I speak – hablo --- I will speak –hablaré • Náhuatl • Popocatépetl • Popocitlali Laboratorio de Tecnologías del Lenguaje

  12. Funciones de la morfología I • Inflexión • Cambia su categoría gramatical pero no su categoría de parte de la oración. • comeré – comiste • ladrón – ladronzuelo • Tres clases en función de su inflexión • Partículas o palabras sin inflexión (conjunciones, artículos, etc.) • Verbos – admiten la conjugación • Nominales – palabras con declinación (adjetivos, adverbios, etc.) Laboratorio de Tecnologías del Lenguaje

  13. Funciones de la morfología II • Derivación • Proceso para crear nuevas palabras. Cambia su categoría gramatical y cambia su categoría de parte de la oración. • Comer - comestible • La derivación es incompleta no se puede aplicar a todas las palabras de una determinada clase • Correr – *corrible • Depende de su origen (es una raíz latina o griega) • Triste – tristeza • Feo – *feeza Laboratorio de Tecnologías del Lenguaje

  14. Funciones de la morfología II I • Composición • Proceso para crear nuevas palabras. A partir de dos palabras (dos raíces) creamos una nueva • Cabizbajo • Maniatado • malhablado • No es claro donde termina la derivación y empieza la composición • Dinosaurio • Televisión Laboratorio de Tecnologías del Lenguaje

  15. ¡Los límites no son claros! • Pasta – pasto • Foco – foca • Campana – campanilla • Raya – rayo • Velo – vela • Taza – tazo • Punto – punta • Marco – marca • Fila – filo • Pilón – piloncillo • Manzana – manzanilla • Manzano – manzanillo Laboratorio de Tecnologías del Lenguaje

  16. Construyendo palabras • Una palabra es una secuencia / concatenación de morfemas • El morfema principal o libre es la raíz • Un afijo es un morfema secundario o atado • Prefijo – afijo concatenado frente a la raíz • Feliz – infeliz • Sufijo – afijo concatenado al final de la raíz • Marca – marcas • Árbol – árboles Laboratorio de Tecnologías del Lenguaje

  17. Ejemplos • Pseudohospitalización • Pseudo – hospitalización • Hospitalizar – hospitalización • Hospital – hospitalizar • Destruir • Mano • Capital • Sucio Laboratorio de Tecnologías del Lenguaje

  18. Restricciones sobre los afijos • Tenemos restricciones semánticas, por ejemplo, no es posible adjetivar negativamente un nombre que ya tiene una carga negativa: • Feliz – infeliz • Triste – *intriste • Correcto – incorrecto • Errado – *inerrado • Existen muchas más incluyendo restricciones fonológicas • Propio – impropio • Tonantzintla – Tonanzintla • Cempoaxochitl – Cempaxúchil Laboratorio de Tecnologías del Lenguaje

  19. Etiquetando en partes de la oración • Usamos las características morfológicas de las palabras junto con su contexto para determinar su parte de la oración (su función gramatical) • La ayuda desinteresada de mi parte • La – artículo femenino singular • Ayuda – sustantivo femenino singular • Desinteresada – adjetivo femenino singular • De – preposición • Mi – adjetivo posesivo primera persona singular • Parte – sustantivo femenino singular Laboratorio de Tecnologías del Lenguaje

  20. El contexto es indispensable • *parte ayuda mi desinteresada de la • ¿Qué pasa con estas frases? • dímela • Él ayuda a su madre • Las notas son: do, re, mi, fa, sol • La muy desinteresada se fue con otro • Dé el nombre de un árbol • Él parte el pastel con cuidado Laboratorio de Tecnologías del Lenguaje

  21. El contexto y nuestra expectativa • ¿Qué tanto leemos y que tanto “inventamos”? Laboratorio de Tecnologías del Lenguaje

  22. El contexto y nuestra expectativa • ¿Qué tanto leemos y que tanto “inventamos”? • "Sgeun un etsduio de una uivenrsdiad ignlsea, no ipmotra el odren en el que las ltears etsan ersciats, la uicna csoa ipormtnate es que la pmrirea y la utlima ltera esten ecsritas en la psiocion cocrrtea. El rsteo peuden estar ttaolmntee mal y aun pordas lerelo sin pobrleams. Etso es pquore no lemeos cada ltera por si msima snio la paalbra cmoo un tdoo. Pesornamelnte me preace icrneilbe..." Laboratorio de Tecnologías del Lenguaje

  23. ¿Qué hay detrás de un etiquetador? • Un sistema de reglas aplicadas a un lexicón de base • Junto con un proceso estocástico para incluir el contexto (Modelos Ocultos de Markov) • Sistema con el que trabajaremos • FreeLing • LingPipe Laboratorio de Tecnologías del Lenguaje

  24. Aplicación: clasificación de preguntas • Objetivo: agrupar las preguntas por el tipo de respuesta esperada • ¿Dónde nació Benito Juárez? – LUGAR • ¿Quién inventó el teléfono? – PERSONA • ¿Cuándo cayó la primera bomba atómica? – FECHA • ¿Quién invadió a Kuwait? Laboratorio de Tecnologías del Lenguaje

  25. Solución con aprendizaje automático • Caracterizamos las preguntas: • Los pesos de las palabras objetivo de la pregunta con respecto al tipo de pregunta • Usamos la Web • ”President is a person” • ”President is a place” • ”President is a date” • ”President is a measure” • ”President is an organization” • Las palabras de la pregunta (bolsa de palabras) Laboratorio de Tecnologías del Lenguaje

  26. ¿Cómo obtener las palabras objetivo? • Las obtenemos al consultar sobre la Web: • Por ejemplo: Who is the President of the French Republic? • Eliminamos las palabras vacías (partículas sin contenido) • Eliminamos los adverbios o pronombres interrogativos • Reformulamos la consulta con el resto de las palabras: • ”President French Republic is a si” donde si є{Person, Organization, Place, Date, Measure}. • Si el motor de búsqueda no regresa ningún resultado entonces eliminamos palabras de derecha a izquierda: • ”President French is a si” • ”President is a si” • En particular, para este último caso tenemos respuesta para todas las clases semánticas excepto FECHA Laboratorio de Tecnologías del Lenguaje

  27. Usando la Web para caracterizar una pregunta Laboratorio de Tecnologías del Lenguaje

  28. Usando las palabras de la pregunta • Usamos todas las palabras de la pregunta • La presencia de una palabra caracteriza una pregunta • Problema: los plurales, las conjugaciones !! • Quién, Quienes • Es, eran, fue • Cuánto, Cuántas • Solución: un analizador morfológico Laboratorio de Tecnologías del Lenguaje

  29. Usando las palabras de la pregunta • Problema: depende del idioma • Solución: truncado • Quién – quienes • A 4 caracteres >quie< • A 5 caracteres >quien< • Se hicieron cálculos para tres idiomas: • Español, italiano e inglés Laboratorio de Tecnologías del Lenguaje

  30. Resultados al clasificación usando palabras, prefijos y la Web Laboratorio de Tecnologías del Lenguaje

  31. Resultados al clasificación usando palabras, prefijos y la Web Laboratorio de Tecnologías del Lenguaje

  32. Resultados al clasificación usando palabras, prefijos y la Web y el lenguaje !!! Laboratorio de Tecnologías del Lenguaje

More Related