1 / 48

Procesamiento superficial y léxico

Procesamiento superficial y léxico. Nivel de procesamiento superficial El concepto de palabra Nivel de procesamiento léxico Lexicones Adquisición de la información léxica. Nivel de procesamiento superficial 1. Preprocesado textual Obtención del documento a procesar acceso a BD

zinna
Download Presentation

Procesamiento superficial y léxico

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Procesamiento superficial y léxico • Nivel de procesamiento superficial • El concepto de palabra • Nivel de procesamiento léxico • Lexicones • Adquisición de la información léxica

  2. Nivel de procesamiento superficial 1 • Preprocesado textual • Obtención del documento a procesar • acceso a BD • acceso a la Web (wrappers) • detección de elementos textuales • documentos multimedia, páginas Web, ... • filtrado de meta-información • tags HTML, XML, ...

  3. Nivel de procesamiento superficial 2 • segmentación del texto • localización de unidades • palabra ortográfica vs palabra gramatical • términos multipalabras • fechas, fórmulas, siglas, jerga, • nombres propios • Named Entity Recognition • Named Entity Classification • palabras desconocidas • locuciones, lexías, ... • identificación de la lengua Beeferman et al, 1999 Ratnaparkhi, 1998 Bikel et al, 1999 Borthwick, 1999 Mikheev et al, 1999 Elworthy, 1999 Adams,Resnik, 1997

  4. Nivel de procesamiento superficial 3 • Tamaño del vocabulario (V) • Heap's Law • V = KN • K depende del texto 10  K  100 • N número total de palabras •  depende del , para el inglés 0.4    0.6 • El vocabulario crece sublinealmente pero no llega a saturarse •  tiende a estabilizarse para 1Mb de texto (150.000w) palabras distintas palabras

  5. Nivel de procesamiento superficial 4 • word tokens vs word types • Distribución estadística de las palabras en el texto • Obviamente no uniforme • Las palabras más comunes cubren el 50% de las occurrencias • Un 50% de las palabras sólo aparecen 1 vez • ~12% del texto está constituído por palabras que aparecen 3 veces o menos.

  6. Nivel de procesamiento superficial 5 Ley de Zipf: Ordenamos las palabras de un texto por su frecuencia. El producto de la frecuencia de una palabra (f) por su posición (r) es aproximadamente constante.

  7. Nivel de procesamiento superficial 6 • Frecuencia de una palabra vs capacidad discriminante del documento. • Stop Words. • Palabras muy discriminativas pero poco frecuentes. • Las palabras más interesantes tienen frecuencias intermedias.

  8. Colocaciones 1 • Expresiones formadas por dos o más palabras que tienen una probabilidad alta de aparecer juntas (con frecuencia contiguas): • "Estados Unidos" • phrasal verbs ("get up") • locuciones, frases hechas, lexías, palabras compuestas • terminología • Se caracterizan por tener una compositividad limitada (el significado del compuesto no se deduce exactamente del de sus componentes).

  9. Colocaciones 2 • Utilidad • Extracción de terminología • Extracción de relaciones de afinidad y repulsión léxica • Lexicografía Computacional • Adquisición de locuciones, lexías, etc. • Generación del LN • Parsing, inducción gramatical

  10. Colocaciones 3 • Detección de colocaciones • McCallum propone 3 métodos • Método 1 • Frecuencia de la colocación complementada con un filtro morfológico (sólo algunas tuplas son aceptables: AN, NN, AAN, ANN, NAN, NNN, NPN) • Método 2 • Colocaciones no adyacentes • Media y variancia de la distancia entre los elementos de la colocación

  11. Colocaciones 4 • Método 3 • Likelihood ratio • Decidir qué modelo entre dos posibilidades es más apropiado para describir los datos • H1 hipótesis del modelo 1 (por ejemplo, w1 y w2 no forman una colocación, p(w1|w2) = p = p(w1|-w2) ) • H2 hipótesis del modelo 2 (por ejemplo, w1 y w2 si forman una colocación, p(w1|w2) = p1 p2 = p(w1|-w2))

  12. Categorización de las palabras • Part of Speech (POS), categoría morfosintáctica. • Propiedad formal de un word-type que determina sus usos acceptables en sintaxis. • Una POS puede considerarse una clase de palabras • Un word-type puede poseer varias POS, un word-token sólo una • Categorías plenas • abiertas, muchos elementos, neologismos, clases semánticamente ricas e independientes • N, Adj, Adv, V • Categorías funcionales

  13. Agrupación (clustering) de palabras 1 • A veces es interesante crear clases o agrupaciones (clusters) de palabras (ej. generalización, forma de abordar el data sparseness, backoff, ...) • Factores (features) a tener en cuenta: • palabras adyacentes • palabras relacionadas sintácticamente • palabras cercanas • tema del documento • ...

  14. Agrupación (clustering) de palabras 2 • VSM (Vector Space Model) • representar cada word-type como un punto en un espacio de k dimensiones (k = tamaño del vocabulario). • definir una medida de proximidad (o distancia) entre los puntos • p.ej. la distancia euclídea, Dice, Jaccard, ... • Examinar el espacio de k dimensiones en el que hemos colocado todos los puntos (todos los word-types) para localizar núcleos de agrupación (clusters)

  15. Plot in k dimensions (here k=3) Agrupación (clustering) de palabras 3

  16. Agrupación (clustering) de palabras 4 • Clustering aglomerativo (bottom up) • Comenzar con un cluster por punto • Iterativamente agrupar los clusters más cercanos • Formas de decidir la proximidad entre clusters: • single link • dist(A,B) = min(dist(a,b)| aA, bB) • complete link • dist(A,B) = max(dist(a,b)| aA, bB) • average link • dist(A,B) = mean(dist(a,b)| aA, bB) • centroid link • dist(A,B) = min(dist(mean(A),mean(B)) • Clustering divisivo (top down)

  17. Qué es un lexicón • Un lexicón es simplemente un repositorio de información léxica que puede ser utilizada por usuarios humanos o por algún tipo de procesador del lenguaje natural • Dos aspectos a considerar • Representar la información léxica • Adquirir la información léxica

  18. Adquisición del conocimiento léxico • qué hace falta codificar en los léxicos computacionales (cuantitativamente y cualitativamente) • cuáles son las fuentes de conocimiento idóneas para extraer dicho conocimiento • qué métodos de extracción son necesarios para ello.

  19. El contenido de los lexicones computacionales 1 • Transcripción ortográfica • Transcripción fonética • Modelo flexivo • Alternancias de diátesis, marcos de subcategorización • AMAR VTR(OBJLIST: SN). • AMAR • CAT = VERBO • SUBCAT = <SN, SN>

  20. El contenido de los lexicones computacionales 2 • Categoría gramatical (POS) • Estructura argumental • Información semántica • diccionarios => definición • léxicos computacionales => asignación de tipos semánticos predefinidos en una jerarquía. • Relaciones léxicas • derivación • Equivalencias con otras lenguas

  21. Representación del conocimiento léxico • expresividad • idoneidad representacional • idoneidad inferencial • eficiencia

  22. Problemas que plantea la representación léxica • Forma: pares atributo/valor, rels binarias o n-arias, valores codificados, valores de dominio abierto… • Asignaciones múltiples (relaciones uno a varios o varios a varios), dependencias contextuales… • Facetas de los rasgos o atributos: obligatoriedad u opcionalidad, cardinalidad, valores por omisión… • Gradación en las propiedades: valores exactos, preferencias, asignaciones probabilísticas.

  23. Sistemas de Representación • Bases de datos de propósito general • Modelos textuales • Bases de datos léxicas • Sistemas Orientados a Objetos (OO) • Bases de datos orientadas a objetos • Sistemas basados en esquemas (frames) • Sistemas basados en unificación

  24. Bases de datos de propósito general • Modelo de datos relacional. • Aproximación E/R • ventajas • rasgos de tipo atributo/valor • software convencional de gestión de base de datos • capacidad expresiva, mantenimiento, eficiencia y facilidad de interrogación. • limitaciones: • Fragmentación de los datos • Falta de estructura jerárquica • Excesiva uniformidad, poco apropiadas para los rasgos de tipo textual.

  25. Modelos textuales • Información consistente en texto posiblemente marcado (tipográfico, descriptivo) • SGML, TEI, Eagles • Obtención de las apariciones de una palabra en un corpus, • Coapariciones de varias palabras • Uso de expresiones regulares en la consulta • Consulta de fragmentos de palabra • Uso de comodines, expresiones booleanas, etc...

  26. Las bases de datos léxicas • aproximación de dos niveles • fuente primaria de datos • índices • integran en un solo modelo las dos aproximaciones anteriores • limitación : a menudo implementaciones ad-hoc • Ejemplos de bases de datos léxicas son IBM-LDB [Neff et al. 88] o Acquilex LDB [Briscoe et al. 90].

  27. Sistemas Orientados a Objetos • Capacidad deductiva • herencia de propiedades • transformacione léxicas • Capacidades procedimentales (asertivas) • Tratamiento de excepciones.

  28. Bases de Datos Orientadas a Objetos • Gestión de la persistencia • Dos tipos básicos • bases de datos orientadas a objetos puras, que extienden algunos lenguajes orientados al objeto como C++, Smalltalk, Eiffel, CLOS, etc… • bases de datos orientadas al objeto que extienden sistemas convencionales de gestión de bases de datos • => Sistemas basados en esquemas (frames)

  29. Sistemas basados en unificación • relaciones de reentrancia. • disyunción, negación, asignación condicional... • formas variadas de herencia (simple, múltiple, monótona, por omisión, etc...) • operaciones: generalización, reescritura, formas varias de unificación, etc... • Uso de macros, alias, reglas léxicas, etc... • compilación de las estructuras de rasgos en estructuras más eficientes (como términos Prolog)

  30. Sistemas basados en Estructuras de rasgos • Dos familias de sistemas basados en rasgos: • estructuras de rasgos libres: PATR-II • estructuras de rasgos restringidas por tipos: ALE, ALEP, CUF, TFS • ER -> tipo que determina su estructura. Taxonomía de tipos • tipo -> restricciones sobre los rasgos • rasgo -> tipos apropiados

  31. Adquisición de la información léxica • Los Diccionarios como fuente de información • MRD • Finalidad: codificar información sobre el léxico • Estructura interna predeterminada • Cierto grado de codificación en determinados contenidos • Relaciones internas (sinonimia, hiponimia, etc.) de manera implícita o explícita • Vocabulario restringido • Sistemática en la elaboración de las definiciones

  32. El proceso de extracción • Manualmente • introspección • auxiliado (p.ej. una estación de trabajo lexicográfica). • Automáticamente, utilizando (y posiblemente combinando) fuentes ya disponibles • los diccionarios accesibles por ordenador • los corpus textuales. • En forma semiautomática

  33. Los diccionarios accesibles por ordenador ejemplos: LDOCE, LINKS, OALD, Acquilex

  34. Acquilex

  35. diccionario en soporte electrónico

  36. diccionario editado

  37. estructura parentizada

  38. Análisis de las definiciones ((CLASS pedazo) (PROPERTIES (pequeño (PREP-MOD (DE (OBJECT alguna cosa))))) => Traducción al lenguaje de la BC

  39. Métodos de extracción de relaciones 1 • Sinonimia • cabaret [fr.] **m.** Cabaré. • cabaret SIN cabaré • sinonimia aproximada • caza **f.** Acción de cazar. • caza CASI-SIN cazar

  40. Métodos de extracción de relaciones 2 • antonimia. • patrones de las definiciones que indican negación • abierto **adj** no murado o cerrado • abierto ANT murado • abierto ANT cerrado • descomposición de los lemas • antisocial **adj** Contrario a la sociedad, a la convivencia social. • antisocial ANT social

  41. Métodos de extracción de relaciones 3 • meronimia/ holonimia: • patrones. • parte de • miembro de • porción/ trozo/ pedazo/ punta, ... de • X (entrada) es merónimo de Y (elemento que sigue al patrón en la definición) • mano **f.** Parte del cuerpo humano que … • mano MER cuerpo humano

  42. Métodos de extracción de relaciones 4 • Relaciones entre un nombre y la acción básica en la que está implicado. • verbo con su agente, paciente, instrumento, etc. • Instrumento • patrones • que sirve para + V (SN) • para + V (SN) • que se usa para + V (SN) • fotómetro **m.** Instrumento para medir la intensidad de la luz • medir (la intensidad ...) INVOLVED fotómetro • aflicción CAUSA aflictivo

  43. Los corpus como fuentes de información 1 • Ventajas: • Gran volumen de información • Facilidad de clasificación • Capacidad de utilización como banco de pruebas para refrendo de teorías o intuiciones. • Capacidad de integración de datos experimentales. • Posibilidad de utilización de métodos estadísticos de tratamiento.

  44. Los corpus como fuentes de información 2 • Dificultades: • Casos poco o nada representados. • Combinación de métodos estadísticos con métodos basados en conocimiento gramaticales • Garantía o control de la coherencia interna. • Nivel de completitud suficiente sin sobrerrepresentar • Nivel de granularidad deseado para una aplicación concreta. • Adaptación a un dominio concreto.

  45. Información contenida en los Corpus • Colocaciones • Estructura argumental. • Frecuencia de aparición de las unidades. • Contexto de aparición de las unidades. • Inducción gramatical. • Análisis probabilístico. • Relaciones léxicas. • Ejemplos de uso. • Restricciones selectivas. • Compuestos nominales. • Lexías, frases hechas,...

  46. Tipos de corpus • Según la información incorporada: • Corpus bruto • Corpus horizontales o verticales • Corpus etiquetados (tagged) • Corpus parentizados • Corpus analizados • treebanks

  47. Los métodos de tratamiento • Manual: • presentación al lexicógrafo de las apariciones que correspondan al patrón pedido • Diversos niveles de preproceso y ayuda • Automático • técnicas estadísticas • Semiautomáticos • filtrado manual por parte del lexicógrafo, de los casos propuestos por el sistema.

  48. Aplicaciones • Lexicografía • Extracción de información • Etiquetadores • Para el enriquecimiento de corpus • Coocurrencias • Identificación de unidades léxicas complejas

More Related