480 likes | 774 Views
Procesamiento superficial y léxico. Nivel de procesamiento superficial El concepto de palabra Nivel de procesamiento léxico Lexicones Adquisición de la información léxica. Nivel de procesamiento superficial 1. Preprocesado textual Obtención del documento a procesar acceso a BD
E N D
Procesamiento superficial y léxico • Nivel de procesamiento superficial • El concepto de palabra • Nivel de procesamiento léxico • Lexicones • Adquisición de la información léxica
Nivel de procesamiento superficial 1 • Preprocesado textual • Obtención del documento a procesar • acceso a BD • acceso a la Web (wrappers) • detección de elementos textuales • documentos multimedia, páginas Web, ... • filtrado de meta-información • tags HTML, XML, ...
Nivel de procesamiento superficial 2 • segmentación del texto • localización de unidades • palabra ortográfica vs palabra gramatical • términos multipalabras • fechas, fórmulas, siglas, jerga, • nombres propios • Named Entity Recognition • Named Entity Classification • palabras desconocidas • locuciones, lexías, ... • identificación de la lengua Beeferman et al, 1999 Ratnaparkhi, 1998 Bikel et al, 1999 Borthwick, 1999 Mikheev et al, 1999 Elworthy, 1999 Adams,Resnik, 1997
Nivel de procesamiento superficial 3 • Tamaño del vocabulario (V) • Heap's Law • V = KN • K depende del texto 10 K 100 • N número total de palabras • depende del , para el inglés 0.4 0.6 • El vocabulario crece sublinealmente pero no llega a saturarse • tiende a estabilizarse para 1Mb de texto (150.000w) palabras distintas palabras
Nivel de procesamiento superficial 4 • word tokens vs word types • Distribución estadística de las palabras en el texto • Obviamente no uniforme • Las palabras más comunes cubren el 50% de las occurrencias • Un 50% de las palabras sólo aparecen 1 vez • ~12% del texto está constituído por palabras que aparecen 3 veces o menos.
Nivel de procesamiento superficial 5 Ley de Zipf: Ordenamos las palabras de un texto por su frecuencia. El producto de la frecuencia de una palabra (f) por su posición (r) es aproximadamente constante.
Nivel de procesamiento superficial 6 • Frecuencia de una palabra vs capacidad discriminante del documento. • Stop Words. • Palabras muy discriminativas pero poco frecuentes. • Las palabras más interesantes tienen frecuencias intermedias.
Colocaciones 1 • Expresiones formadas por dos o más palabras que tienen una probabilidad alta de aparecer juntas (con frecuencia contiguas): • "Estados Unidos" • phrasal verbs ("get up") • locuciones, frases hechas, lexías, palabras compuestas • terminología • Se caracterizan por tener una compositividad limitada (el significado del compuesto no se deduce exactamente del de sus componentes).
Colocaciones 2 • Utilidad • Extracción de terminología • Extracción de relaciones de afinidad y repulsión léxica • Lexicografía Computacional • Adquisición de locuciones, lexías, etc. • Generación del LN • Parsing, inducción gramatical
Colocaciones 3 • Detección de colocaciones • McCallum propone 3 métodos • Método 1 • Frecuencia de la colocación complementada con un filtro morfológico (sólo algunas tuplas son aceptables: AN, NN, AAN, ANN, NAN, NNN, NPN) • Método 2 • Colocaciones no adyacentes • Media y variancia de la distancia entre los elementos de la colocación
Colocaciones 4 • Método 3 • Likelihood ratio • Decidir qué modelo entre dos posibilidades es más apropiado para describir los datos • H1 hipótesis del modelo 1 (por ejemplo, w1 y w2 no forman una colocación, p(w1|w2) = p = p(w1|-w2) ) • H2 hipótesis del modelo 2 (por ejemplo, w1 y w2 si forman una colocación, p(w1|w2) = p1 p2 = p(w1|-w2))
Categorización de las palabras • Part of Speech (POS), categoría morfosintáctica. • Propiedad formal de un word-type que determina sus usos acceptables en sintaxis. • Una POS puede considerarse una clase de palabras • Un word-type puede poseer varias POS, un word-token sólo una • Categorías plenas • abiertas, muchos elementos, neologismos, clases semánticamente ricas e independientes • N, Adj, Adv, V • Categorías funcionales
Agrupación (clustering) de palabras 1 • A veces es interesante crear clases o agrupaciones (clusters) de palabras (ej. generalización, forma de abordar el data sparseness, backoff, ...) • Factores (features) a tener en cuenta: • palabras adyacentes • palabras relacionadas sintácticamente • palabras cercanas • tema del documento • ...
Agrupación (clustering) de palabras 2 • VSM (Vector Space Model) • representar cada word-type como un punto en un espacio de k dimensiones (k = tamaño del vocabulario). • definir una medida de proximidad (o distancia) entre los puntos • p.ej. la distancia euclídea, Dice, Jaccard, ... • Examinar el espacio de k dimensiones en el que hemos colocado todos los puntos (todos los word-types) para localizar núcleos de agrupación (clusters)
Plot in k dimensions (here k=3) Agrupación (clustering) de palabras 3
Agrupación (clustering) de palabras 4 • Clustering aglomerativo (bottom up) • Comenzar con un cluster por punto • Iterativamente agrupar los clusters más cercanos • Formas de decidir la proximidad entre clusters: • single link • dist(A,B) = min(dist(a,b)| aA, bB) • complete link • dist(A,B) = max(dist(a,b)| aA, bB) • average link • dist(A,B) = mean(dist(a,b)| aA, bB) • centroid link • dist(A,B) = min(dist(mean(A),mean(B)) • Clustering divisivo (top down)
Qué es un lexicón • Un lexicón es simplemente un repositorio de información léxica que puede ser utilizada por usuarios humanos o por algún tipo de procesador del lenguaje natural • Dos aspectos a considerar • Representar la información léxica • Adquirir la información léxica
Adquisición del conocimiento léxico • qué hace falta codificar en los léxicos computacionales (cuantitativamente y cualitativamente) • cuáles son las fuentes de conocimiento idóneas para extraer dicho conocimiento • qué métodos de extracción son necesarios para ello.
El contenido de los lexicones computacionales 1 • Transcripción ortográfica • Transcripción fonética • Modelo flexivo • Alternancias de diátesis, marcos de subcategorización • AMAR VTR(OBJLIST: SN). • AMAR • CAT = VERBO • SUBCAT = <SN, SN>
El contenido de los lexicones computacionales 2 • Categoría gramatical (POS) • Estructura argumental • Información semántica • diccionarios => definición • léxicos computacionales => asignación de tipos semánticos predefinidos en una jerarquía. • Relaciones léxicas • derivación • Equivalencias con otras lenguas
Representación del conocimiento léxico • expresividad • idoneidad representacional • idoneidad inferencial • eficiencia
Problemas que plantea la representación léxica • Forma: pares atributo/valor, rels binarias o n-arias, valores codificados, valores de dominio abierto… • Asignaciones múltiples (relaciones uno a varios o varios a varios), dependencias contextuales… • Facetas de los rasgos o atributos: obligatoriedad u opcionalidad, cardinalidad, valores por omisión… • Gradación en las propiedades: valores exactos, preferencias, asignaciones probabilísticas.
Sistemas de Representación • Bases de datos de propósito general • Modelos textuales • Bases de datos léxicas • Sistemas Orientados a Objetos (OO) • Bases de datos orientadas a objetos • Sistemas basados en esquemas (frames) • Sistemas basados en unificación
Bases de datos de propósito general • Modelo de datos relacional. • Aproximación E/R • ventajas • rasgos de tipo atributo/valor • software convencional de gestión de base de datos • capacidad expresiva, mantenimiento, eficiencia y facilidad de interrogación. • limitaciones: • Fragmentación de los datos • Falta de estructura jerárquica • Excesiva uniformidad, poco apropiadas para los rasgos de tipo textual.
Modelos textuales • Información consistente en texto posiblemente marcado (tipográfico, descriptivo) • SGML, TEI, Eagles • Obtención de las apariciones de una palabra en un corpus, • Coapariciones de varias palabras • Uso de expresiones regulares en la consulta • Consulta de fragmentos de palabra • Uso de comodines, expresiones booleanas, etc...
Las bases de datos léxicas • aproximación de dos niveles • fuente primaria de datos • índices • integran en un solo modelo las dos aproximaciones anteriores • limitación : a menudo implementaciones ad-hoc • Ejemplos de bases de datos léxicas son IBM-LDB [Neff et al. 88] o Acquilex LDB [Briscoe et al. 90].
Sistemas Orientados a Objetos • Capacidad deductiva • herencia de propiedades • transformacione léxicas • Capacidades procedimentales (asertivas) • Tratamiento de excepciones.
Bases de Datos Orientadas a Objetos • Gestión de la persistencia • Dos tipos básicos • bases de datos orientadas a objetos puras, que extienden algunos lenguajes orientados al objeto como C++, Smalltalk, Eiffel, CLOS, etc… • bases de datos orientadas al objeto que extienden sistemas convencionales de gestión de bases de datos • => Sistemas basados en esquemas (frames)
Sistemas basados en unificación • relaciones de reentrancia. • disyunción, negación, asignación condicional... • formas variadas de herencia (simple, múltiple, monótona, por omisión, etc...) • operaciones: generalización, reescritura, formas varias de unificación, etc... • Uso de macros, alias, reglas léxicas, etc... • compilación de las estructuras de rasgos en estructuras más eficientes (como términos Prolog)
Sistemas basados en Estructuras de rasgos • Dos familias de sistemas basados en rasgos: • estructuras de rasgos libres: PATR-II • estructuras de rasgos restringidas por tipos: ALE, ALEP, CUF, TFS • ER -> tipo que determina su estructura. Taxonomía de tipos • tipo -> restricciones sobre los rasgos • rasgo -> tipos apropiados
Adquisición de la información léxica • Los Diccionarios como fuente de información • MRD • Finalidad: codificar información sobre el léxico • Estructura interna predeterminada • Cierto grado de codificación en determinados contenidos • Relaciones internas (sinonimia, hiponimia, etc.) de manera implícita o explícita • Vocabulario restringido • Sistemática en la elaboración de las definiciones
El proceso de extracción • Manualmente • introspección • auxiliado (p.ej. una estación de trabajo lexicográfica). • Automáticamente, utilizando (y posiblemente combinando) fuentes ya disponibles • los diccionarios accesibles por ordenador • los corpus textuales. • En forma semiautomática
Los diccionarios accesibles por ordenador ejemplos: LDOCE, LINKS, OALD, Acquilex
Análisis de las definiciones ((CLASS pedazo) (PROPERTIES (pequeño (PREP-MOD (DE (OBJECT alguna cosa))))) => Traducción al lenguaje de la BC
Métodos de extracción de relaciones 1 • Sinonimia • cabaret [fr.] **m.** Cabaré. • cabaret SIN cabaré • sinonimia aproximada • caza **f.** Acción de cazar. • caza CASI-SIN cazar
Métodos de extracción de relaciones 2 • antonimia. • patrones de las definiciones que indican negación • abierto **adj** no murado o cerrado • abierto ANT murado • abierto ANT cerrado • descomposición de los lemas • antisocial **adj** Contrario a la sociedad, a la convivencia social. • antisocial ANT social
Métodos de extracción de relaciones 3 • meronimia/ holonimia: • patrones. • parte de • miembro de • porción/ trozo/ pedazo/ punta, ... de • X (entrada) es merónimo de Y (elemento que sigue al patrón en la definición) • mano **f.** Parte del cuerpo humano que … • mano MER cuerpo humano
Métodos de extracción de relaciones 4 • Relaciones entre un nombre y la acción básica en la que está implicado. • verbo con su agente, paciente, instrumento, etc. • Instrumento • patrones • que sirve para + V (SN) • para + V (SN) • que se usa para + V (SN) • fotómetro **m.** Instrumento para medir la intensidad de la luz • medir (la intensidad ...) INVOLVED fotómetro • aflicción CAUSA aflictivo
Los corpus como fuentes de información 1 • Ventajas: • Gran volumen de información • Facilidad de clasificación • Capacidad de utilización como banco de pruebas para refrendo de teorías o intuiciones. • Capacidad de integración de datos experimentales. • Posibilidad de utilización de métodos estadísticos de tratamiento.
Los corpus como fuentes de información 2 • Dificultades: • Casos poco o nada representados. • Combinación de métodos estadísticos con métodos basados en conocimiento gramaticales • Garantía o control de la coherencia interna. • Nivel de completitud suficiente sin sobrerrepresentar • Nivel de granularidad deseado para una aplicación concreta. • Adaptación a un dominio concreto.
Información contenida en los Corpus • Colocaciones • Estructura argumental. • Frecuencia de aparición de las unidades. • Contexto de aparición de las unidades. • Inducción gramatical. • Análisis probabilístico. • Relaciones léxicas. • Ejemplos de uso. • Restricciones selectivas. • Compuestos nominales. • Lexías, frases hechas,...
Tipos de corpus • Según la información incorporada: • Corpus bruto • Corpus horizontales o verticales • Corpus etiquetados (tagged) • Corpus parentizados • Corpus analizados • treebanks
Los métodos de tratamiento • Manual: • presentación al lexicógrafo de las apariciones que correspondan al patrón pedido • Diversos niveles de preproceso y ayuda • Automático • técnicas estadísticas • Semiautomáticos • filtrado manual por parte del lexicógrafo, de los casos propuestos por el sistema.
Aplicaciones • Lexicografía • Extracción de información • Etiquetadores • Para el enriquecimiento de corpus • Coocurrencias • Identificación de unidades léxicas complejas