Servei deTecnologia Lingüística

Servei deTecnologia Lingüística Facultad de Filología Edificio Josep Carner, 5º pis0 Persona de contacto: Montserrat Nofre Tel: 934035694 stel@ub.edu/montsenofre@ub.edu http://stel.ub.edu

Algunos conceptos previos • FORMA (type):Equivalente a palabra; cualquier palabra que aparece en un corpus. • OCURRENCIA (token):Cada aparición de una forma en un corpus. El número de ocurrencias de una forma constituye su FRECUENCIA. • LEMA: El estándar léxico de una forma; es decir, una forma tal y como la encontramos en el diccionario (en catalán o español, el infinitivo para los verbos, el masculino singular para los adjetivos, el singular para los sustantivos,…).

Proceso de trabajo • Diseño del estudio • Selección del corpus textual (contenido, tamaño, clasificación) • Introducción del corpus en soporte magnético (manual, escáner + OCR, Internet...) • Marcaje/etiquetaje/anotación del corpus textual (modificaciones, partes/estructura, información paratextual, anotaciones morfosintácticas...) • Aplicación del programa(s) informático(s) de análisis de textos • Obtención de resultados

Definición de corpus textual En principio, denominamos “corpus textual” a cualquier conjunto de textos en soporte informático, agrupados y clasificados según determinados criterios y objetivos. Un corpus constituye una fuente de información para: • el desarrollo de recursos lingüísticos básicos (léxicos, gramáticas) • la investigación filológica y lingüística • la lexicografía También es un banco de pruebas para la investigación en Lingüística Teórica y Computacional Los distinguimos según su tamaño, contenido, tipo de ordenación,...

Tipos de corpus • Corpus general de referencia: representativo de una lengua, útil para realizar observaciones generales sobre ella. Contiene material oral y escrito, y una representación de diferentes tipos de textos (procedencia, nivel, contenido). • Corpus para objetivos específicos: se fija en un aspecto particular del lenguaje (variedad de lengua, género literario, temática,...). • Oral/de lengua hablada/de lengua escrita • Monolingüe/multilingüe (comparable/paralelo) • Sincrónico/diacrónico • Abierto (corpus monitor)/cerrado

Tipos de corpus (2) • Corpus puros (formato ASCII): se utilizan para elaborar estudios cuantitativos (listas de formas, frecuencias, colocaciones,…) • Corpus procesados: permiten obtener información sobre el uso de la lengua (análisis lingüístico, traducción automática,…) • Corpus etiquetados (tagged) morfosintácticamente • Corpus analizadossintácticamente (análisis superficial: skeletonparsingo chunking; análisisprofundo: full parsing)

Texto con información morfológica

Etiquetarios (PoS taggers)

Texto con información sintáctica

¿Qué podemos marcar/etiquetar/anotar? • Aspectos bibliográficos del texto (autor, título, año de publicación, tema, género) • Información sobre la constitución del corpus (fecha, datos de transcripción, formato) • Estructura del corpus (divisiones textuales, párrafos, citas, títulos) • Caracterización de las unidades léxicas (léxico general, extranjerismos, nombres propios, abreviaturas) • Morfología y sintaxis. • Rasgos fonéticos. • Caracterización semántica (desambiguación, caracterización de usos polisémicos) • Anáfora y coreferencia • Cuestiones de pragmática

Tipos de marcaje • Para los corpus puros: • Formato <marca>…</marca>: SGML , HTML, XML • Marcas ad hoc

El marcaje XML • XML:eXtendedMarkupLanguage DTD DocumentTypeDefinition Marcas XML Consultas Extracción de información

Tipos de marcaje DTD Texto marcado

Tipos de marcaje (2) • Para los corpus procesados: • Tagging: anotaciones PoS(part of speech) • Parsing: naotaciones sintácticas • Desambiguación y lematización • ...

Ejemplos de marcaje • Lematización • Tagging: etiquetaje PoS (part of speech) • Parsing: etiquetaje sintáctico

Análisis cuantitativo • La aproximación más directa al trabajo con datos textuales consiste simplemente en contar las frecuencias de formas, ocurrencias u otras clasificaciones (por ejemplo, frecuencias por categorías gramaticales). • Los recuentos de frecuencias en datos absolutos no permiten la comparación entre corpus o partes de corpus, en especial si son de distinto tamaño. Deben utilizarse porcentajes de aparición respecto al tamaño del corpus.

Análisis cuantitativo La función básica de un programa de análisis de textos es la generación de una lista de frecuencias de formas, que nos proporciona el número de ocurrencias (apariciones) de cada palabra. Dicha lista puede tener dos tipos de ordenación: • orden alfabético (lexicográfico) • recto • inverso • a tergo • orden frecuencial • creciente • decreciente (lexicométrico)

Procesamiento de corpus: AntConc Programa gratuito para la elaboración de índices y concordancias para entornos Windows, Macintosh y Linux. http://www.antlab.sci.waseda.ac.jp/software.html

Conceptos previos • Tokens: número total de palabras de un corpus • Types: número total de palabras distintas

Tipos de índices Listados de palabras: • alfabéticos

Típos de índices Listados de palabras: • alfabéticos por final de palabra

Tipos de índices Listados de palabras: • frecuenciales Permiten comparar el uso del léxico entre diferents corpus: • formas gramaticales • formes lèxiques (vocabulario representativo) • densidad léxica por categorías

Comparación de frecuencias

Comparación de frecuencias El PaísClarín palabra posición posición Pinochet10 11 Chile 22 30 dictador 23 21 -- verbos afirmó162 murió63 dijo70 pidió155

Uso de comodines (wildcards) Ejemplos dict*: palabras que empiezan por dict (dictador, dictadura, dictatorial) hijo+: hijo o hijo seguido de (sólo) un carácter (hijos) hij?: hij seguido de cualquier carácter (sólo uno) (hijo, hija) la@muerte: sintagma en el cual puede haber o no una palabra intercalada (la muerte, la súbita muerte) la#de Pinochet: sintagma en el cual se puede intercalar culaquier palabra (la muerte de Pinochet, la dictadura de Pinochet, la familia de Pinochet) dictador|senador: buscamos las apariciones de cualquiera de las dos palabras (NO de ambas a la vez)

Concordancias Una concordancia permite ver la palabra o secuencia buscada dentro de su contexto (una línea de pantalla de ordenador o el número de caracteres definido por el usuario). Los resultados pueden ordenarse según distintos criterios: • orden de aparición en el corpus • por las palabras anteriores a la palabra clave • por las palabras posteriores a la palabra clave • gráficos de distribución de la palabra clave a lo largo del texto

Ejemplo de concordancia

Ejemplo de concordancia (2)

Clusters Esta función nos permite buscar series de palabras de una extensión establecida por el usuario que se repitan n veces. La búsqueda puede realizarse según dos criterios: • a partir de una palabra • por el número de palabras que deba contener la secuencia (n-gramas)

Ejemplo de cluster

Ejemplo de cluster (2)

Ejemplo de n-grama

Collocates Nos permite buscar las palabras relacionadas con una palabra determinada dentro del contexto de distancia entre ellas que se establezca.

Servei deTecnologia Lingüística