1 / 33

Servei deTecnologia Lingüística

Servei deTecnologia Lingüística. Facultad de Filología Edificio Josep Carner , 5º pis0 Persona de contacto: Montserrat Nofre Tel: 934035694 stel @ ub.edu / montsenofre @ ub.edu http://stel.ub.edu. Algunos conceptos previos.

delta
Download Presentation

Servei deTecnologia Lingüística

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Servei deTecnologia Lingüística Facultad de Filología Edificio Josep Carner, 5º pis0 Persona de contacto: Montserrat Nofre Tel: 934035694 stel@ub.edu/montsenofre@ub.edu http://stel.ub.edu

  2. Algunos conceptos previos • FORMA (type):Equivalente a palabra; cualquier palabra que aparece en un corpus. • OCURRENCIA (token):Cada aparición de una forma en un corpus. El número de ocurrencias de una forma constituye su FRECUENCIA. • LEMA: El estándar léxico de una forma; es decir, una forma tal y como la encontramos en el diccionario (en catalán o español, el infinitivo para los verbos, el masculino singular para los adjetivos, el singular para los sustantivos,…).

  3. Proceso de trabajo • Diseño del estudio • Selección del corpus textual (contenido, tamaño, clasificación) • Introducción del corpus en soporte magnético (manual, escáner + OCR, Internet...) • Marcaje/etiquetaje/anotación del corpus textual (modificaciones, partes/estructura, información paratextual, anotaciones morfosintácticas...) • Aplicación del programa(s) informático(s) de análisis de textos • Obtención de resultados

  4. Definición de corpus textual En principio, denominamos “corpus textual” a cualquier conjunto de textos en soporte informático, agrupados y clasificados según determinados criterios y objetivos. Un corpus constituye una fuente de información para: • el desarrollo de recursos lingüísticos básicos (léxicos, gramáticas) • la investigación filológica y lingüística • la lexicografía También es un banco de pruebas para la investigación en Lingüística Teórica y Computacional Los distinguimos según su tamaño, contenido, tipo de ordenación,...

  5. Tipos de corpus • Corpus general de referencia: representativo de una lengua, útil para realizar observaciones generales sobre ella. Contiene material oral y escrito, y una representación de diferentes tipos de textos (procedencia, nivel, contenido). • Corpus para objetivos específicos: se fija en un aspecto particular del lenguaje (variedad de lengua, género literario, temática,...). • Oral/de lengua hablada/de lengua escrita • Monolingüe/multilingüe (comparable/paralelo) • Sincrónico/diacrónico • Abierto (corpus monitor)/cerrado

  6. Tipos de corpus (2) • Corpus puros (formato ASCII): se utilizan para elaborar estudios cuantitativos (listas de formas, frecuencias, colocaciones,…) • Corpus procesados: permiten obtener información sobre el uso de la lengua (análisis lingüístico, traducción automática,…) • Corpus etiquetados (tagged) morfosintácticamente • Corpus analizadossintácticamente (análisis superficial: skeletonparsingo chunking; análisisprofundo: full parsing)

  7. Texto con información morfológica

  8. Etiquetarios (PoS taggers)

  9. Texto con información sintáctica

  10. ¿Qué podemos marcar/etiquetar/anotar? • Aspectos bibliográficos del texto (autor, título, año de publicación, tema, género) • Información sobre la constitución del corpus (fecha, datos de transcripción, formato) • Estructura del corpus (divisiones textuales, párrafos, citas, títulos) • Caracterización de las unidades léxicas (léxico general, extranjerismos, nombres propios, abreviaturas) • Morfología y sintaxis. • Rasgos fonéticos. • Caracterización semántica (desambiguación, caracterización de usos polisémicos) • Anáfora y coreferencia • Cuestiones de pragmática

  11. Tipos de marcaje • Para los corpus puros: • Formato <marca>…</marca>: SGML , HTML, XML • Marcas ad hoc

  12. El marcaje XML • XML:eXtendedMarkupLanguage DTD DocumentTypeDefinition Marcas XML Consultas Extracción de información

  13. Tipos de marcaje DTD Texto marcado

  14. Tipos de marcaje (2) • Para los corpus procesados: • Tagging: anotaciones PoS(part of speech) • Parsing: naotaciones sintácticas • Desambiguación y lematización • ...

  15. Ejemplos de marcaje • Lematización • Tagging: etiquetaje PoS (part of speech) • Parsing: etiquetaje sintáctico

  16. Análisis cuantitativo • La aproximación más directa al trabajo con datos textuales consiste simplemente en contar las frecuencias de formas, ocurrencias u otras clasificaciones (por ejemplo, frecuencias por categorías gramaticales). • Los recuentos de frecuencias en datos absolutos no permiten la comparación entre corpus o partes de corpus, en especial si son de distinto tamaño. Deben utilizarse porcentajes de aparición respecto al tamaño del corpus.

  17. Análisis cuantitativo La función básica de un programa de análisis de textos es la generación de una lista de frecuencias de formas, que nos proporciona el número de ocurrencias (apariciones) de cada palabra. Dicha lista puede tener dos tipos de ordenación: • orden alfabético (lexicográfico) • recto • inverso • a tergo • orden frecuencial • creciente • decreciente (lexicométrico)

  18. Procesamiento de corpus: AntConc Programa gratuito para la elaboración de índices y concordancias para entornos Windows, Macintosh y Linux. http://www.antlab.sci.waseda.ac.jp/software.html

  19. Conceptos previos • Tokens: número total de palabras de un corpus • Types: número total de palabras distintas

  20. Tipos de índices Listados de palabras: • alfabéticos

  21. Típos de índices Listados de palabras: • alfabéticos por final de palabra

  22. Tipos de índices Listados de palabras: • frecuenciales Permiten comparar el uso del léxico entre diferents corpus: • formas gramaticales • formes lèxiques (vocabulario representativo) • densidad léxica por categorías

  23. Comparación de frecuencias

  24. Comparación de frecuencias El PaísClarín palabra posición posición Pinochet10 11 Chile 22 30 dictador 23 21 -- verbos afirmó162 murió63 dijo70 pidió155

  25. Uso de comodines (wildcards) Ejemplos dict*: palabras que empiezan por dict (dictador, dictadura, dictatorial) hijo+: hijo o hijo seguido de (sólo) un carácter (hijos) hij?: hij seguido de cualquier carácter (sólo uno) (hijo, hija) la@muerte: sintagma en el cual puede haber o no una palabra intercalada (la muerte, la súbita muerte) la#de Pinochet: sintagma en el cual se puede intercalar culaquier palabra (la muerte de Pinochet, la dictadura de Pinochet, la familia de Pinochet) dictador|senador: buscamos las apariciones de cualquiera de las dos palabras (NO de ambas a la vez)

  26. Concordancias Una concordancia permite ver la palabra o secuencia buscada dentro de su contexto (una línea de pantalla de ordenador o el número de caracteres definido por el usuario). Los resultados pueden ordenarse según distintos criterios: • orden de aparición en el corpus • por las palabras anteriores a la palabra clave • por las palabras posteriores a la palabra clave • gráficos de distribución de la palabra clave a lo largo del texto

  27. Ejemplo de concordancia

  28. Ejemplo de concordancia (2)

  29. Clusters Esta función nos permite buscar series de palabras de una extensión establecida por el usuario que se repitan n veces. La búsqueda puede realizarse según dos criterios: • a partir de una palabra • por el número de palabras que deba contener la secuencia (n-gramas)

  30. Ejemplo de cluster

  31. Ejemplo de cluster (2)

  32. Ejemplo de n-grama

  33. Collocates Nos permite buscar las palabras relacionadas con una palabra determinada dentro del contexto de distancia entre ellas que se establezca.

More Related