400 likes | 618 Views
Introducción al PLN 1. Presentación del curso Ingeniería lingüística Tareas Recursos Aplicaciones Niveles de procesamiento lingüístico. Del PLN a la Ingenier í a Ling üí stica.
E N D
Introducción al PLN 1 • Presentación del curso • Ingeniería lingüística • Tareas • Recursos • Aplicaciones • Niveles de procesamiento lingüístico
Del PLN a la Ingeniería Lingüística • La Ingeniería Lingüística es la aplicación del conocimiento de la lengua al desarrollo de sistemas informáticos capaces de reconocer, comprender, interpretar y generar lenguaje humano en todas sus formas. • La IL comprende: • Métodos, Técnicas y Herramientas • Recursos (Lingware) • Aplicaciones
Componentes de la Tecnología TEXTO VOZ IMAGEN RECURSOS LINGÜÍSTICOS ENTRADA Reconocer y Validar Analizar y Comprender Aplicar Generar TEXTO VOZ IMAGEN SALIDA
Técnicas utilizadas • Identificación del hablante. Verificación • Reconocimiento del habla • Reconocimiento de caracteres e imágenes • Comprensión de la lengua • Generación de lenguaje • Sistemas basados en diálogos • Síntesis del habla
Identificación del hablante. Verificación • Problemas: • Hablante desconocido • Ruido (en el entorno o en el medio de transmisión) • Cambios temporales en el hablante
Reconocimiento del habla • Discurso discreto vs continuo • Adquisición y uso de modelos estadísticos de los fonemas y palabras • Reconocimiento de cualquier locutor (sin necesidad de entrenamiento) • Ruido • Acento, dialectos, agramaticalidades
Reconocimiento de caracteres e imágenes • Reconocimiento de caracteres impresos (OCR) • tipo de letra desconocido • mala calidad del texto • Reconocimiento de texto escrito a mano (ICR) • Reconocimiento de imágenes • Análisis del documento. • Separación en gráficos, texto, fotografías • Análisis del texto: títulos, encabezados, párrafos, etc...
Comprensión de la lengua • Comprensión completa o parcial • Análisis incremental: • Análisis parcial y/o superficial • localización de focos de interés • Análisis más detallados de dichos focos • Técnicas lingüísticas, estadísticas e híbridas • Modelos semánticos • Palabras desconocidas
Generación de lenguaje • Representación semántica del texto • Qué decir y Cómo decirlo (what to say, how to say) • Planificación del contenido y de la forma • Elementos retóricos
Sistemas basados en diálogos • Alto nivel de comprensión • Calidad del diálogo • Detección del contenido ilocutivo de las intervenciones del interlocutor humano • Acciones primitivas locutivas y no locutivas • comunicaciones, órdenes, peticiones, preguntas, etc... • Actos de habla directos e indirectos
Síntesis del habla • Contenido • Forma: intensidad, entonación, duración • Generación a partir de piezas pregrabadas. Concatenación
Recursos • Lexicones generales • Diccionarios • Lexicones especializados • Ontologías • Gramáticas • Corpus textuales • Internet como fuente de información
Lexicones generales • Repositorios de palabras • lemarios, formarios, listas de palabras, ... • Conocimiento sobre las palabras • Fonología • Morfología: categoría, concordancia.. • Sintaxis: categoría, subcategorización, estructura argumental, valencia, patrones de co-occurrencia... • Semántica: clase semántica,restricciones selectivas... • Pragmática: uso, registro, dominio, ...
Diccionarios • MRDs • tipos: generales, normativos, de uso, de aprendizaje, mono/bilingües... • tamaño, contenido, organización • entrada, acepción, relaciones, ... • Bases de datos léxicas • ej. Acquilex LDB • Otras fuentes: enciclopedias, tesauros,...
Lexicones especializados • Nombres propios • Bases de datos terminológicas • Gazetteers • Diccionarios de locuciones, lexías,... • Wordnets • Siglas, jergas • Detectores de fechas, números, fórmulas,...
Ejemplo: relaciones morfoléxicas. U. Las Palmas (O. Santana)
Ejemplo: utilización de Gazetteers en sistemas de Q&A • Multitext (U.Waterloo) • Clarke et al, 2001, 2002 • Structured data • biographies (25,000), Trivial Q&A (330,000), Country locations (800), acronyms (112,000), cities (21,000), animals (500), previous TREC Q&A (1393), ... • 1 Tb of Web data • Altavista • AskMSR (Microsoft) • Brill, 2002
Gramáticas • Gramáticas morfológicas • Gramáticas sintácticas • Gramáticas de constituyentes • Gramáticas de dependencias • Gramáticas de casos • Gramáticas Transformacionales • Gramáticas sistémicas • Gramáticas sintagmáticas vs de unificación • Gramáticas probabilísticas • Cobertura, lengua, categorías
Ontologías • Ontologías léxicas vs conceptuales • Ontologías generales vs de dominio • Ontologías de tareas, metaontologías • Contenido, granularidad, relaciones • Interlinguas: KIF, PIF • CYC, Frame-Ontology, WordNet, EuroWordNet, GUM, MikroKosmos
Corpus 1 • Textuales vs orales • Gran tamaño (1Mw - 1Gw) • Poco (o nada) estructurados • Información no disponible en forma más tratable: • colocaciones, estructura argumental, contexto de aparición, inducción gramatical, relaciones léxicas, restricciones selectivas, lexías, ejemplos de utilización,...
Corpus 2 • Corpus anotados (tagged) • categoría gramatical (pos tagging) posible o desambiguada • lema • acepción (granularidad) • parentizados • analizados sintácticamente (profundidad) • alineados • Corpus equilibrados, piramidales, oportunistas
Corpus 3 ejemplos • Brown Corpus • ACL/DCI (Wall Street Journal, Hansard, ...) • ACL/ECI (European Corpus Initiative) • USA-LDC (Linguistic Data Consortium) • LOB (ICAME, International Computer Archive of Modern English) • BNC (British National Corpus) • SEC (Lancaster Spoken English Corpus) • TOSCA • Collins-Cobuild • PAROLE • IBM/Lancaster treebank • Penn Treebank • Susanne • SemCor • Trésor de la Langue Française (TLF)
Corpus 4 ejemplos • Instituto Cervantes. Observatorio Español de Industrias de la Lengua "http://www.cervantes.es/oeil/Oeil0.htm • CREA, recopilado por la RAE. 200 Mw. etiquetado y lematizado • CRATER, (esp, ing, fran), U.A.Madrid. 5.5Mw. alineado, anotado morfosintácticamente • ALBAYZIN. Corpus oral, frases aisladas, consultas a BD geográfica. UPC (TSC), UGr, UPMad, UPVal, UABar • LEXESP, 5Mw, anotado morfosintácticamente, lematizado, UBar, UPC • IEC en el marco del DCC (catalán)
Internet como fuente de información 1 • Fuente ingente de información • 1000 Millones de páginas, decenas de Tb, • expansión (doble en 2 años) • (Cho, 2002) • Heterogénea • contenido, lengua (70% inglés), formatos • Servidores de información general • (Medialinks) • 14.000 servidores (5000 periódicos, 70 en España)
Internet como fuente de información 2 • Internet hoy • documentos HTML • dirigidos al consumo (visualización) humano • muchos generados automáticamente por aplicaciones • acceso a través de • URLs conocidas • buscadores (o metabuscadores) de propósito general • buscadores específicos de una URL determinada • Limitaciones • dificultad de consumir (por las aplicaciones) texto marcado (generalmente mal) HTML • dificultad de construcción (y mantenimiento!) de los wrappers
Internet como fuente de información 3 • Tareas relacionadas con la gestión de información en Internet • Modelado y consulta a la Web • Localización de páginas potencialmente útiles • Consulta a fuentes heterogéneas • Question Answering • Extracción de Información • Integración de Información • Construcción (y reestructuración) de Web sites • Agentes (crawlers, spiders, softbots, infobots ...)
Internet como fuente de información 4 • Fuentes de información en la Web • Estructuradas • Bases de datos • Semi-estructuradas • Exhiben cierta regularidad • No suelen emplear LN no restringido • Elementos extraños que pueden ayudar (marcas HTML, XML) o confundir (applets, propaganda, ...) • Una alta proporción de recursos actuales en Internet son fuentes semi-estructuradas => útiles • Semantic Web • Libres • texto no restringido
Recursos: Repositorios y otras iniciativas 1 • ELRA (European Language Resources Association) • http://www.icp.grenet.fr/ELRA/home.html • LDC (Linguistic Data Consortium) • http://www.ldc.upenn.edu/ • Eagles (Expert Advisory Group on Language Engineering Standards) • http://www.ilc.pi.cnr.it/EAGLES/home.html • TEI (Text Encoding Initiative) • http://www.tei-c.org/ • ELSNET (European Network in Language and Speech) • http://www.elsnet.org/
Recursos: Repositorios y otras iniciativas 2 • ACL NLP/CL Universe • http://www.summarization.com/~radev/u/db/acl/ • ACL- DCI Data Collection Initiative • The NLP/CL Universe, a publicly extensible indexed compilation of Web resources related to computational linguistics. • Multext (Multilingual Text Tools and Corpora) • http://www.lpl.univ-aix.fr/projects/multext/ • CLR (Consortium for Lexical Resources) • EDR
Aplicaciones 1 • Aplicaciones genéricas • (ayuda a la) traducción automática • gestión de la información (multilingüe) • authoring (multilingüe) • interfaz persona/máquina (multilingüe, multimodal) • Obtención de recursos • Aplicaciones específicas
Aplicaciones 2 • traducción automática • TA con intervención humana, • TH. asistida • entornos de ayuda a la TH • Adquisición automática de recursos para la TA (corpus alineados, modelos de traducción, memorias de traducción, ...)
Aplicaciones 3 • gestión de la información • productores de resúmenes, • indiciadores, • {recuperación, extracción, formateo, filtrado, encaminado} de información, • minería de información textual, • buscadores conceptuales, • alineadores de textos, • “guessers” • sistemas de búsqueda de la respuesta
Aplicaciones 4 • “authoring” • correctores léxicos, gramaticales, estilísticos, • consulta online de diccionarios, tesauros, ontologías, • facilidades para la estructuración e integración de documentos • interfaz persona/máquina (multilingüe, multimodal)
Aplicaciones 5 • Obtención de recursos lingüísticos • corpus alineados • gramáticas • gazetteers • morfología • restricciones de selección • patrones de subcategorización • Topic Signatures • ...
Aplicaciones 4 • gestión de la información • productores de resúmenes, indiciadores, {recuperación, extracción, formateo, filtrado, encaminado} de información, buscadores conceptuales, alineadores de textos, “guessers” • “authoring” • correctores léxicos, gramaticales, estilísticos, consulta online de diccionarios, tesauros, ontologías, facilidades para la estructuración e integración de documentos • interfaz persona/máquina (multilingüe, multimodal)
La ingeniería lingüística en Europa • planes nacionales de investigación y desarrollo tecnológico • 5º Programa Marco de I+D de la Unión Europea (1998-2002) • 9 áreas científico-tecnológicas • área de las Tecnologías de la Información y las Comunicaciones • 12 áreas sectoriales • área de la Sociedad de la Información • 6ºPrograma Marco (2004-2008)
Los programas marco de la UE • Ingeniería Lingüística • Dirección General XIII • Human Language Technologies • Programas concretos • ESPRIT (Information Technologies) • LRE (Linguistic Research Engineering) • MLIS (Multilingual Information Society) • INCO (International Cooperation) • LE (Language Engineering) • HLT (Human Language Technologies).
La investigación española en ingeniería lingüística • Investigación de grupos españoles vs investigación sobre la lengua española • Técnicas independientes de la lengua • Mecanismos de evaluación para el inglés • Otras lenguas • Otros grupos europeos • Grupos americanos
Cuántos grupos • Unos 30 grupos • SEPLN (1997) • I.Cervantes • Almansa et al, 1998 • Llisterri, Garrido, 1998 • 75% en Universidades y C. Investigación • Equilibrio texto/habla/recursos • Áreas, aplicaciones • Especial interés en Recursos