240 likes | 337 Views
Fonaments de Processament del Llenguatge Natural. Aprofitem la lectura. Processament del Llenguatge Natural. Processar es reconèixer elements i assignar-los una representació per tal de poder manipular-los i prendre decisions. Representació és informació explícita sobre l’ítem lingüístic
E N D
Fonaments de Processament del Llenguatge Natural • Aprofitem la lectura
Processament del Llenguatge Natural • Processar es reconèixer elements i assignar-los una representació per tal de poder manipular-los i prendre decisions. • Representació és informació explícita sobre l’ítem lingüístic • I és necessària perquè: • els ítems lingüístics no tenen una única interpretació. El sistema lingüístic està fonamentat en un principi d’economia: pocs elements poden fer diferents funcions i es produeix ambigüitat • el sistema lingüístic és productiu: mai no podríem tenir un inventari de tots els ítems lingüístics
Ambigüitat • Abono N (masc. singular) • materia fertilizante • lote de entradas • acción de abonarse ... • Abono V (1ª p. sing. presente de indicativo) • yo abono las plantas • yo abono el dinero en cuenta • No hay abono para el campo del Barça
Productivitat • Alfabet finit {algunes, oracions, creixen, i} + sintaxi • Produïm un nombre infinit d’expressions legals • Algunes oracions creixen • Algunes oracions creixen i creixen • Algunes oracions creixen i creixen i creixen • Algunes oracions creixen i creixen i creixen i creixen i creixen i creixen i creixen ...
Tema 1 • Introducció • Breu història del processament del llenguatge natural • Objectius i àmbits d’aplicació
Història • Warren Weaver • Matemàtic i criptògraf
Codificació de missatges Weaver 1949 • Compara la traducció amb la criptografia Text LO Text LA De-codificar Codificar Codi comú a totes les llengües
Traducció Automàtica: anys 50 • L’aplicació als textos científics, amb termes ben definits i amb equivalències unívoques, podien ser el camp d’aplicació ideal per a la traducció automàtica. • Sistemes que van rebre suport gràcies al moment polític: • El 1954 es fa a la Universitat de Georgetown la primera demostració pública d’un sistema de traducció automàtica creat per a IBM. El IBM 701 traduïa 49 frases seleccionades amb un diccionari de 250 mots y 6 regles que re-ordenaven les paraules traduïdes una a una d’acord amb la sintaxis anglesa.
De la idea de Weaver a la pràctica .... • Era evident la dificultat de trobar aquest codi comú, i especialment com descodificar el missatge lingüístic en una única representació • Els primers intents van ser traduir paraula per paraula i re-ordenar la sortida. • Hi havia altres limitacions: les màquines ....
1950-1960 1949 Shannon, C.L. i W. Weaver publiquen “The mathematical Theory of Communication”. El llenguatge vist com un procés probabilístic: amb un autòmat d’estats finits podem calcular les probabilitats de co-aparició de les paraules i podem generar cadenes de paraules a partir de la probabilitat que tenia d’aparèixer amb la paraula anterior i la posterior, per exemple. 1959 Z. Harris, que treballava amb Bar-Hillel en Traducció Automàtica publicava “Computable Syntactic Analisis” i proposava la creació de gramàtiques com a teories axiomàtiques de les probabilitats d’aparició de determinades categories en determinats contextos.
Història • Enfocament simbòlic: coneixement codificat i inferència lògica (matemàtica) • Enfocament quantitatiu: usar tècniques estadístiques per predir.
1960-1979 • Representació del coneixement • Desenvolupament d’interfícies en llenguatge natural • quin coneixement es necessita per respondre preguntes? • SHRLU Winograd (1972)** • LUNAR Woods (1973) • ELIZA Weizenbaum (1976)
1980-1990 • Desenvolupament de gramàtiques lliures de context que poguessin donar les estructures sintàctiques de les frases i així computar representacions semàntiques. • L’aparició de llenguatges d’alt nivell, l’aparició de formalismes adreçats al processament i una millora en el tècniques de processament: Unificació, Prolog i Lisp. • Augment d’eficiència dels ordinadors
Els anys 80 • Apple treu el primer ordinador de sobretaula
1990 – 200? • Recursos lingüístics • El paradigma quantitatiu comença a tenir èxit de la mà de les capacitats d’emmagatzemament de dades i eficiència de processament • reconeixement de la parla • cerca d’informació a internet
Història – Resum • Enfocament simbòlic: coneixement codificat i inferència lògica (matemàtica) • Enfocament quantitatiu: usar tècniques estadístiques per predir.
Els principis ... • Autòmats: • Turing 1936 • McCulloch-Pitts neurona (1943) • Kleene (1951/1956) • Shannon (1948) autòmats i models de Markov • Chomsky (1956)/Backus (1959)/Naur(1960): CFG • Models probabilístics i teoria de la informació • Shannon (1948) • Bell Labs reconeixement de la parla (1952)
Dels 70 als 80! • aproximació estocàstica • Hidden Markov Model 1972 • sistemes lògics • Colmerauer (1970,1975) Q-systems • Definite Clause Grammars (Pereira and Warren 1980) • Kay (1979) functional grammar, Bresnan and Kaplan (1982) unification • Natural language understanding • Winograd (1972) Shrdlu • Schank and Abelson (1977) scripts, story understanding • Influence of case-role work of Fillmore (1968) via Simmons (1973), Schank. • Discourse Modeling • Grosz and colleagues: discourse structure and focus • Perrault and Allen (1980) BDI model
Aplicacions • Reconeixement i síntesi de la parla • Traducció automàtica i eines d’ajuda a la traducció • Eines lingüístiques: • correcció ortogràfica i gramatical • eines lexicogràfiques: concordances de corpus textuals • Interfícies en Llenguatge Natural: Diàlegs i sistemes pregunta-resposta • Processament de documents: • Recuperació i extracció d’informació • Classificació automàtica de documents • Producció de resums • Generació de text
DEMOS • Interfícies i sistemes pregunta/resposta: • ELIZAhttp://www-ai.ijs.si/eliza-cgi-bin/eliza_script • http://www.artificial-solutions.com/ • http://www.ai.mit.edu/projects/infolab/ailab.html • Traducció automàtica • http://www.systransoft.com • http://www.translendium.com • http://www.reverso.net/ • Corrector gramatical: Microsoft-WORD http://www.daedalus.es/stilus/