1 / 24

Fonaments de Processament del Llenguatge Natural

Fonaments de Processament del Llenguatge Natural. Aprofitem la lectura. Processament del Llenguatge Natural. Processar es reconèixer elements i assignar-los una representació per tal de poder manipular-los i prendre decisions. Representació és informació explícita sobre l’ítem lingüístic

Download Presentation

Fonaments de Processament del Llenguatge Natural

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Fonaments de Processament del Llenguatge Natural • Aprofitem la lectura

  2. Processament del Llenguatge Natural • Processar es reconèixer elements i assignar-los una representació per tal de poder manipular-los i prendre decisions. • Representació és informació explícita sobre l’ítem lingüístic • I és necessària perquè: • els ítems lingüístics no tenen una única interpretació. El sistema lingüístic està fonamentat en un principi d’economia: pocs elements poden fer diferents funcions i es produeix ambigüitat • el sistema lingüístic és productiu: mai no podríem tenir un inventari de tots els ítems lingüístics

  3. Ambigüitat • Abono N (masc. singular) • materia fertilizante • lote de entradas • acción de abonarse ... • Abono V (1ª p. sing. presente de indicativo) • yo abono las plantas • yo abono el dinero en cuenta • No hay abono para el campo del Barça

  4. Productivitat • Alfabet finit {algunes, oracions, creixen, i} + sintaxi • Produïm un nombre infinit d’expressions legals • Algunes oracions creixen • Algunes oracions creixen i creixen • Algunes oracions creixen i creixen i creixen • Algunes oracions creixen i creixen i creixen i creixen i creixen i creixen i creixen ...

  5. Tema 1 • Introducció • Breu història del processament del llenguatge natural • Objectius i àmbits d’aplicació

  6. Història • Warren Weaver • Matemàtic i criptògraf

  7. Codificació de missatges Weaver 1949 • Compara la traducció amb la criptografia Text LO Text LA De-codificar Codificar Codi comú a totes les llengües

  8. Traducció Automàtica: anys 50 • L’aplicació als textos científics, amb termes ben definits i amb equivalències unívoques, podien ser el camp d’aplicació ideal per a la traducció automàtica. • Sistemes que van rebre suport gràcies al moment polític: • El 1954 es fa a la Universitat de Georgetown la primera demostració pública d’un sistema de traducció automàtica creat per a IBM. El IBM 701 traduïa 49 frases seleccionades amb un diccionari de 250 mots y 6 regles que re-ordenaven les paraules traduïdes una a una d’acord amb la sintaxis anglesa.

  9. De la idea de Weaver a la pràctica .... • Era evident la dificultat de trobar aquest codi comú, i especialment com descodificar el missatge lingüístic en una única representació • Els primers intents van ser traduir paraula per paraula i re-ordenar la sortida. • Hi havia altres limitacions: les màquines ....

  10. Ordinadors (1950)

  11. 1950-1960 1949 Shannon, C.L. i W. Weaver publiquen “The mathematical Theory of Communication”. El llenguatge vist com un procés probabilístic: amb un autòmat d’estats finits podem calcular les probabilitats de co-aparició de les paraules i podem generar cadenes de paraules a partir de la probabilitat que tenia d’aparèixer amb la paraula anterior i la posterior, per exemple. 1959 Z. Harris, que treballava amb Bar-Hillel en Traducció Automàtica publicava “Computable Syntactic Analisis” i proposava la creació de gramàtiques com a teories axiomàtiques de les probabilitats d’aparició de determinades categories en determinats contextos.

  12. Història • Enfocament simbòlic: coneixement codificat i inferència lògica (matemàtica) • Enfocament quantitatiu: usar tècniques estadístiques per predir.

  13. 1960-1979 • Representació del coneixement • Desenvolupament d’interfícies en llenguatge natural • quin coneixement es necessita per respondre preguntes? • SHRLU Winograd (1972)** • LUNAR Woods (1973) • ELIZA Weizenbaum (1976)

  14. Els ordinadors de 1970

  15. 1980-1990 • Desenvolupament de gramàtiques lliures de context que poguessin donar les estructures sintàctiques de les frases i així computar representacions semàntiques. • L’aparició de llenguatges d’alt nivell, l’aparició de formalismes adreçats al processament i una millora en el tècniques de processament: Unificació, Prolog i Lisp. • Augment d’eficiència dels ordinadors

  16. Els anys 80 • Apple treu el primer ordinador de sobretaula

  17. 1990 – 200? • Recursos lingüístics • El paradigma quantitatiu comença a tenir èxit de la mà de les capacitats d’emmagatzemament de dades i eficiència de processament • reconeixement de la parla • cerca d’informació a internet

  18. Història – Resum • Enfocament simbòlic: coneixement codificat i inferència lògica (matemàtica) • Enfocament quantitatiu: usar tècniques estadístiques per predir.

  19. Els principis ... • Autòmats: • Turing 1936 • McCulloch-Pitts neurona (1943) • Kleene (1951/1956) • Shannon (1948) autòmats i models de Markov • Chomsky (1956)/Backus (1959)/Naur(1960): CFG • Models probabilístics i teoria de la informació • Shannon (1948) • Bell Labs reconeixement de la parla (1952)

  20. Dels 70 als 80! • aproximació estocàstica • Hidden Markov Model 1972 • sistemes lògics • Colmerauer (1970,1975) Q-systems • Definite Clause Grammars (Pereira and Warren 1980) • Kay (1979) functional grammar, Bresnan and Kaplan (1982) unification • Natural language understanding • Winograd (1972) Shrdlu • Schank and Abelson (1977) scripts, story understanding • Influence of case-role work of Fillmore (1968) via Simmons (1973), Schank. • Discourse Modeling • Grosz and colleagues: discourse structure and focus • Perrault and Allen (1980) BDI model

  21. Objectius del PLN

  22. Aplicacions • Reconeixement i síntesi de la parla • Traducció automàtica i eines d’ajuda a la traducció • Eines lingüístiques: • correcció ortogràfica i gramatical • eines lexicogràfiques: concordances de corpus textuals • Interfícies en Llenguatge Natural: Diàlegs i sistemes pregunta-resposta • Processament de documents: • Recuperació i extracció d’informació • Classificació automàtica de documents • Producció de resums • Generació de text

  23. DEMOS • Interfícies i sistemes pregunta/resposta: • ELIZAhttp://www-ai.ijs.si/eliza-cgi-bin/eliza_script • http://www.artificial-solutions.com/ • http://www.ai.mit.edu/projects/infolab/ailab.html • Traducció automàtica • http://www.systransoft.com • http://www.translendium.com • http://www.reverso.net/ • Corrector gramatical: Microsoft-WORD http://www.daedalus.es/stilus/

More Related