1 / 52

Elaborazione del linguaggio naturale

Elaborazione del linguaggio naturale. Fabio Massimo Zanzotto. Part seven. Modular and Robust parsing. Our Aim. Lines of development Grammatical Representation Power: CFG (context free grammars)  DCG Feature Structures Tree Adjoining Grammars (TAG) Grammar Use: CYK

steve
Download Presentation

Elaborazione del linguaggio naturale

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Elaborazione del linguaggio naturale Fabio Massimo Zanzotto FMZ

  2. Part seven Modular and Robust parsing FMZ

  3. Our Aim Lines of development Grammatical Representation Power: • CFG (context free grammars)  DCG • Feature Structures • Tree Adjoining Grammars (TAG) Grammar Use: • CYK • Chart and Early Algorithm FMZ

  4. Lesson learnt • Lexicon (i.e. words) is a very important piece of the Language and of the language model • Words carry meaning and govern the syntactic structure of sentences FMZ

  5. Limits of the previous approaches • When parsing or: • one interpretation is active at each processing step (for example, DCG in Prolog) • all interpretations are active (for example, CYK or Chart Parsing) • Processing complexity depends on the number of active interpretation FMZ

  6. Art Prn ... mangia ... Observation Question: is it possible to fix some ambiguity in early step of the analysis? la FMZ

  7. P1 P1 Pn Pn … Decomposizione del processo • Processori Pi che si occupano di specifici fenomeni accoppiati con una possibile funzione di disambiguazione basata su informazioni locali FMZ

  8. Decomposizione del processo • Ricerca di obbiettivi (o rappresentazioni) intermedi raggiungibili (e utili) • Criteri psicolinguistici • Requisiti computazionali • Esigenze applicative • È possibile trovare soluzioni approssimate per problemi più semplici? FMZ

  9. Decomposizione del processo L'industria giapponese dei robot, una delle poche a non risentire della grave crisi economica, ha sfornato una versione perfezionata del robot umanoide "Db", fatto nascere due anni fa in un laboratorio vicino a Kyoto. FMZ

  10. Decomposizione del processo • Esiste un livello di aggregazione nel testo che si pone tra parole e frasi. • Gli aggregati non si sovrappongono (i.e. non sono “ricorsivi”) FMZ

  11. Chunking: esempio di stratificazione di un albero S VP NP NP VP NP PP NP AdjP NP AdjP NP A N Adj V V A N Adj PA N Adj N L’ industria giapponese ha sfornato una versione perfezionata del robot umanoide "Db”. FMZ

  12. Chunking: esempio di stratificazione di un albero S VP NP AdjP NP VP PP NP AdjP NP NP A N Adj V V A N Adj PA N Adj N L’ industria giapponese ha sfornato una versione perfezionata del robot umanoide "Db”. FMZ

  13. Chunking: esempio di stratificazione di un albero S VP NP VP NP PP NP AdjP NP AdjP NP A N Adj V V A N Adj PA N Adj N L’ industria giapponese ha sfornato una versione perfezionata del robot umanoide "Db”. FMZ

  14. Chunking: esempio di stratificazione di un albero NP VP PP NP AdjP NP NP A N Adj V V A N Adj PA N Adj N L’ industria giapponese ha sfornato una versione perfezionata del robot umanoide "Db”. FMZ

  15. Decomposizione del processo • Chunk: • livello intermedio di rappresentazione • giustificato psico-linguisticamente (Abney, 1991) • Definizione (intuitiva) di chunk: Sequenza di parole • fortemente connessa • con un unico portatore di significato • costante alle differenti interpretazioni FMZ

  16. Decomposizione del processo • LESSICALIZZAZIONE: Controllo dell’ambiguità • verbi controllano semantica delle proposizioni • quindi controllano le relazioni sintattiche I medici operano un paziente al femore : aveva 105 anni. FMZ

  17. Decomposizione del processo • Controllo dell’ambiguità • verbi controllano semantica delle proposizioni • quindi controllano le relazioni sintattiche SUBJoperareOBJPP(a) I medici operano un paziente al femore : aveva 105 anni. FMZ

  18. Definizione di chunk • Bottom-up: Una sequenza di parole che rappresenta il nucleo non ricorsivo di sintagmi nominali, preposizionali, verbali ed aggettivali • Top-down: Una sequenza di parole le cui relazioni non sono influenzate dal comportamento dei verbi FMZ

  19. Chunk sono riconoscibili con automi a stati finiti Chunk: osservazioni Chunk nuclei “non ricorsivi”* di sintagmi particolari * “non ricorsivi” = ricorsivi destri che non rimandano a sintagmi superiori FMZ

  20. Chunking: prototipi Prototipo: • regola per catturare chunk • esprimibile utilizzando informazione di POS tags tramite • espressioni regolari/trasduttori (Fastus, Alembic, Chanod&Ait) • marker iniziale e finale (ACL, 2001) FMZ

  21. Chunking: prototipi Esempi di espressioni regolari: NPK: Art N | Art A N VPK: V | V V PPK: P Art N | P Art A N FMZ

  22. Chunking: prototipi Esempi di marker iniziale e finale: NPK: MI: Art MF: N VPK: MI: V MF: V PPK: MI: P MF: N FMZ

  23. Chunking: considerazioni • Identificazione e classificazione: • possibile nel livello sintattico • risolvibile con macchinari semplici (i.e. FSA) • La grammatica (ovvero i prototipi) • indipendente dal dominio di applicazione • Domanda: Qualora fosse la sola informazione estratta, sarebbe utile per una qualche applicazione? FMZ

  24. Prerequisiti • Chunking • Part-of-speech tagging • Riconoscimento dei legami verbali: • Individuazione dei limiti delle proposizioni (clause boundary recognition) FMZ

  25. NNS TO VB IN NNS PRP MD VB Strategies to use with questions you cannot answer Part-of-speech tagging • Definizione del problema w1…wn t1…tn FMZ

  26. Part-of-speech tagging • Origini (1989) sotto la spinta dell’Information Extraction alla Message Understanding Conference • Approcci • approcci simbolici (regole trasformazionali, Brill 94) • approcci statistici (a seguire) FMZ

  27. POS Tagging basato sulle trasformazioni (Brill, 94) Dato un primo tagging (dizionario con tag più frequenti), applicare regole di trasformazione fino a che l’errore non diminuisca sotto una soglia FMZ

  28. NNS TO VB IN NNS PRP MD VB TO NN Strategies to use with questions you cannot answer NNS TO NN VB IN NNS PRP MD VB Strategies to use with questions you cannot answer Trasformazioni • Regole di riscrittura t1  t2 se <condizione nello spazio circostante (triggering environment)> • Esempio NN  VB se il tag precedente è TO FMZ

  29. Trasformazioni: Schemi dei triggering environments ti ti-3 ti-2 ti-1 ti+1 ti+2 ti+3 * * * * * * * * * FMZ

  30. Trasformazioni: algoritmo di apprendimento • Quali trasformazioni? • Quale ordine di applicazione? FMZ

  31. Trasformazioni: algoritmo di apprendimento C0:= Corpus con tag più frequenti fork:=0 step 1 do v:= trasformazione n che minimizza E(n(Ck)) if (E(Ck) - E(n(Ck))) < ethen break Ck+1 :=v(Ck) tk+1:= v end OUTPUT: sequenza t1, …, tk FMZ

  32. POS Tagging basato sulle trasformazioni • Tagging delle parole sconosciute basato sulla morfologia • Tutte le parole sconosciute vengono taggate con NN • Il tag viene cambiato seguendo alcune regole trasformazionali morfologiche Es: NN NNS la parola termina con -s FMZ

  33. POS Tagging basato sulle trasformazioni Qualità dell’attività di POS Tagging dipende: • dall’insieme dei tag obbiettivo • dalla possibilità di recuperare informazione disambiguante nei contesti di attivazione Es.: chein italiano (pronome/congiuzione) • dal materiale di apprendimento FMZ

  34. ( ) ( ( ) ) Clause boundary recognition • Definizione del problema L'industria giapponese dei robot, una delle poche a non risentire della grave crisi economica , ha sfornato una versione perfezionata del robot umanoide "Db", fatto nascere due anni fa in un laboratorio vicino a Kyoto. FMZ

  35. Clause boundary recognition • Proposizioni sono utili per: • Conversione Text-to-speech • Allineamento di testi • Traduzione automatica • Particolarità • Ricorsività non presente nei chunks FMZ

  36. Inf(S1) Inf(S2) Clause boundary recognition contribute-NP-PP(to) value-NP-PP(at) [ Mr. Gaubert] [contributed] [real estate] [valued] [ at $ 25 million] [to the assets] [of Independent American] FMZ

  37. Clause boundary recognition contribute-NP-PP(to) value-NP-PP(at) Inf(S1) Inf(S2) [ Mr. Gaubert] [contributed] [real estate] [valued] [ at $ 25 million] [to the assets] [of Independent American] FMZ

  38. Clause boundary recognition contribute-NP-PP(to) value-NP-PP(at) Inf(S1) Inf(S2) [ Mr. Gaubert] [contributed] [real estate] [valued] [ at $ 25 million] [to the assets] [of Independent American] FMZ

  39. Clause boundary recognition • Algoritmo: • Ipotesi iniziale di • minima estensione delle proposizioni • gerarchia derivata • Finché ci sono verbi da analizzare (da destra verso sinistra): • Riconoscere il legami verbali • Espandere l’estensione minima della proposizione FMZ

  40. Controllo del processo • Passi analisi: • POS Tagging • Chunking • Clause Boundary Recognition • Verb Argument Detection FMZ

  41. P1 P1 Pn Pn … … Controllo del processo • Situazione problematica: necessità di definire i tipi di dati trattati FMZ

  42. P1 … Giudice Pn Controllo del processo • Situazione problematica: necessità di definire i tipi di dati trattati FMZ

  43. Formalismo di rappresentazione Requisiti: • Rappresentazione di analisi parziali • Rappresentazione di legami distanti • Information hiding • rendere disponibile la sola informazione necessaria … • ma capace di esprimere tutti i vincoli correnti FMZ

  44. Formalismo di rappresentazione • Rappresentazione a costituenti • Context-free Grammar (Tree) • Well Formed Substring Table (WFST): chart • Tree-Adjoint Grammar (TAG) • Rappresentazione a dipendenze • Link Grammar • Rappresentazione miste • Extended Dependency Graph (XDG) FMZ

  45. XDG: eXtended Dependency Graph • an XDG is a graph: XDG=(constituents,dependencies) Nice property: allow to store persistent ambiguity (for interpretations projected by the same nodes) • Each constituent has: • a potential governor • a grammatical head FMZ

  46. Modular approach • Syntactic parser SP(S,K)=I  SP(S)=I • Syntactic parsing module: Pi(Si,Ki)=Si+1 Pi(Si)=Si+1 • Modular syntactic parser SP = Pn... P2P1 FMZ

  47. Classification of parsing modules Pi(XDGi,Ki)=Pi(XDGi)=XDGi+1 • The classification is performed according to: • the type of information K used • how they manipulate the sentence representation FMZ

  48. Decomposizione del processo Principi: • Scegliere i fenomeni trattati in ogni livello • Scegliere l’algoritmo migliore per ogni task • Scegliere un opportuno formalismo di rappresentazione FMZ

  49. Back to the beginning... x Marinaio (x).( y Ragazza(y)  Ama (x, y))  y Ragazza(y).(x Marinaio (x)  Ama (x, y)) conosenza simbolica incerta ? abilità linguistica conosenza simbolica apprendimento “Tutti i marinai amano una ragazza” FMZ

  50. Interpreting Language Through Syntax Assunzione di Chomsky: i differenti significati hanno differenti strutture sintattiche “profonde” Esempio: Luigina ha chiesto in prestito la borsetta di pelle di nonna. Possibili Costruzioni Sintattiche in alberi: ...(la borsetta di (pelle di nonna)) ...(la (borsetta di pelle) di nonna) FMZ

More Related