1 / 47

Taaltheorie en Taalverwerking Week 4: Parseer-algoritmes

Taaltheorie en Taalverwerking Week 4: Parseer-algoritmes. Gegeven: Sequentie woorden en CFG. Gevraagd: Wat zijn de structuren van deze sequentie volgens de CFG?. Parseer-algoritmes voor CFG's. Parsing as search. (1) Top-down: Toestandsruimte: Alle mogelijke bomen

Download Presentation

Taaltheorie en Taalverwerking Week 4: Parseer-algoritmes

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Taaltheorie en Taalverwerking Week 4: Parseer-algoritmes

  2. Gegeven: Sequentie woorden en CFG. Gevraagd: Wat zijn de structuren van deze sequentie volgens de CFG? Parseer-algoritmes voor CFG's

  3. Parsing as search. (1) Top-down: Toestandsruimte: Alle mogelijke bomen Doel: Boom past op string (2) Bottom-up: Toestandsruimte: Partiële analyses van de string Doel: Analyse is compleet Parseer-algoritmes

  4. Top-down search space

  5. Bottom-up search space Book that flight Book that flight Book that flight Book that flight Book that flight Book that flight Book that flight Book that flight

  6. "Naïef top-down-algoritme": Toestandsruimte: Alle mogelijke bomen Doel: Boom past op string Initialisering van de toestandenverzameling: {S} Uitbreiding van de toestanden-verzameling (“successor-functie”): Expandeer een non-terminale knoop m.b.v. een grammatica-regel Goal-test: Is de yield van een van de bomen de gewenste string?

  7. S S  NP VP

  8. S NP VP

  9. S  NP VP NP  article noun S NP VP article noun

  10. S  NP VP NP  article noun S NP VP article the noun

  11. S  NP VP NP  article noun S NP VP article the noun wumpus

  12. S NP VP VP article the noun wumpus verb is adjective dead

  13. "Naief" top-down: generate and test. "Redelijk" top-down: Toestand: analyse van linkerdeel v.d. zin + current node + volgende woord Testen kan nu incrementeel.

  14. Martin & Jurafsky (pp. 364-368): "A Basic Top-Down Parser." search state: partial tree + active node. input string + active word. agenda: Stack of search states. cs: current state generatie van nieuwe search-states door: apply-rules apply-lexical-rule

  15. toestand (cs) S ( NP VP , ) wumpus is dead article the noun current input (cip) node to expand (nte)

  16. apply-rules (cs) Voorbeeld: Actieve knoop: NP. Toepasbare regel:NP  article noun S S NP NP VP VP noun article the wumpus is dead the wumpus is dead

  17. apply-lexical-rule (cs) Voorbeeld: Actieve knoop: article. Actief woord: the. Toepasbare lexicale regel: article the S S NP VP NP VP article the noun article the noun wumpus is dead wumpus is dead

  18. agenda := [ (S, word1 word2 . . . wordn )] cs := pop (agenda) loop if success (cs) then return (cs) else if cat (nte(cs))  POS then if cat (nte(cs)) = pos (cip (cs)) then push (apply-lexical-rule(cs), agenda) else push (apply-rules (cs), agenda); if empty(agenda) then return (reject) else cs := pop (agenda) end Martin & Jurafsky (pp. 364-368):"A Basic Top-Down Parser."

  19. Intialisatie: cs = ( S, Book that flight)agenda = [ ]

  20. Intialisatie: cs = ( S, Book that flight)agenda = [ ]

  21. pop:

  22. Na een aantal pop's: cs = ( , Book that flight) NP V Nu is “apply-lexical-rule” toepasbaar.

  23. En zo verder.

  24. Huiswerk: Implementeer top-down parser

  25. Probleem bij top-down parseren: links-recursie.

  26. Probleem bij top-down parseren: links-recursie. B.v.: regels van de vorm: A  A B.

  27. Links-recursie in het Nederlands. • N  N PP • ("kat", "kat op de mat") • VP  VP PP • ("slaapt", "slaapt tot 10 uur") • S  S en S • ("Kim slaapt", "Kim slaapt en Sandy werkt") • NP  det NP • det  NP 's • ("Peter", "Peter's huis")

  28. Links-recursie verwijderen • De regels: • N  N PP | man | vrouw | huis | tafel | . . . • PP  Prep NP • Worden vervangen door: • N  N-lex PP* • N-lex  man | vrouw | huis | tafel | . . . • PP*  PP PP* • PP*  • PP  Prep NP

  29. Nadeel: • Veranderde grammatica leidt tot andere boom-structuren! (Post-processing noodzakelijk.) • Veranderde grammatica heeft (veel) meer regels

  30. Lijkt de menselijke grammatica op een CFG?

  31. Lijkt de menselijke grammatica op een CFG? (1) Nee. Nederlands kan niet met een CFG beschreven worden: Cross-serial dependencies.

  32. Lijkt de menselijke grammatica op een CFG? (2) Nee. CFG genereert zinnen die voor een mens moeilijk zijn: "center-embedding".

  33. J&M § 13.4: Center-embedding. "The dog chased the cat that likes tuna fish" "The cat the dog chased likes tuna fish."

  34. J&M § 13.4: Center-embedding. "The dog chased the cat that likes tuna fish" "The cat the dog chased likes tuna fish." "The cat [the dog chased] " NP  NP S' S'  NP V2 NP  NP NP V2 “center-embedding”

  35. J&M § 13.4: Center-embedding. "The dog chased the cat that likes tuna fish" "The cat the dog chased likes tuna fish." "The elephant admired the rat that bit the dog that chased the cat that likes tuna fish."

  36. J&M § 13.4:Center-embedding. "The dog chased the cat that likes tuna fish" "The cat the dog chased likes tuna fish." "The elephant admired the rat that bit the dog that chased the cat that likes tuna fish." "The cat the dog the rat the elephant admired bit chased likes tuna fish."

  37. J&M § 13.4:Center-embedding. "The cat the dog the rat the elephant admired bit chased likes tuna fish." Regels van de vorm NP  NP NP V2 kunnen de facto niet recursief toegepast worden. Verklaring: beperkte stack-diepte. Victor Yngve: Engels is wel een reguliere taal!

  38. Chomsky-hierarchy revisited. Cross-serial dependencies.

  39. J&M § 13.3: Cross-serial dependencies. Nederlands & Züüritüütsch.

  40. J&M § 13.3: Cross-serial dependencies. Engels: "... that we let the children help Hans paint the house." "... that [we let [the children help [Hans paint the house]]]."

  41. J&M § 13.3: Cross-serial dependencies. Duits: "... dass wir die Kinder Hans das Haus anstreichen helfen liessen." "... dass [wir [die Kinder [Hans das Haus anstreichen] helfen] liessen]."

  42. J&M § 13.3: Cross-serial dependencies. Nederlands: "... dat we de kinderen Hans het huis lieten helpen verven." "... dat we de kinderen Hans het huis lieten helpen verven."

  43. J&M § 13.3: Cross-serial dependencies. Engels: "... that [we let [the children help [Hans paint the house]]]." Duits: "... dass [wir [die Kinder [Hans das Haus anstreichen] helfen] liessen]." Nederlands: "... dat we de kinderen Hans het huis lieten helpen verven."

  44. J&M § 13.3: Cross-serial dependencies. Nederlands: "... dat we de kinderen Hans het huis lieten helpen verven." Kan niet contextvrij. (Bewijs m.b.v. Pompstelling voor conetxtvrije grammatica's.)

More Related