350 likes | 501 Views
Syntaxis 3. Grammaticale modellen. Inleiding. Wat we gezien hebben: Eindige automaten: fonologie, morfologie Regels: fonologie (n / Ə _ #) Herschrijfregels: syntaxis (S NP VP) Verplaatsingen: syntaxis (V2). Inleiding. Wat is de kracht van deze formele mechanismen?
E N D
Syntaxis 3 Grammaticale modellen
Inleiding • Wat we gezien hebben: • Eindige automaten: fonologie, morfologie • Regels: fonologie (n / Ə _ #) • Herschrijfregels: syntaxis (S NP VP) • Verplaatsingen: syntaxis (V2)
Inleiding • Wat is de kracht van deze formele mechanismen? • Wat kunnen ze en wat kunnen ze niet? • Wat voor mechanismen zijn nodig om bepaalde taalkundige fenomenen te karakteriseren? • Wat zijn de computationele en psychologische aspecten van die mechanismen?
Inleiding • Formele talen • Complexiteit in natuurlijke talen • Conclusie
Formele talen: Omschrijving • Een formele taal is een verzameling van strings (symbolenrijtjes) gedefinieerd over een alfabet van symbolen. • Bijvoorbeeld: de verzameling van strings a*b* (eerst nul of meer a’s, dan nul of meer b’s).
Formele talen: Grammatica, automaat • Een taal kan op twee manieren gedefinieerd worden: • Door een grammatica, die de strings van de taal genereert (bijv. een context-vrije herschrijfgrammatica). • Door een automaat, die de strings van de taal herkent (bijv. een finite-state automaat).
Formele talen: Vier typen • Vier typen formele talen worden onderscheiden, met bijbehorende typen grammatica’s en automaten. • Deze vier typen vormen een hiërarchie van krachtig naar zwak, de Chomsky hiërarchie. • Kracht betekent hier: meer talen omvattend (genererend, herkennend).
Formele talen: Basisbegrippen • Noties bij een (formele) grammatica: • Startsymbool: S • Niet-terminaal symbool: categorie • Terminaal symbool: ook element van het alfabet • Nul: (of iets dergelijks) • Voorbeeld: S NP VP N man
Formele talen: Type 3 • Type 3: Reguliere taal • Kan herkend worden door eindige automaat. • Kan gegenereerd worden door reguliere grammatica. • Regels van de vorm A xB of A x. • Voorbeeld: S aS, S b: a*b
Formele talen: Type 2 • Type 2: context-vrije taal • Herkennen: push-down automaat • Genereren: context-vrije herschrijfgrammatica • Regels van de vorm A rijtje symbolen • S a S b, S (anbn)
Formele talen: Vergelijking • Elke type 3 taal is ook een type 2 taal. • Een type 2 grammatica kan talen genereren die een type 3 grammatica niet kan genereren. • De taal anbn is zo´n type 2 taal. • Door de vorm van de regel S a S b kunnen er evenveel a’s als b’s zijn.
Formele talen: Palindromen • S a S b, S (anbn) • Hoe ziet een grammatica eruit die palindromen genereert over {a,b}? • { , a, b, aa, bb, aba, bab, aaa, bbb, …} • S a S a, S b S b, S , S a, S b • Kan niet met eindige automaat!
Formele talen: Type 1 • Type 1: context-gevoelige taal • Genereren: context-gevoelige grammatica • Regels van de vorm A , waarbij niet is (dus geen verkorting). • Herkennen: lineair gebonden automaat
Formele talen: Type 1 • S abcS aSBccB BcbB bb • anbncn met n 1 • S aSBc aabcBc aabBcc aabbcc • Kan niet context-vrij
Formele talen: Type 0 • Herkennen: Turing machine • Genereren: Onbeperkte grammatica • Recursief opsombare talen • Regels van de vorm , met de enige beperking dat • Omvat alle andere typen talen.
Formele talen: Chomsky-hiërarchie type 0 type 1 type 2 type 3
Complexiteit: natuurlijk taal • Wat voor type grammatica (automaat) hebben we nodig om bepaalde taalkundige fenomenen te beschrijven? • Een mechanisme dat krachtig genoeg is om bepaalde patronen te genereren (herkennen). • Maar niet te krachtig! Geen Turing-kracht!
Complexiteit: Niet te • We willen een mechanisme gebruiken dat niet te krachtig is. • Omdat te krachtige mechanismen ons minder leren over de eigenschappen van menselijke cognitie. • Omdat te krachtige mechanismen computationeel ook lastiger zijn.
Complexiteit: Fonologie • Generatieve fonologie: context-gevoelige herschrijfregels voor fonologische processen. VV VjV • Computationele fonologie: lastig soort regels, en het kan veel makkelijker:eindige automaat.
Complexiteit: Fonologie • Fonologische (en ook morfologische) verschijnselen kunnen gemodelleerd worden met het ‘zwakste’, meest beperkte mechanisme. • Reden: de afhankelijkheden tussen fonemen en morfemen in woorden zijn altijd heel locaal.
Complexiteit: Syntaxis • Zijn misschien alle talige fenomenen te modelleren met eindige automaten (reguliere grammatica’s)? • Of kunnen we verschijnselen vinden die de kracht van een context-vrije herschrijfgrammatica (CFG) vereisen?
Complexiteit: Palindromen • CFG’s zijn nodig voor palindromen r ei n ie r | ||__| | | | |____| | |_______| • We zien hier geneste afhankelijkheden. • Ook in natuurlijke taal?
Complexiteit: Center embedding • The cat likes tuna fish • The cat the dog chased likes tuna fish • The cat the dog the rat bit chased likes tuna fish • The cat the dog the rat the elephant admired bit chased likes tuna fish
Complexiteit: Chomsky • Chomsky maakt een belangrijk onderscheid • Competence: taalkennis, los van geheugen, aandacht, … • Performance: gebruik van taalkennis, beïnvloed door geheugen, aandacht, … • Center-embedding: moeilijk (performance), maar grammaticaal (competence)
Complexiteit: Nesting • The cat the dog chased likes tuna fish | |______| | |___________________| • The cat the dog the rat bit chased likes tuna fish |____|
Complexiteit: Nesting • Nog een zelfde soort voorbeeld • Niet moeilijk te verwerken: This is the dog that worried the cat that killed the rat that ate the malt that lay in the house that Jack built. • Geen nesting!
Complexiteit: Nesting • Maar dan: Jack built the house that the malt that the rat that the cat that the dog worried killed ate lay in • Nesting doet hier een te groot beroep op onze geheugencapaciteit.
Complexiteit: Pumping • Er is een lemma (pumping lemma) dat het mogelijk maakt om te bewijzen dat deze patronen niet regulier zijn. • Dus syntaxis natuurlijke taal vereist minstens een context-vrije grammatica. • Maar is context-vrij voldoende voor andere fenomenen?
Complexiteit: Crossing • Voorbeelden van niet-contextvrije talen: • { xx | x {a,b}* } • anbmcndm • Er is een kruisende afhankelijkheid: • anbmcndm |__|_| | |___| • Komen die ook in natuurlijke talen voor?
Complexiteit: Zürich • Jan säit das … (Jan zei dat …) • mer em Hans es huus hälfed aastriiche wij de Hans het huis hielpen verven • mer d’chind em Hans es huus haend wij de kinderen de Hans het huis hebben wele laa hälfe aastriiche wille laten helpen verven
Complexiteit: Naamval • Jan säit das … (Jan zei dat …) • mer em Hans es huus hälfed aastriiche wij de Hans het huis hielpen verven DAT ACC | | |_________|_______| | |____________ | • Relatie tussen werkwoorden en objecten is niet-CF in Zwitser-Duits
Complexiteit: Nederlands omdat ik Cecilia Henk de nijlpaarden zag helpen voeren |____|_____|______________| | | |_____|_________________ | | |________________________ | • Ook in het Nederlands kunnen crossing dependencies gedemonstreerd worden.
Conclusie • Er zijn verschijnselen in natuurlijke taal die krachtiger modellen vereisen dan eindige automaten of context-vrije grammatica’s. • Maar er zijn twee kanttekeningen te maken.
Conclusie • De taalkundige verschijnselen zijn beperkt, marginaal, speciaal. • Ze zijn moeilijk te begrijpen voor mensen (center-embedding). • Ze komen weinig voor in talen (crossing). • Ze zijn beperkt tot de syntaxis.
Conclusie • Voor computationele toepassingen volstaan vaak eindige of context-vrije mechanismen. • Voor cognitieve doeleinden lijken dit soort mechanismen ook adequater.