170 likes | 433 Views
Zinnen en Grammatica. Natuurlijke taalverwerking week 4. Automatisch zinsontleden. Herkennen van zinsdelen Onderwerp Persoonsvorm Lijdend voorwerp Bijwoordelijke bepalingen Woorden benoemen op woordsoort. Toepassingen. Correctie van grammaticale fouten
E N D
Zinnen en Grammatica Natuurlijke taalverwerking week 4
Automatisch zinsontleden • Herkennen van zinsdelen • Onderwerp • Persoonsvorm • Lijdend voorwerp • Bijwoordelijke bepalingen • Woorden benoemen op woordsoort Natuurlijke Taalverwerking
Toepassingen • Correctie van grammaticale fouten • jan word ziek • dit kind is verwent • Dialoogsystemen: • USER: wanneer gaat de volgende trein? • SYSTEM: over vijftien minuten • Automatisch vertalen Natuurlijke Taalverwerking
Demonstraties • NP-chunker • Vind NP’s (zelfstandige naamwoordgroep) in een tekst • Alvey Tools Grammar • algemene grammatica voor het Engels (klein woordenboek) • NWO-TST (OVIS) parser in Hdrug • Voor openbaar vervoer reisinformatie (gesproken taal, semantiek) Natuurlijke Taalverwerking
Wat is een grammatica • Verzameling regels (en een woordenboek) die de grammaticale zinnen van een taal beschrijven • Doelstelling 1: (automatisch) bepalen of een zin grammaticaal is (d.w.z. voldoet aan de regels van de grammatica)) of niet. • Doelstelling 2: Structuur (constituenten, betekenis) toekennen aan zinnen van de taal. Natuurlijke Taalverwerking
Regels: S --> NP VP NP --> Det A N VP --> V VP --> V NP Woordenboek: Det --> een N --> voorbeeld A --> eenvoudig V --> is NP --> dit Context-vrije grammatica Natuurlijke Taalverwerking
Dit is een eenvoudig voorbeeld S NP VP V NP Det A N eenvoudig Dit is een voorbeeld Natuurlijke Taalverwerking
FSA versus CFG: 1. recursieve regels • Sommige talen of zinsconstructies zijn niet met een Finite state Grammatica (reguliere expressies) te beschrijven: • AN BN : een aantal A’s, gevolgd door hetzelfde aantal B’s. S --> a S B S --> a b Natuurlijke Taalverwerking
FSA versus CFG:1. Recursieve regels • Recursieve regels zijn in grammatica’s heel gewoon: • een dun iel dom oud boompje • een huis met tuin in Haren in de dorpskern • N --> A N • N --> N PP • Niet iedere recursie is echt nodig: • macro(np, [det, a*, n, pp*]). • pas wel op dat pp niet een macro mag zijn waarin np voorkomt Natuurlijke Taalverwerking
FSA versus CFG:1. Recursieve regels • Problemen ontstaan bij `center-embedding’: recursie die in het midden van een regel optreedt: • de fotograaf die de vrouw fotografeerde • NP --> Det N Pronoun NP V • (ik ken) de fotograaf die de vrouw die de man die de hond die de kat achtervolgdezagkustfotografeerde,…. • (Probleem: zinnen met ‘center-embedding’ zijn zeer moeilijk te verwerken Natuurlijke Taalverwerking
FSA versus CFG:2. Structuur • NP --> Det N, N --> A N, N --> N PP • macro(np,[det,a*,n,pp*]) • Grammatica’s zijn equivalent in zwakzwakke generatieve kracht: ze accepteren dezelfde strings. • Niet equivalent in sterke generatieve kracht: CFG levert constituent-structuur op (boompjes), FSA niet. • (syntactische) ambiguiteit is onzichtbaar in FSA Natuurlijke Taalverwerking
FSA versus CFG: 2. Structuur • VP --> V NP • VP --> VP PP • An eet rijst met een vork • NP --> NP PP • An eet rijst met kip • macro(vp,[v,np,pp*]) Natuurlijke Taalverwerking
FSA versus CFG: 2. Structuur VP PP VP VP eetrijst met een vork NP V eet NP PP rijst met kip Natuurlijke Taalverwerking
Voorbij CFG • CFG met features (kenmerken, attributen) en unificatie • voorbeelden: Definite Clause Grammar, Unificatie Grammatica. • Transformationele grammatica is te lastig voor computationele doeleinden: • weinig formele precisie • lastig voor automatisch ontleden Natuurlijke Taalverwerking
Voorbij CFG • De taal WW (een rij woorden gevolgd door dezelfde rij woorden) is niet context-vrij: • aabcccaabccc • Nederlandse werkwoordsclusters vertonen vergelijkbare ‘cross-serial dependencies’: • dat PeterHansCecilia de kraanvogels zaghelpenfotograferen Natuurlijke Taalverwerking