200 likes | 364 Views
18, 5 millioner ord fra varierte skriftlige kilder. Tre genre: skj ø nnlitteratur (1.7 mill.), aviser/magasiner (9.6 mill.) og faglitteratur (6.9 mill.). Tagget med Oslo-Bergen taggeren . Utviklet i samarbeid mellom Tekstlaboratoriet og HIT – senteret i Bergen.
E N D
18, 5 millioner ord fra varierte skriftlige kilder. Tre genre: skjønnlitteratur (1.7 mill.), aviser/magasiner (9.6 mill.) og faglitteratur (6.9 mill.). Tagget med Oslo-Bergen taggeren Utviklet i samarbeid mellom Tekstlaboratoriet og HIT – senteret i Bergen. Skrevet i Constraint Grammar. En morfosyntaktisk tagger av løpende tekst. Oslokorpuset og Oslo-Bergen taggeren
Utfordringen – norsk ordstilling • SVO, men med mulighet for OVS – topikalisering av objektet. • Stort antall flertydigheter mellom subjekt- og objektsfunksjon i Oslokorpuset.
Reelt problem – eller? • Svært få topikaliserte konstruksjoner med nominalt subjekt og objekt. • Disambiguering ved pronomen og kasus: Men – trykksterke nominative pronomener i norsk:
Prominens og syntaktisk funksjon • Prominenshierarkier fra typologisk lingvistikk: • Animathet: Human > Animat > Inanimat • Bestemthet: Pronomen > Egennavn > Bestemt NP > Ubestemt NP • Syntaktisk funksjon: Subjekt > Ikke-subjekt (Objekt)
Prominens og syntaktisk funksjon • Aissen (1999, 2000) –harmonic alignment av hierarkiene over. • Prominente elementer på ett hierarki tiltrekker seg prominente elementer på andre hierarkier. Subjekter typisk animate, bestemte. Objekter typisk inanimate, ubestemte.
Teoretiske og praktiske problemstillinger • Forholdet mellom subjekt og objekt i henhold til hierarkiene over? • Hva med tilfeller der generaliseringen ikke holder stand? Hva kjennetegner disse? • Kan 1) – 2) modelleres/forklares ved bruk av Optimalitetsteori? • Hvordan kan innsikter fra 1) – 3) bidra til å forbedre taggerens prestasjon?
1. Forholdet mellom subjekt og objekt – animathet og bestemthet • Svensk korpusundersøkelse: ”More than 97% of all transitive sentences obey the constraint that the subject should not be lower than the object in animacy.” • Bare 1-2% av alle subjektene var ubestemte. (NB! Talespråkskorpus) (Dahl og Fraurud, 1996; Dahl, 1997)
2. Problemverb • Avvik i animathet, men først og fremst i tematiske roller utdelt til argumentene. • Agent > Benefactive > Exp > Theme > Loc
Problemverbene og ordstilling • En rekke språk: ”frysing” til kanonisk leddstilling ved verb med uvanlig linking av argumenter. Gjelder dette for norsk? • Særlig psyk-verb viser en tendens mot dette:
3. OT-formalisering • Ingen absolutt tendens – derfor passer bra med en grammatikk som en mengde føringer (constraints) som kan brytes.
4. Praktiske konsekvenser Trenger mer informasjon i leksikon: • Animathet (og bestemthet) • Seleksjonsrestriksjoner • Argumentstruktur m/ tematiske roller
Seleksjonsrestriksjoner • Verbets semantiske restriksjoner på argumentene • Samspill med animathet og bestemthet • SIMPLE – leksikonet angir bl.a. seleksjonsrestriksjoner, for 10 000 ord (verb og substantiv)
Argumentstruktur • Taggerens leksikon er markert med koder fra NorKompleks - et leksikon av norske verb m/ argumentstruktur og tematiske roller
Topic og Fokus • Diskursrelaterte begreper – ny vs. gitt informasjon • Vanskelig å utlede automatisk • Henger sammen med andre, mer leksikalske egenskaper, som for eksempel bestemthet
Navnegjenkjenning Å fastslå syntaktisk funksjon gir informasjon: • Subjektet tiltrekker seg prominente elementer: Pronomen > Egennavn > Best NP > Ubest NP Subjektposisjon typisk posisjon for egennavn • Subjektet ofte animat – person, dyr eller form for personifisering
Navnegjenkjenning • Metonymisk bruk
Navnegjenkjenning • Identifisering av problemverb sier noe om egenskaper ved mulige argumenter (egennavn).