220 likes | 384 Views
Automatisk gjenkjenning av vanskelige navn. Janne Bondi Johannessen, Universitetet i Oslo Paul Meurer, Universitetet i Bergen. Arbeidet inngår i to pågående prosjekter:. Oslo-Bergen-taggeren (forbedring og videreutvikling)
E N D
Automatisk gjenkjenning av vanskelige navn • Janne Bondi Johannessen, Universitetet i Oslo • Paul Meurer, Universitetet i Bergen
Arbeidet inngår i to pågående prosjekter: • Oslo-Bergen-taggeren (forbedring og videreutvikling) • Nomen Nescio - En navnegjenkjenner for norsk, svensk og dansk (Samarbeid mellom UiO,UiB, GU, CST og Syddansk Universitet)
Innhold • Nomen Nescio • Gjenkjenning av lette navn • Gjenkjenning av vanskelige navn • Gjenkjenning av navn som består av fraser • Dokumentbaseringsmetoden • Navn først i setningen • Kortversjoner av navn • Implementeringi taggeren
Nomen Nescio • Mål: Sette riktig navnekategori på navn i løpende tekst • Navnekategorier: Person, sted, organisasjon, hendelse, verk, ting • Måter: • Regelbasert metode (Andra Björk Jonsdottir) • Statistisk metode: (Åsne Haaland)
Navns flertydighet (i): • Navnehomonymi: • Arthur Andersen, Jens Evensen, (person- eller firmanavn?) • Bondi, Asker, Guriby, Hanevold (person- eller stedsnavn?) • Odin (Guds- eller firmanavn?)
Navns flertydighet (ii): • Navnepolysemi: • Aftenposten (ting, verk, firma eller sted?) • Jeg kastet Aftenposten i søppelkassa. • Jeg leste i Aftenposten at det er krig i Afghanistan. • Jeg kjenner en som jobber i Aftenposten. • Jeg går forbi Aftenposten hver dag.
Gjenkjenning av lette navn: • I dag snør det. Snø er kaldt. Bjørn liker ikke snø. Kvist er det mye av t.v. Berg og fjell er typisk norsk. T.v. står Berg.
Oslo-Bergen-taggeren har gjettet riktig med ett unntak: • "<I"<I>" • "i" prep • "<Snø>" • "snø" subst mask appell ub ent • "<Bjørn>" • "Bjørn" subst mask prop • "bjørn" subst mask appell ub ent • "<Kvist>" • "kvist" subst mask appell ub ent • "<Berg>" • "Berg" subst prop • "<T.v.>" • "t.v." fork adv prep+subst @adv • "<Berg>" • "Berg" subst prop
Gjenkjenning av vanskelige navn: • Navn som består av fraser: • Navn som er nominalfraser - bare første bokstav er stor: • a. Den norske stat • b. Institutt for lingvistiske fag • c. Direktoratet for naturforvaltning • d. Det historisk-filosofiske fakultet • Navn som er nominalfraser - ett av leddene er et egennavn med stor bokstav: • a. Mjær ungdomsskole • b. Gjerdrum likningskontor og folkeregister • c. Hungerholt gruppebolig • d. Universitetet i Oslo • e. Sentralsykehuset i Akershus
Navn som er nominalfraser - uforutsigbare store forbokstaver: • a. Karihaugen Lakk og Karosseri • b. Rens På Timen • c. Den norske Kirken • d. Kvebek Bygg og Fornyelse A/S
Navnemønstrene som regulære uttrykk (i) • Bestemte krav til rekkefølge, morfosyntaktisk kategori, og leksem: • Universitetet i Bergen: • Substantiv i bestemt form og stor bokstav - "i" - Egennavn • Den store oktoberrevolusjonen: • Determinativ med stor bokstav - (adjektiv(er)) - substantiv • Store Norske kullkompani: • ((Adjektiv)er med stor bokstav) - substantiv
Navnemønstrene som regulære uttrykk (ii) • Tåsen barnehage, Tåsen senter- og periferibarnehage, Bærum herredsrett: • Egennavn - (Adjektiv(er)) - (substantiv - "og") - "*barnehage", "*råd", "*kontor", "*rett"..., • Anne Grete Jensen: • Egennavn - (Egennavn(pl)) • Bærum Ved og Brensel A/S: • Egennavn - Egennavn - "og" - Substantiv med stor bokstav - ("A/S", "AS")
Dokumentbaseringsmetoden • McDonald (1996) • Mikheev et al (1999, 2000…)
Gjenkjenning av frasenavn først i setningen • Hvordan vite hva som er navn? • Den lille jenta tenkte. Den norske kirkes ritualer var ganske tiltalende. • Den lille jenta tenkte. Den norske kirkes ritualer var ganske tiltalende. Kanskje hun skulle melde seg inn i Den norske kirke?
Gjenkjenning av kortversjoner av frasenavn • Den norske Lægeforening Lægeforeningen • De store oktoberrevolusjonen Oktoberrevolusjonen • Store Norske Kullkompani Kullkompaniet • Norsk sykepleierforbund Sykepleierforbundet
Konteksten hjelper • Petra er medlem i Den norske Lægeforening. Hun vil gjerne melde seg ut. Lægeforeningen gjør ikke nok for de svakeste i samfunnet.
Prøvetekst • "Her er Gjerdrum likningskontor. Likningskontoret ligger rett ved Universitetet i Oslo. Rens På Timen er også i nærheten. Jeg liker Rens På Timen. Den norske lægeforening har mange medlemmer. Men Lægeforeningen er ikke så aktiv. Jeg synes Den norske lægeforening snart bør bli mer aktiv."
Web-grensesnitt • .
Resultat 1: • "<Gjerdrum likningskontor>" • "Gjerdrum likningskontor" subst noeyt prop • "<Likningskontoret>" • "likningskontor" subst noeyt prop be ent • "<Universitetet i Oslo>" • "Universitetet i Oslo" subst prop • "<Rens Rå Timen>" • "Rens Rå Timen" subst prop • "<Rens På Timen>" • "Rens På Timen" subst prop
Resultat 2: • "<Den norske lægeforening>" • "Den norske lægeforening" subst prop • "<Lægeforeningen>” • "Lægeforeningen" subst prop • "<Den norske lægeforening>” • "Den norske lægeforening" subst prop
What This Means • Add a strong statement that summarizes how you feel or think about this topic • Summarize key points you want your audience to remember
Next Steps • Summarize any actions required of your audience • Summarize any follow up action items required of you