1 / 22

Automatisk gjenkjenning av vanskelige navn

Automatisk gjenkjenning av vanskelige navn. Janne Bondi Johannessen, Universitetet i Oslo Paul Meurer, Universitetet i Bergen. Arbeidet inngår i to pågående prosjekter:. Oslo-Bergen-taggeren (forbedring og videreutvikling)

holden
Download Presentation

Automatisk gjenkjenning av vanskelige navn

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Automatisk gjenkjenning av vanskelige navn • Janne Bondi Johannessen, Universitetet i Oslo • Paul Meurer, Universitetet i Bergen

  2. Arbeidet inngår i to pågående prosjekter: • Oslo-Bergen-taggeren (forbedring og videreutvikling) • Nomen Nescio - En navnegjenkjenner for norsk, svensk og dansk (Samarbeid mellom UiO,UiB, GU, CST og Syddansk Universitet)

  3. Innhold • Nomen Nescio • Gjenkjenning av lette navn • Gjenkjenning av vanskelige navn • Gjenkjenning av navn som består av fraser • Dokumentbaseringsmetoden • Navn først i setningen • Kortversjoner av navn • Implementeringi taggeren

  4. Nomen Nescio • Mål: Sette riktig navnekategori på navn i løpende tekst • Navnekategorier: Person, sted, organisasjon, hendelse, verk, ting • Måter: • Regelbasert metode (Andra Björk Jonsdottir) • Statistisk metode: (Åsne Haaland)

  5. Navns flertydighet (i): • Navnehomonymi: • Arthur Andersen, Jens Evensen, (person- eller firmanavn?) • Bondi, Asker, Guriby, Hanevold (person- eller stedsnavn?) • Odin (Guds- eller firmanavn?)

  6. Navns flertydighet (ii): • Navnepolysemi: • Aftenposten (ting, verk, firma eller sted?) • Jeg kastet Aftenposten i søppelkassa. • Jeg leste i Aftenposten at det er krig i Afghanistan. • Jeg kjenner en som jobber i Aftenposten. • Jeg går forbi Aftenposten hver dag.

  7. Gjenkjenning av lette navn: • I dag snør det. Snø er kaldt. Bjørn liker ikke snø. Kvist er det mye av t.v. Berg og fjell er typisk norsk. T.v. står Berg.

  8. Oslo-Bergen-taggeren har gjettet riktig med ett unntak: • "<I"<I>" • "i" prep • "<Snø>" • "snø" subst mask appell ub ent • "<Bjørn>" • "Bjørn" subst mask prop • "bjørn" subst mask appell ub ent • "<Kvist>" • "kvist" subst mask appell ub ent • "<Berg>" • "Berg" subst prop • "<T.v.>" • "t.v." fork adv prep+subst @adv • "<Berg>" • "Berg" subst prop

  9. Gjenkjenning av vanskelige navn: • Navn som består av fraser: • Navn som er nominalfraser - bare første bokstav er stor: • a. Den norske stat • b. Institutt for lingvistiske fag • c. Direktoratet for naturforvaltning • d. Det historisk-filosofiske fakultet • Navn som er nominalfraser - ett av leddene er et egennavn med stor bokstav: • a. Mjær ungdomsskole • b. Gjerdrum likningskontor og folkeregister • c. Hungerholt gruppebolig • d. Universitetet i Oslo • e. Sentralsykehuset i Akershus

  10. Navn som er nominalfraser - uforutsigbare store forbokstaver: • a. Karihaugen Lakk og Karosseri • b. Rens På Timen • c. Den norske Kirken • d. Kvebek Bygg og Fornyelse A/S

  11. Navnemønstrene som regulære uttrykk (i) • Bestemte krav til rekkefølge, morfosyntaktisk kategori, og leksem: • Universitetet i Bergen: • Substantiv i bestemt form og stor bokstav - "i" - Egennavn • Den store oktoberrevolusjonen: • Determinativ med stor bokstav - (adjektiv(er)) - substantiv • Store Norske kullkompani: • ((Adjektiv)er med stor bokstav) - substantiv

  12. Navnemønstrene som regulære uttrykk (ii) • Tåsen barnehage, Tåsen senter- og periferibarnehage, Bærum herredsrett: • Egennavn - (Adjektiv(er)) - (substantiv - "og") - "*barnehage", "*råd", "*kontor", "*rett"..., • Anne Grete Jensen: • Egennavn - (Egennavn(pl)) • Bærum Ved og Brensel A/S: • Egennavn - Egennavn - "og" - Substantiv med stor bokstav - ("A/S", "AS")

  13. Dokumentbaseringsmetoden • McDonald (1996) • Mikheev et al (1999, 2000…)

  14. Gjenkjenning av frasenavn først i setningen • Hvordan vite hva som er navn? • Den lille jenta tenkte. Den norske kirkes ritualer var ganske tiltalende. • Den lille jenta tenkte. Den norske kirkes ritualer var ganske tiltalende. Kanskje hun skulle melde seg inn i Den norske kirke?

  15. Gjenkjenning av kortversjoner av frasenavn • Den norske Lægeforening Lægeforeningen • De store oktoberrevolusjonen Oktoberrevolusjonen • Store Norske Kullkompani Kullkompaniet • Norsk sykepleierforbund Sykepleierforbundet

  16. Konteksten hjelper • Petra er medlem i Den norske Lægeforening. Hun vil gjerne melde seg ut. Lægeforeningen gjør ikke nok for de svakeste i samfunnet.

  17. Prøvetekst • "Her er Gjerdrum likningskontor. Likningskontoret ligger rett ved Universitetet i Oslo. Rens På Timen er også i nærheten. Jeg liker Rens På Timen. Den norske lægeforening har mange medlemmer. Men Lægeforeningen er ikke så aktiv. Jeg synes Den norske lægeforening snart bør bli mer aktiv."

  18. Web-grensesnitt • .

  19. Resultat 1: • "<Gjerdrum likningskontor>" • "Gjerdrum likningskontor" subst noeyt prop • "<Likningskontoret>" • "likningskontor" subst noeyt prop be ent • "<Universitetet i Oslo>" • "Universitetet i Oslo" subst prop • "<Rens Rå Timen>" • "Rens Rå Timen" subst prop • "<Rens På Timen>" • "Rens På Timen" subst prop

  20. Resultat 2: • "<Den norske lægeforening>" • "Den norske lægeforening" subst prop • "<Lægeforeningen>” • "Lægeforeningen" subst prop • "<Den norske lægeforening>” • "Den norske lægeforening" subst prop

  21. What This Means • Add a strong statement that summarizes how you feel or think about this topic • Summarize key points you want your audience to remember

  22. Next Steps • Summarize any actions required of your audience • Summarize any follow up action items required of you

More Related