110 likes | 273 Views
Dorte Haltrup Hansen: Sprogteknologiske værktøjer til tekst- og informationshåndtering. Værktøjer. Tokeniser POS-tagger Navnegenkender Lemmatiser NP-genkender. Tokenisering. Problem: Hvordan afgrænser man et ord/leksem? hest fx 47 i forbindelse med som at kaste vand på en gås
E N D
Dorte Haltrup Hansen:Sprogteknologiske værktøjer til tekst- og informationshåndtering
Værktøjer • Tokeniser • POS-tagger • Navnegenkender • Lemmatiser • NP-genkender
Tokenisering Problem: Hvordan afgrænser man et ord/leksem? • hest • fx • 47 • i forbindelse med • som at kaste vand på en gås • røntgen billede
Delimitors: H.C. Andersen-fejring Formatering: røntgen billede
POS-tagging Opgaver: • For kendte ord: slå ordet op i ordlister og tilskrive ordklassen • For tvetydige ord: disambiguere/entydiggøre homografer fx skade (sb.) og skade (vb.) • For ukendte ord: beregne ordklassen fx kursusdeltageroplæg
Træningskorpus • Træning under supervision • Træning på rå tekst • 250.000 til 1.000.000 ord Nøjagtigheden afhænger af typer af tags. Den danske version af Brill-taggeren har 49 forskellige tags. Trænede værktøjer er aldrig bedre end det materiale, der er brugt som træningkorpus.
Navnegenkendelse • Personer • Organisationer • Steder Kriterier: ord med stort? Anonymisering
Lemmatisering Lemmatisering: finder grundformen af ordet udfordring: homografer fx for (præp.) og for (vb.) vs. Stemming: skærer frekvente endelser væk, men tager ikke højde for allomorfer fx gafl-er
Eksempler: • festgudstjenestene/N_DEF_PLU 1 festgudstjenest • sejrshymne/N_DEF_PLU 1 sejrshym • i_det_hele_taget/ADV 10 i_det_hele_taget • udlandskirke/ADJ 1 udlandskirk • manges/ADJ_GEN 1 manges • sabbatshvile/ADJ 1 sabbatshvil • livsrytme/ADJ 1 livsrytm • indsættelsestale/ADJ 1 indsættelsestal • mærlelige/ADJ 1 mærlelig • ikke.Dine/ADJ 1 ikke.din
NP-genkendelse • Essentiel for grammatisk analyse fx Vi hørte [meteorologens præsentation af [vejret], vi kan vente os de næste dage]]]. • Varianter fx [femdøgnsudsigt]
Projekter • OntoQuery • MOSES • VID