80 likes | 217 Views
Lemmatiserare för okända ord. Boel Mattsson. Projektbeskrivning. Att göra ett program som gissar grundformen (lemmat) för okända ord Begränsning till substantiv, verb och adjektiv
E N D
Lemmatiserare för okända ord Boel Mattsson
Projektbeskrivning • Att göra ett program som gissar grundformen (lemmat) för okända ord • Begränsning till substantiv, verb och adjektiv • Uppgiften formuleras som ett klassificeringsproblem t ex ordet "krämbluffen" tillhör den klass av ord där man ska ta bort "en" för att få grundformen
”krämbluffen” SUC-korpus Statistisk klassificerare LIBSVM ”krämbluff” Översikt av projekt
Beskrivning av klassificerare • En klassificerare är en funktion som givet ett antal inparametrar ger en klass t ex ”en->0” i fallet ”krämbluffen” • LIBSVM – ett färdigskrivet program • LIBSVM skapar en statistisk klassificerare utifrån ett antal exempel (träningsmängd) • En statistisk algoritm försöker hitta en funktion som passar så bra som möjligt med träningsmängden.
Inparametrar till LIBSVM • Ordets korrekt klassificerade klass • Ordets suffix upp till fem bokstäver • Ordets ordklass Exempel: För ordet smygrustningen blir inparametrarna en->0|n|en|gen|ngen|ingen|nn.utr.sin.def.nom
Träningsmängd, testmängd • Som träningsmängd och testmängd har använts ett urval ur SUC bestående av substantiv, adjektiv och verb. • Testmängden bestod av 50 000 ord • Olika storlekar på träningsmängden har använts: • 1000 ord • 2000 ord • 5000 ord • 10 000 ord
Andel korrekta klassifikationer som funktion av antalet ord i träningsmängden