200 likes | 356 Views
Lemmald. Nýtt lemmunarforrit fyrir íslensku Anton Karl Ingason Íslensk málfræði, Háskóla Íslands. Lemmun. Að finna grunnmynd orðs, lemmu Orð: hestsins, hestanna, hesti, ... Lemma: hestur Skylt því að stofna (e. stemming ) Tilgangur með lemmun í tungutækni
E N D
Lemmald Nýtt lemmunarforrit fyrir íslensku Anton Karl Ingason Íslensk málfræði, Háskóla Íslands
Lemmun • Að finna grunnmynd orðs, lemmu • Orð: hestsins, hestanna, hesti, ... • Lemma: hestur • Skylt því að stofna (e. stemming) • Tilgangur með lemmun í tungutækni • Að finna tengsl milli skyldra orðmynda (leit) • Að minnka og einfalda gögn (þjálfun í tölvunámi) • Hugmyndin um rétta lemmu skiptir hér litlu máli og spillir jafnvel fyrir (ath. esperantísk lemma?)
Notkunardæmi: Samhengisháð ritvilluleit • Við gætum notað orðið matur sem merkingarlega vísbendingu um að skrifa eigi lyst en ekki list í tiltekinni setningu. • Ekki víst að málheild innihaldi setningar með öllum fallmyndum orðsins matur í bland við lyst. • Hefur þú lyst á matnum? • Hver hefur lyst á öllum þessum mat? • Við misstum alla lyst vegna matarins í flugvélinni. • Við höfum alltaf lyst á að klára matinn okkar. • Maturinn var borðaður með bestu lyst. • Gott væri að geta fellt þessi dæmi saman í þjálfun og keyrslu leiðréttingaforrits
Tengsl milli orðmynda hest hesti hestur hestanna hests hestunum hesturinn hestana hestur hestinn hestarnir hestinum hestum hestar hestsins hesta
Staða mála • Ekkert lemmunarforrit til sem er sérstaklega hannað fyrir íslensku • CST Lemmatizer sem er óháður tungumáli hefur verið þjálfaður fyrir íslensku • Þörf fyrir Lemmald: • Íslenskt forrit sem hægt er að þróa áfram þannig að íslenskri málfræði sé gerð skil í kóðanum • Java-forrit sem þægilegt er að tengja við íslensk tungutæknitól (IceNLP, Samhengisháð ritvilluleit) • Eykur skilning á meðferð flókinna beyginga í tungutækni með því að prófa nýjar aðferðir
Verkefnið skilgreint • Í skilningi Lemmalds felst lemmun í því að útfæra fallið: lemma( orðmynd, mark ) • orðmynd mark > lemmaHún fpven > húnmætti sfg3eþ > mætamanninum nkeþg > maður • Afleiðingar: • Greining á samhengi alfarið í höndum markara • Ályktun að orðmynd og mark skili alltaf ótvíræðri lemmu er ekki alveg 100% rétt (td. muni, á).
Auðlindir sem byggt er á • BLARK-einingar: • IceTagger (Hrafn Loftsson) • Málheild Íslenskrar orðtíðnibókar (SÁ) • Beygingarlýsing íslensks nútímamáls (SÁ) • Sýnir mikilvægi BLARK-hugsunar • Einingar styrkja hver aðra • ... og gera þróun á nýjum einingum mögulega • Hér vantar: • Betri greiningu á samsettum orðum (í vinnslu!)
Sérkenni Lemmalds • Forrit með svipaðan tilgang skiptast yfirleitt í tvennt eftir aðferðum: • Handsmíðaðar reglur (málfræðileg nálgun) • Tölvulærðar reglur (tölfræðileg nálgun) • Lemmald notar engar handsmíðaðar reglur en nálgunin er þó að miklu leyti málfræðileg • Reynt að blanda saman kostum aðferðanna • Val á lemmunarreglu byggist aðallega á: Stigveldi málfræðilegra auðkenna
Gögn og þekking á gögnum • Árangur í tölvulærðum reglum byggist á • Almennri lærdómsaðferð (tölfræðileg þekking) • Gögnum sem vélin fær til að læra af og uppbyggingu þessara gagna (þekking á gögnum) • Gögnin í þessu tilviki orðmynd og mark • móður nvee • Einfaldast að líta á þetta sem tvo strengi • Ef markið er notað með flóknari hætti skiptir máli hvernig það er gert
Gögnum hent í vélina • Er skynsamlegt að henda bara gögnum í vélina og láta hana læra? • Hafa gögnin formgerð og hver er hún? • nvee: nafnorð, kvenkyn, eintala, eignarfall • nafnorð+kvenkyn, kvenkyn+eintala, eignarfall+eintala • nvee? n, v, e, e? nve?, nv?, ee? • Greinilega mögulegt að nota mark á fleiri vegu en sem einn streng, en hvernig?
Hliðstæða úr hljóðkerfisfræði • Tvígildir þættir notaðir til að greina málhljóð • [±cons] [±sonor] [±later] [±strid] [±contin] [±round] [±anter] [±distrib] [±back] [±high] [±low] [±nasal] [±ATR] [±RTR] [±spread gl] [±constr gl] [±voiced]
Hliðstæða úr hljóðkerfisfræði (Kenstowicz 1994)
Stigveldi málfræðilegra auðkenna • Látum nafnorðið <móður,nvee> hafa fjögur auðkenni sem raðast frá sértæku til almennsorð markmóður nveemóður nv[*] nveemóður [*] • Ekki endilega besta stigveldið, en virkar ágætlega fyrir lemmun
Lemmald þjálfað • Nafnorðið <móður,nveo> kemur fyrir í þjálfunarsafni (ath. þolfall) • Reglur smíðaðar upp úr þessuorð mark reglamóður nveo ur>irmóður nv ur>ir[*] nveo ur>irmóður [*] ur>ir • Og svo talið hversu oft hver regla gefur rétta niðurstöðu í þjálfunarsafninu
Lemmað • Inntak fyrir lemmun er <móður,nvee> (eignarfall) • Þetta mynstur er óþekkt (kom ekki fyrir í þjálfunarsafni). Stigveldið er notað til að slá af kröfum um nákvæmni í málfræðilega skynsamlegri röð • Við viljum t.d. ekki að forritið noti reglu fyrir lýsingarorðið móður í staðinn (þ.e. r>r) • Sértækasta þekkta mynstrið er <móður,nv> og því er reglan (ur>ir) notuð • Ströng yfirskipun (e. strict domination) skiptir hér máli. Sértækasta þekkta mynstrið er notað og þegar það finnst skipta lægra sett mynstur engu máli
Stigveldi málfræðilegra auðkenna • Stigveldið fær góðar málfræðilegar hugmyndir eins og að velja mynstur úr nafnorði í sama kyni í stað þess að velja mynstur úr lýsingarorði sem er eins (eða nafnorði í sama kyni í stað nafnorðs í öðru kyni) • Tímasparandi kostir tölvulærðra reglna nýttir en málfræðileg þekking birtist í skipulagi stigveldisins (formgerð gagnanna)
Ýmis vandamál • Samsett orð eru líklega stærsta vandamálið sem er sérstakt fyrir íslenska tungutækni • Gildir einnig um sum skyld mál • Dæmi götusópari • Orðið í heild er óþekkt og málfræðilegi hausinn sópari er einnig óþekktur (í OTB-málheild). • Greining sem byggist á lengstu þekktu endingu skiptir þessu götusó-pari og lemman verður götusópar. • Erfitt að eiga við án alvöru orðhlutagreiningar
Einingar Lemmalds • Stiveldi málfræðilegra auðkenna • Greining á samsettum orðum • Greining á u-hljóðvarpi • Leiðréttingaeining sem keyrir síðast • Tenging við Beygingarlýsingu íslensks nútímamáls (krefst gagnagrunnsþjóns) • Hægt að kveikja/slökkva á einingunum í stillingum forritsins
Árangur • Miðað við rétt markað inntak • Grunnvirkni (Stigveldisaðferð eingöngu) 97,85% • + Greining á samsettum orðum 98,38% • + Greining á u-hljóðvarpi 98,42% • + Eftirvinnsla (leiðréttingar) 98,54% • + Beygingarlýsing íslensks nútímamáls 99,55% • CST Lemmatizer 98,99% (sambærilegt við 98,54%) • Tölur lækka um u.þ.b. 2% við að nota IceTagger markað inntak sem er 91,55% rétt • Dæmi um að bæði forrit klúðri því sem hitt gerir rétt
Framhaldið • Lemmald með fullkomnari aðferð innan hvers sértækniþreps ætti að ná betri árangri. Á þessu verður tekið í væntanlegri næstu útgáfu. • Nauðsynlegt að þróa betri greiningu á samsettum orðum en þetta tengist fleiri verkefnum og er í raun sjálfstæð BLARK-eining • Engu að síður er árangurinn nú þegar nógu mikill til að nota forritið í hagnýt verkefni