110 likes | 430 Views
Hátækniiðnaðurinn íslensk málfræði. 16. nóvember 2008 Anton Karl Ingason. Sambúð tækni og tungumáls. Tungutækni hefur verið til í nokkra áratugi Verkefni greinarinnar eru af ýmsum toga
E N D
Hátækniiðnaðurinn íslensk málfræði 16. nóvember 2008 Anton Karl Ingason
Sambúð tækni og tungumáls • Tungutækni hefur verið til í nokkra áratugi • Verkefni greinarinnar eru af ýmsum toga • Vélrænn yfirlestur texta (réttritun/málfræði), vélrænar þýðingar, breyta tali í texta, breyta texta í tal (talgervlar), smíða betri leitarvélar, o.s.frv. • Sum vandamál var snemma hægt að leysa býsna vel • Önnur eru fyrst að verða viðráðanleg nú með betri tölvum • Sum verða seint eða aldrei leyst
Þverfagleg iðkan nauðsynleg • Fyrir nokkrum árum stefndi í að tungutækni yrði undirgrein tölvunarfræði • Menn höfðu ofurtrú á að tölfræðileg líkön leystu allan vanda og komust raunar býsna langt með þeim - þar til þeir komust ekki lengra • Nú er orðið ljóst að tölvunarfræðingar og málfræðingar verða að vinna saman til að ná frekari framförum
Íslensk tungutækni • Til að geta sagt að tungutækni fyrir tiltekið mál sé til þarf að lágmarki svokallað BLARK (e. Basic Language Resource Kit) • BLARK er safn grundvallareininga sem önnur tungutækniforrit byggja á • Málheildir: Stór textasöfn sem tungutækniforrit geta notað til að læra málfræðileg mynstur • Markari: Greinir vélrænt málfræðilega eiginleika orða í samhengi, t.d. kyn, tölu, fall, tíð, o.s.frv. • Lemmari: Finnur nefnimynd (lemmu, orðabókarmynd) orða í texta. T.d. hestsins > hestur • Orðalistar: Þýðingar, t.d. milli íslensku og ensku • Ýmsar slíkar einingar eru þegar til fyrir íslensku
Dæmi um notkun eininganna • Útlendingar sem eru að læra íslensku hefðu gagn af því að geta hægrismellt á orð á vefsíðu til að fá upp lista með mögulegum enskum þýðingum • Að sumu leyti gagnlegri þjónusta en vélræn þýðing á samfelldum texta • Sá sem er að læra málið notar kunnáttu sína í nýja málinu til að átta sig á formgerð setningarinnar og merkingu þeirra orða sem hann þekkir – og notar svo samhengið til að átta sig á hvaða þýðing á við ef möguleikarnir eru fleiri en einn. • Gott að geta fækkað möguleikunum, t.d. miðað við orðflokk (no. móðir ‘mamma’ / lo. móðir ‘þreyttir’)
Meginvandi tungutækninnar • Þrátt fyrir að hægt sé að ná árangri í að koma upp tungutækni fyrir minni málsvæði er sviðið skelfilega enskumiðað • Óensk mál standa frammi fyrir tveim meginvandamálum sem slík • Minna til af auðlindum (peningum og fólki) • Málin eru málfræðilega ólík ensku (setningakerfi, orðhlutakerfi, hljóðkerfi) og þess vegna virka aðferðirnar sem notaðar eru fyrir ensku ekki nógu vel • Lausnir á þessum vandamálum eru gríðarlega verðmætar
Enska og auðlindir • Til eru viðamiklir gagnagrunnar um enska tungu sem verða sífellt fullkomnari enda er úr talsverðum mannafla og fé að spila • Wordnet: Gagnagrunnur sem kortleggur merkingarvensl í enska orðasafninu • Penn-treebank: Málheild sem hefur verið greind setningafræðilega af mikilli nákvæmni • Nauðsynlegt að þróa aðferðir til að flýta þróun á sambærilegum gagnagrunnum fyrir önnur mál • Tækifæri fyrir íslenska tungutækni
Enska og ólík málkerfi • Enska hefur ekki mjög ríkulegar beygingar og því hefur ensk tungutækni komist upp með að sniðganga vandamál (og tækifæri) beygingamála • Málum með flókin beygingakerfi er því að sumu leyti illa sinnt í tungutækni • Mikilvægt að skilja hvaða upplýsingar felast í beygingarendingum og hvernig þær má nota • Tækifæri fyrir íslenska tungutækni
Tækifæri „Ég er kannski ekki eins og fólk er flest, en kreppan fyllir mig bjartsýni.“ (Hlíf Árnadóttir 7. október 2008)