340 likes | 459 Views
Selvfølgelig snakker vaskemaskiner både grønlandsk og samisk i fremtiden (Frit efter Norsk Språkråds Jeg er en snakkende vaskemaskin ! med tak for inspirationen). Sjur Nørstebø Moshagen & Per Langgård. Grønlandsk sprogteknologi – en dårlig start for 10 år siden.
E N D
Selvfølgelig snakker vaskemaskiner både grønlandsk og samisk i fremtiden (Frit efter Norsk Språkråds Jeg er en snakkende vaskemaskin! med tak for inspirationen) Sjur Nørstebø Moshagen & Per Langgård
Grønlandsk sprogteknologi – en dårlig start for 10 år siden • Nem kick-start på den fagre nye verden (troede vi). 350.000 grønlandske ord • Den første listebaserede stavekontrol virkede ikke og drænede alle ressourcer et par år
Grønlandsk sprogteknologi – Der sker endelig noget i 2005 • Tromsø giver en stooooor hjælpende hånd og vi kommer i gang med at opbygge en xfst-baseret automat • NMR frikøber undertegnede et halvt år • Stavekontrollen vers. 1 oktober 2006 • Dækning omkr. 80%
Grønlandsk sprogteknologi – Ørkenvandringen 2007-10 • Finansieringsproblemer. Projektet periodevis nedlukket, når ekstern finansiering svigter • Kukkuniiaat vers. 2 med 90% dækning • Disambiguering påbegyndes, Katersat fornys og udvides
Grønlandsk sprogteknologi – Fuld finansiering 2011-13 • 2 heltidsansatte medarbejdere plus studentermedhjælp • Kukkuniiaat vers. 3; online tools; Katersat nu over ¼ mio. poster på grønlandsk, dansk og engelsk
Grønlandsk sprogteknologi – Fremtiden tegner lyst • 2 heltidsansatte medarbejdere på finansloven fra 1.1.2014 • For første gang nogensinde interesse for sprogteknologi blandt Ilisimatusarfiks højst ydende studerende
Grønlandsk – Hvad vi er oppe imod 1 • Tanngassimaarutigingaatsiarparput tamaa-nga oqalugiariartoqquneqarsimagatta • (Vi er lidt stolte over, at vi er blevet bedt om at rejse hertil for at levere en forelæsning)
Grønlandsk – Hvad vi er oppe imod 2 • Tanngassimaarutigingaatsiarparput tamaanga oqalugiariartoqquneqarsimagatta • tanngap+SIMAAR+vv+UTE+vn+GE+nv+ • NGAAR=TSIAR+vv+V+Ind+1Pl+3SgO, @PRED • TA+manna+DemAdv+Trm+Sg, @ADVL> • oqalugiar+GIARTUR=QQU=NIQAR=SIMA+vv+V+ • Cau+1Pl, @CL-<CIT
Grønlandsk – Hvad vi er oppe imod 3 • Ambiguitetsniveauet er skyhøjt: • atuarfinni – atuarfik+Lok+Pl – i nogle skoler • atuarfinni – atuarfik+Lok+1SgPoss+Sg – i min skole • atuarfinni – atuarfik+Lok+1SgPoss+Pl – i mine skoler • atuarfinni – atuarfik+Lok+2SgPoss+Sg – i din skole • atuarfinni – atuarfik+Lok+2SgPoss+Pl – i dine skoler • atuarfinni – atuarfik+Abs+4SgPoss+Sg – sin skole
Grønlandsk – Det som er vores politiske virkelighed • Kapitel 7 i Selvstyreloven af 2009 (in toto) • Sprog • § 20. Det grønlandske sprog er det officielle sprog i Grønland.
Overordna mål • språka skal overleva og utviklast • må brukast - eit ubrukt språk er eit daudt språk • før: bruk = tale • i går: bruk = tale + penn/papir • i dag: bruk = tale, data, penn/papir • utan teknologi => ingen skriftkultur, berre tale
Domene • før: i heile det samiske samfunnet • i går: ikkje i det heile - berre heime - i visse samiske institusjonar • i dag: kamp for å ta tilbake tapte domene og tapte talarar Institusjonsbruk: • alle samiske institusjonar (kanskje med delvis unnatak for Samisk høgskule) blir administrerte på majoritetsspråket • målsetjing: • Sameland skal fungera heilt på samisk - på tvers av landegrensene • alle samiske institusjonar skal fungera og bli administrerte heilt på samisk • det skal vera eit samfunnsberande språk i Sápmi Om ikkje Sametinget kan fungera på samisk - kven då?
Sosial status og demografi • før: sjølvsagt - det einaste språket som fanst for dei fleste • i går: kraftig stigmatisert, samiskspråklege minkar kraftig i tal • i dag: stigmaet er borte mange stader, men ikkje over alt / for alle, minkinga har stoppa opp • målsetjing: • høg sosial status • fleire talarar - bør på sikt veksa raskare enn resten av folkesetnaden • fleire kommunar med samisk som fleirtalsspråk (i dag berre ein)
Tilhøve mellom majoritet og minoritet • før: meir eller mindre likeverdige • i går: undertrykking • i dag: stor ubalanse, på majoriteten sine premiss • målsetjing: balanse på minoriteten sine premiss • det er København og Oslo som skal læra seg å forstå grønlandsk og samisk, ikkje omvendt (det siste skjer uansett...) • kommunikasjon med storsamfunnet bør langt på veg nytta (maskin)omsetjing og tolking
Samisk (og grønlandsk m.m.fl.) på data • ein føresetnad for aktiv bruk i dag • eit viktig verkemiddel for å heva statusen • òg viktig for å vinna att tapte domene og koma inn på nye Eit språk som ikkje finst på digitale plattformar er dødsdømt på sikt
Kva trengst for heilt elementær databruk? • teiknsett - OK (Unicode) • skrifter - Ikkje OK • dei fleste fontar inneheld ikkje alle teikn for å skriva dei fleste samiske skriftspråk • tastatur - Ikkje OK • fekk for Linux, Mac, Win kring 2003 • ... men med Android, iOS, og Windows Phone/RT er vi tilbake på rute 1
Kva trengst for full tilgang til alle databaserte tenester? Det same som for andre språk: • retteprogram • ordbøker • maskinomsetjing • omsetjingsminne • terminologi • korpus • parallellkorpus • syntaktisk analyse • ...
eSápmi (starta 2002) • eit prosjekt for å planleggja og førebu ulike satsingar for å gjera samisk tilgjengeleg og brukande på digitale plattformar • planla Divvun-prosjektet (korrekturprogram), talesyntese og eit samisk korpus • alle desse prosjekta vil vera gjennomførte neste år (talesyntese på gang, resten ferdig) • der er den talande vaskemaskina 😊
For å arbeida mot måla nemnde tidlegare treng vi • For fyrstespråksbrukarar: • stavekontrollar, grammatikkontrollar, ordbøker, terminologi, omsetjingsverkty, talesyntese • For andrespråksbrukarar: • ordbøker, språklæring, terminologi, talesyntese, tilpassa korrekturverkty • For min-til-maj-kommunikasjon: • omsetjingsminne, ordbøker, terminologi, skrivestøtte, maskinomsetjing, parallellkorpus • For maj-til-min-kommunikasjon: • omsetjingsminne, ordbøker, terminologi, parallellkorpus • For min-til-min-kommunikasjon: • maskinomsetjing, omsetjingsminne, terminologi, parallellkorpus
Ikkje minst krev dei • ein infrastruktur som støttar fleirspråklegheit, og reduserer dobbeltarbeid så mykje som mogleg • meir arbeid og større innsats enn majoritetsspråka • det finst færre ressursar og det står meir på spel • open kjeldekode, inklusive for taleteknologien Dette er det vi kan og det vi vil...
We know where we want to go and we know how to get there • Men træerne vokser ikke ind i himlen – heller ikke nord for trægrænsen. Problemområder • Vanetænkning komplicerer dagligdagen • Få ressourcer og ressourcepersoner • Globale tendenser tegner mørke skyer
Behøver vore beskrivelser at være så komplicerede? • Grønlandsk ”grammatik” = oversættelse af ordlister til præskriptivt grønlandsk • Sproget er primært beskrevet i forhold til dansk/ engelsk, ofte af forskere med mangelfuld sprogbeherskelse
Behøver vore beskrivelser at være så komplicerede? - II • Sprogbeskrivelsen er rimelig indtil morfologisk niveau, men .. • der findes ikke nogen autoritativ grønlandsk modersmålsgrammatik. Især syntaktisk og semantisk er grønlandsk næsten ubeskrevet
Behøver vore beskrivelser at være så komplicerede? - III • Sprogteknologi er ikke KUN en hjælp til ordlister og ikke KUN en støtte for L2 og ikke KUN til teknologi på ordniveau og ikke KUN .. • Vi skal lave redskaber, der håndterer naturligt sprog på alle niveauer og i alle funktioner
Behøver vore beskrivelser at være så komplicerede? - IV • JA, desværre for virkeligheden er kompliceret, når et naturligt sprog beskrives immanent • (men vi ved godt at det er svært at forstå for udenforstående)
Der er ikke noget der hedder *minoritetssprogsrabat • Grønlandsk skal være et komplet og samfundsbærende sprog .. • så grønlandsk er lige så stort som alle andre samfundsbærende sprog
Heller ikke noget der hedder *sprogteknologisk metoderabat • Vellykket regelstyret teknologi forudsætter en gedigen beskrivelse af hele det faktiske sprog • så der er heller ingen nemme genveje metodisk
Google-syndromet • Hvorfor ikke bare hjælpe Google med at lave en grønlandsk Translate? Det virker jo fint på mange andre sprog • Udelukket af typologiske årsager, men et problem når synspunktet kommer fra politisk hold eller bevilgende instanser
?????? • Er dette ikke kulturimperialistisk/ eurocentrisk/akademikerhovmod etc. • 40 års forgæves søgen efter lokale alternativer uden resultat = erkendelse: • Store følelser og politisk korrekthed er ikke nok. Uden rationel planlægning og målrettet arbejde ingen resultater
Generationsskiftet truer • Grønlandsk i skolen er et dannelsesfag stort set blottet for instrumentelle aspekter og helt uden metasprog • Et kæmpeproblem for rekrutteringen ikke bare for os men for hele sprogrøgten
Verden truer • Vi løber hurtigt for at følge med udviklingen, men den store verden løber hurtigere – på engelsk og kinesisk! • På nettet og i den kommercielle verden er diversitet og ”small is beautiful” ikke plus-ord
En humlebi kan ikke flyve • Det gør den heldigvis alligevel • Vi flyver også videre uden at acceptere mission impossible. Dertil er kronjuveler-ne i Nordens sproglige diversitet alt for vigtige – nemlig den luksus at have levende, sunde minoritetssprog i egen baghave