140 likes | 251 Views
SpråkVis – Språkteknologisk vismansrapport. Krister Lindén, Kimmo Koskenniemi och Torbj ørn Nordgård. Mandat. Nordiska Ministerrådet tioårsplan nordiska (och baltiska) länderna ledande region i språkteknologi Identifiera! nyckelområden storlek på nödvändiga investeringar
E N D
SpråkVis – Språkteknologisk vismansrapport Krister Lindén, Kimmo Koskenniemi och Torbjørn Nordgård
Mandat • Nordiska Ministerrådet • tioårsplan • nordiska (och baltiska) länderna • ledande region i språkteknologi • Identifiera! • nyckelområden • storlek på nödvändiga investeringar • samarbetspartners • samarbetsformer • Åtgärdsförslag
Arbetsform • bakgrundsinformation • tidigare projekt i norden → bakgrund • tidigare projekt i de nordiska länderna → projettabeller • policydokument och rapporter → referencer • frågeformulär • hinder, vision, åtgärdsförslag (70 inbjudna) • 30 svarade → nyckelområden
Bakgrund • Nordisk Sprogteknologisk Forskningsprogram 2000-2004 • höja profilen för det nordiska språksamfundet • säkerställa god nordisk språkteknologi för användarna • ca. 5 miljoner DKK årligen (23 278 500 DKK) dvs. Norden 0,6 M€/år (tot. 3,1 M€)
Nordiska länder Land Årligen Per invånare • Danmark 0,9 M€ 0,2 € • Finland 2,1 M€ 0,4 € • Island 0,2 M€ 0,7 € • Norge 3,1 M€ 0,7 € (0,2 €) • Sverige 1,6 M€ 0,2 € • Norden 0,6 M€ 0,02 €
Vad gjordes för pengarna? Land Text Tal • Danmark x (x) • Finland (x) x • Island x (x) • Norge x x • Sverige x (x) • Norden x (x) • Är det vettigt att på nordisk nivå göra precis som i de enskilda nordiska länderna? Kan man fördela arbetet? Det finns ju gott om uppgifter. • Vad kan man göra med offentliga medel på nordisk nivå som gynnar alla och samtidigt gynnar en marknad för språkteknologi?
Vad borde göras? Nyckelområden: • Policy • Resurser • Forskning och utveckling • Utbildning och undervisning • Lagstiftning • Affärsverksamhet
Policy • språkteknologi har en nyckelposition för våra språk och vår kultur → behöver språkteknologisk infrastruktur • små språksamfund kommer inte att få språkteknologi på kommersiella grunder→ behöver statligt stöd • på nordisk nivå behöver vi komma överens om rekommendationer→ BLARK-rapport bör utarbetas där de grundläggande språkresurserna i Norden kartläggs 10-25 k€/språk • på nordisk nivå kan vi stöda sådant som alla har nytta av→ metoder, standarder, avtalsmodeller (medan korpus bör samlas in på nationell nivå) • arbetet behöver koordineras→ en förening för tal- och språkteknologi: NEALT (Northern European Association for Language Technology) 50 k€
Resurser • Resurser för språkteknologisk infrastruktur • färdig uppsättning moduler • morfologiska och syntaktiska analysatorer och generatorer (2-5 M€) • redskap • för att bygga ovanstående (2-5 M€) • korpus • annoterade och oannoterade (10-15 M€ per språk) • lexikon • tal och skriftspråk (10 M€ per språk) OBS! Vi måste göra något för att få ner utvecklingskostnaderna på korpus och lexikon för språkteknologisk forskning och produktuvecklingt.ex. genom lagstiftning och avtal
Forskning och utveckling • Det borde vara praxis att forskare gör sina lingvistiska resurser tillgängliga för andra med så fria licensavtal som möjligt → modellavtal 50 k€ • Dessutom bör vi överväga att öppna upp språkteknologiska resurser som utvecklats med offentliga medel → vi bygger nordisk infrastruktur • Vi har ju inte offentligt finansierade vägar enbart i privat bruk! • Vi bör utveckla API-standarder, kvalitetsstandarder och testmetoder för färdiga moduler → 15 M€ • På nationell nivå bör vi satsa på specialområden där de olika länderna har kärnkompetens: • grundforskning 15 M€ • tillämpad forskning 50-80 M€
Utbildning och undervisning • En tillräcklig mängd specialister bör behärska de mest avancerade språkteknologiska färdigheterna • Dokumentera existerande resurser 1 M€ • Utveckla material för undervisning av formell språkkunskap i skolorna 1 M€ • Introduktionsmaterial för att distansutbilda personalen inom IT-industrin i språkteknologi 50 k€ • Vetenskaplig tidskrift på internet för NEALT 50 k€ • Master's utbildningen diversifieras genom distansundervisning, utbytesprogram, gemensamma utbildningsprogram 2 M€ • Koordinera doktorsutbildningen: NGSLT 1 M€
Lagstiftning • Lagstiftningen bör ändras så att det blir möjligt att samla in, annotera och sprida text- och talkorpus för forskning och utveckling av språkteknologiredskap utan att det strider mot kopieringskyddet 10 k€ • Dessutom måste vi på oliks sätt motarbeta tendensen att det utfärdas programvarupatent på UPPENBARA eller EXISTERANDE lösningar.
Affärsverksamhet • Licensvillkoren för språkteknologiresurser måste tillåta och uppmuntra både kommersiell och akademisk användning. • Tillämpad forskning på medellång sikt bör uppmuntras nationellt för att skapa tillämpningar som utnyttjar språkteknologi 5 M€ • Man kunde stimulera marknaden för språkteknologi genom att anslå medel för den offentliga sektorn att utveckla service med språkteknologiska hjälpmedelmedel 5 M€
Åtgärdsplan Vi föreslår att resurser allokeras för: • Etablering av NEALT och dess arbetsutskott • Mandat för att utarbeta BLARK-rapporter för de nordiska språken • Nordisk finansiering av samarbete inom språkteknologisk utbildning och undervisning • Nationell finansiering av tillämpad forskning på medellång sikt i samarbete mellan universitet och industri När BLARK-rapporterna har färdigställts, bör resurser under NEALTs koordinering allokeras för: • nordisk finansiering av språkteknologiska redskap baserade på BLARK-rapporternas rekommendationer • nordisk och nationell finansiering av korpus, trädbanker, och lexikon i enlighet med BLARK-rapporterna