90 likes | 258 Views
Hvad handler tekster om? Eksempler på brugen af automatisk klassifikation og tagging i online nyhedsmedier. Rune Stilling RDFined. Hvad handler tekster om?. “En fjerdedel af landets 400.000 husejere med eget naturgasfyr skal inden 2020 flyttes over på den grønnere fjernvarme .
E N D
Hvad handler tekster om? Eksempler på brugen af automatisk klassifikation og tagging i online nyhedsmedier. Rune Stilling RDFined
Hvad handler tekster om? “En fjerdedel af landets 400.000 husejere med eget naturgasfyr skal inden 2020 flyttes over på den grønnere fjernvarme. Det ønsker klima- og energiminister Martin Lidegaard, der på den måde vil spare 40 procent af CO2-udledningen, skriver Jyllands-Posten. Kunderne skal betale for omstillingen, men også de tilbageværende gaskunder, skal betale en del af regningen, og det vækker vrede i Parcelhusejernes Landsforening (PL).” (DR NYHEDER 28. Oktober 2012)
Dagsorden • Om brugen af tagging i online nyheder • Hvorfor gør man det? • Hvad er det man gør? • Hvilken rolle spiller (sprog)teknologien? • Udfordringer og perspektiver • Samarbejde om basisteknologi • Fælles fundament? • Samarbejde mellem konkurrenter?
Hvorfor er tagging relevant? • Fordi man gernevilkunnelinkebrugernetilrelateretindhold • Fordi man gernevil muliggøre overvågningbaseretpå et emne/tema • Fordi man gerneviltilbyde et mere brugbartsøgeresultat, somgiver bedre overblik
Eksempler på tagging • Relateret indhold: Berlingske Business, Børsen, DR, m.fl. • Tema/overvågning: Kristelig Dagblad, Information, Infomedia, Berlingske, m.fl. • Metadata og facetteret søgning: Information, Infomedia
(Sprog)teknologi Først og fremmest fastlægning af betydning på ordniveau og rangering af nøgleord via simple brute force metoder (sprogteknologisk baseline): • Søgning (dansk eller ej): Alle • Genkendelse af navne: Berlingske, Børsen, DR, Infomedia, Information • Nøgleordsudtræk: Berlingske, DR, Infomedia, Information • Emnekategorisering: Infomedia, (DR) • Relateret indhold: Berlingske, Børsen, DR
Typiske problemer • Flertydighed generelt (f.eks. stemme, valg, sand, osv.) • Metaforisk anvendelse (flertydighed) • Ukomplette forespørgsler (manglende tekstforståelse) • Manglende værktøjer (som er dyre at udvikle) • Stort spring fra baseline (enkeltord, søgning) til ”ægte” tekstforståelse
Perspektiver Når nu de fleste har implementeret baseline, hvad bliver det næste? • Mere automatisering • Deling og udbygning af ordbøger, navne, etc. især med fokus på kontekst • Er der fortsat en business case i at videreudvikle baseline hos online nyhedsmedier? • Ægte tekstforståelse, f.eks.: • ”Valg i USA” • ”Fusioner mellem danske virksomheder” • ”Dansk udenrigspolitik” • Kan nyhedsmediernes erfaringer og brug af sprogteknologi overføres til andre brancher?
Samarbejde eller konkurrence • Positivt at private virksomheder er begyndt selv at tage hul på det sprogteknologiske område • Men - der spildes en del resourcer i Danmark på, at organisationer vedligeholder samme type data hver især. Det giver ingen konkurrencefordele, for alle gør alligevel det samme! • Alle der gør brug af baseline burde samarbejde om at vedligeholde nogle grunddata, hvilket ikke er gratis, men dog billigere end at gøre al arbejdet selv