1 / 9

Hvad handler tekster om?

Hvad handler tekster om? Eksempler på brugen af automatisk klassifikation og tagging i online nyhedsmedier. Rune Stilling RDFined. Hvad handler tekster om?. “En fjerdedel af landets 400.000 husejere med eget naturgasfyr skal inden 2020 flyttes over på den grønnere fjernvarme .

bette
Download Presentation

Hvad handler tekster om?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Hvad handler tekster om? Eksempler på brugen af automatisk klassifikation og tagging i online nyhedsmedier. Rune Stilling RDFined

  2. Hvad handler tekster om? “En fjerdedel af landets 400.000 husejere med eget naturgasfyr skal inden 2020 flyttes over på den grønnere fjernvarme. Det ønsker klima- og energiminister Martin Lidegaard, der på den måde vil spare 40 procent af CO2-udledningen, skriver Jyllands-Posten. Kunderne skal betale for omstillingen, men også de tilbageværende gaskunder, skal betale en del af regningen, og det vækker vrede i Parcelhusejernes Landsforening (PL).” (DR NYHEDER 28. Oktober 2012)

  3. Dagsorden • Om brugen af tagging i online nyheder • Hvorfor gør man det? • Hvad er det man gør? • Hvilken rolle spiller (sprog)teknologien? • Udfordringer og perspektiver • Samarbejde om basisteknologi • Fælles fundament? • Samarbejde mellem konkurrenter?

  4. Hvorfor er tagging relevant? • Fordi man gernevilkunnelinkebrugernetilrelateretindhold • Fordi man gernevil muliggøre overvågningbaseretpå et emne/tema • Fordi man gerneviltilbyde et mere brugbartsøgeresultat, somgiver bedre overblik

  5. Eksempler på tagging • Relateret indhold: Berlingske Business, Børsen, DR, m.fl. • Tema/overvågning: Kristelig Dagblad, Information, Infomedia, Berlingske, m.fl. • Metadata og facetteret søgning: Information, Infomedia

  6. (Sprog)teknologi Først og fremmest fastlægning af betydning på ordniveau og rangering af nøgleord via simple brute force metoder (sprogteknologisk baseline): • Søgning (dansk eller ej): Alle • Genkendelse af navne: Berlingske, Børsen, DR, Infomedia, Information • Nøgleordsudtræk: Berlingske, DR, Infomedia, Information • Emnekategorisering: Infomedia, (DR) • Relateret indhold: Berlingske, Børsen, DR

  7. Typiske problemer • Flertydighed generelt (f.eks. stemme, valg, sand, osv.) • Metaforisk anvendelse (flertydighed) • Ukomplette forespørgsler (manglende tekstforståelse) • Manglende værktøjer (som er dyre at udvikle) • Stort spring fra baseline (enkeltord, søgning) til ”ægte” tekstforståelse

  8. Perspektiver Når nu de fleste har implementeret baseline, hvad bliver det næste? • Mere automatisering • Deling og udbygning af ordbøger, navne, etc. især med fokus på kontekst • Er der fortsat en business case i at videreudvikle baseline hos online nyhedsmedier? • Ægte tekstforståelse, f.eks.: • ”Valg i USA” • ”Fusioner mellem danske virksomheder” • ”Dansk udenrigspolitik” • Kan nyhedsmediernes erfaringer og brug af sprogteknologi overføres til andre brancher?

  9. Samarbejde eller konkurrence • Positivt at private virksomheder er begyndt selv at tage hul på det sprogteknologiske område • Men - der spildes en del resourcer i Danmark på, at organisationer vedligeholder samme type data hver især. Det giver ingen konkurrencefordele, for alle gør alligevel det samme! • Alle der gør brug af baseline burde samarbejde om at vedligeholde nogle grunddata, hvilket ikke er gratis, men dog billigere end at gøre al arbejdet selv

More Related