180 likes | 359 Views
..::Språkteknologi och söktjänster – idag och imorgon::.. Presentation på Chals 2004. monica.lassi@hb.se http://www.adm.hb.se/personal/mol. Inst. Biblioteks- och informationsvetenskap/ Bibliotekshögskolan, Högskolan i Borås.
E N D
..::Språkteknologi och söktjänster – idag och imorgon::.. Presentation på Chals 2004 monica.lassi@hb.se http://www.adm.hb.se/personal/mol Inst. Biblioteks- och informationsvetenskap/Bibliotekshögskolan, Högskolan i Borås Sveriges nationella forskarskola i språkteknologi, Göteborgs universitet Monica Lassi
Översikt • Dagens söktjänster • Indexering • Några problem • Natural Language Processing (NLP) • Några lösningar på problemen • Hur långt har man kommit? • Några exempel • Vad händer framöver? ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..
Funktioner i ett söksystem • Representation • Indexering • Lagring • Matchning • Presentation • Relevansrankning ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..
Indexering – varför och hur Mål: att utse termer som • är goda representanter för innehållet i ett dokument • skiljer ett dokument från resten av dokumenten i en dokumentsamling Automatisk indexering • datorprogram utser indexeringstermer m.h.a. algoritmer. Till största delen en statistisk process. ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..
Automatisk indexering - viktning TF (Termfrekvens) • Mått på en terms frekvens i ett dokument • Hög vikt till termer med hög frekvens IDF (Invers dokumentfrekvens) • Mått på en terms frekvens i en dokumentsamling • Hög vikt till termer med låg frekvens TF*IDF • Vikten baseras på termens frekvens i dokumentet, relaterat till dess frekvens i hela dokumentsamlingen • Bra termer är sådana som förekommer frekvent i ett fåtal av samlingens dokument ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..
Några problem • Morfologisk variation • Böjning av ord (substantiv, verb) – soffpotatis, soffpotatisarnas… dissa, dissar, dissat… • Problem: systemet missar en mängd relevanta dokument • En stavning, olika betydelser (homonymer) • ljus = inte_mörk (adj), ljuskälla (s) • Problem: systemet återvinner en mängd irrelevanta dokument • Liknande betydelse, olika ord (synonymer) • roligt ≈ kul, lattjo, lajban, skoj, angenämt… • Problem: systemet missar en mängd relevanta dokument ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..
Översikt • Dagens söktjänster • Indexering • Några problem • Natural Language Processing (NLP) • Några lösningar på problemen • Hur långt har man kommit? • Några exempel • Vad händer framöver? ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..
Natural Language Processing • En samling metoder för att på automatisk väg analysera naturligt språk • Ämnen • Datalingvistik, språkteknologi, Biblioteks- och informationsvetenskap (främst IR) m.m. • Tillämpningar, ex • Automatisk översättning av text • Talsyntes, talförståelse • Dialogsystem ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..
Morfologisk analys • Normalisering - stemming/lemmatisering • När det fungerar som det ska: • soffpotatis, soffpotatisen, soffpotatisar, soffpotatisarnas… soffpotatis • dissa, dissade, dissat, dissats… dissa • När det inte fungerar så bra: • organization, organize, organized, organ, organs organ • Möjliggör att sökning på en stavning automatiskt ger alla stavningsvarianter ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..
Syntaktisk analys • Satsers/meningars uppbyggnad • Ordklasstaggning • ljus = inte_mörk (adj), ljuskälla (s) • Hon (pron) klappade (v) händerna (s) och (konj) plötsligt (tidsadv) tändes (v) ljuset (s) • Möjliggör bl.a. sökning i naturligt språk, viss homonymiresolution… • Frasigenkänning • ’information retrieval’, ’statistiska metoder’ • Görs bl.a. genom statistiska metoder (samförekomstberäkningar) och ordklasstaggning • Möjliggör bl.a. frassökning ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..
Semantisk analys • Termers betydelse • Disambiguering • Analys av samförekomst • Lexikon/korpus/tesaurus • Regler • Bete(s) är en typ av… • Alt. 1) huggtand på en elefant • Alt. 2) …mark • Alt. 3) … agn vid fiske • Vad gillar abborrar för [bete (Alt. 2)]? • Möjliggör mer utvecklad homonymiresolution, sökning på begrepp snarare än termer… ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..
Pragmatisk & diskursanalys • Analys av texter större än en enda mening • Förstå vad en del av en text har för roll i ett dokument • Anafora – ord som refereras till • ’Marie berättade att hon besteg Kaisepakte när hon var hemma i Kiruna senast.’ • Möjliggör fler betydelsebärande ord i dokument förändrade vikter (TF*IDF) • Ellipser – utelämnade ord/satser • ’Monica önskar att hon också vågade [bestiga Kaisepakte när hon var hemma i Kiruna senast].’ • Möjliggör fler betydelsebärande ord i dokument förändrade vikter (TF*IDF) ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..
Översikt • Dagens söktjänster • Indexering • Några problem • Natural Language Processing (NLP) • Några lösningar på problemen • Hur långt har man kommit? • Några exempel • Vad händer framöver? ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..
Ask Jeeves • http://ask.com • Hanterar frågor ställda i naturligt språk (engelska) • Specifika domäner/områden och ord • Faktafrågor, kändisar, relaterade sökord… • President, capital, country, currency… • Resultatet av analysen kan skickas vidare till andra söktjänster • Omvandling till varje söktjänsts eget sökspråk ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..
Söktjänsters funktioner • Stemming • http://looksmart.com • http://msn.com • http://google.com • http://bubl.ac.uk • Stavningskontroll • http://google.com • http://alltheweb.com • Trunkering • http://altavista.com ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..
Framtiden – några trender • Från termer till begrepp • Semantisk analys • Visualisering • Tesaurer/kartor för browsing – komplement till standardsökningar • Dokument http://www.kartoo.com/ • Termer http://www.visualthesaurus.com/ • Specifika domäner • Fortsättning på bl.a. AskJeeves olika tjänster • Ordböcker, översättningar ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..
..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..
Länkar Funktioner i söktjänster (Mycket händer. Hela tiden) • Search Engine Showdown http://www.searchengineshowdown.com • Search Engine Watch http://www.searchenginewatch.com Forskning på området (Sverige) • Institutionen biblioteks- och informationsvetenskap/Bibliotekshögskolan, Högskolan i Borås http://hb.se/bhs • Nationella forskarskolan i språkteknologi http://www.gslt.hum.gu.se ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..