1 / 18

Monica Lassi

..::Språkteknologi och söktjänster – idag och imorgon::.. Presentation på Chals 2004. monica.lassi@hb.se http://www.adm.hb.se/personal/mol. Inst. Biblioteks- och informationsvetenskap/ Bibliotekshögskolan, Högskolan i Borås.

myron
Download Presentation

Monica Lassi

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. ..::Språkteknologi och söktjänster – idag och imorgon::.. Presentation på Chals 2004 monica.lassi@hb.se http://www.adm.hb.se/personal/mol Inst. Biblioteks- och informationsvetenskap/Bibliotekshögskolan, Högskolan i Borås Sveriges nationella forskarskola i språkteknologi, Göteborgs universitet Monica Lassi

  2. Översikt • Dagens söktjänster • Indexering • Några problem • Natural Language Processing (NLP) • Några lösningar på problemen • Hur långt har man kommit? • Några exempel • Vad händer framöver? ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..

  3. Funktioner i ett söksystem • Representation • Indexering • Lagring • Matchning • Presentation • Relevansrankning ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..

  4. Indexering – varför och hur Mål: att utse termer som • är goda representanter för innehållet i ett dokument • skiljer ett dokument från resten av dokumenten i en dokumentsamling Automatisk indexering • datorprogram utser indexeringstermer m.h.a. algoritmer. Till största delen en statistisk process. ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..

  5. Automatisk indexering - viktning TF (Termfrekvens) • Mått på en terms frekvens i ett dokument • Hög vikt till termer med hög frekvens IDF (Invers dokumentfrekvens) • Mått på en terms frekvens i en dokumentsamling • Hög vikt till termer med låg frekvens TF*IDF • Vikten baseras på termens frekvens i dokumentet, relaterat till dess frekvens i hela dokumentsamlingen • Bra termer är sådana som förekommer frekvent i ett fåtal av samlingens dokument ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..

  6. Några problem • Morfologisk variation • Böjning av ord (substantiv, verb) – soffpotatis, soffpotatisarnas… dissa, dissar, dissat… • Problem: systemet missar en mängd relevanta dokument • En stavning, olika betydelser (homonymer) • ljus = inte_mörk (adj), ljuskälla (s) • Problem: systemet återvinner en mängd irrelevanta dokument • Liknande betydelse, olika ord (synonymer) • roligt ≈ kul, lattjo, lajban, skoj, angenämt… • Problem: systemet missar en mängd relevanta dokument ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..

  7. Översikt • Dagens söktjänster • Indexering • Några problem • Natural Language Processing (NLP) • Några lösningar på problemen • Hur långt har man kommit? • Några exempel • Vad händer framöver? ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..

  8. Natural Language Processing • En samling metoder för att på automatisk väg analysera naturligt språk • Ämnen • Datalingvistik, språkteknologi, Biblioteks- och informationsvetenskap (främst IR) m.m. • Tillämpningar, ex • Automatisk översättning av text • Talsyntes, talförståelse • Dialogsystem ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..

  9. Morfologisk analys • Normalisering - stemming/lemmatisering • När det fungerar som det ska: • soffpotatis, soffpotatisen, soffpotatisar, soffpotatisarnas…  soffpotatis • dissa, dissade, dissat, dissats…  dissa • När det inte fungerar så bra: • organization, organize, organized, organ, organs  organ • Möjliggör att sökning på en stavning automatiskt ger alla stavningsvarianter ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..

  10. Syntaktisk analys • Satsers/meningars uppbyggnad • Ordklasstaggning • ljus = inte_mörk (adj), ljuskälla (s) • Hon (pron) klappade (v) händerna (s) och (konj) plötsligt (tidsadv) tändes (v) ljuset (s) • Möjliggör bl.a. sökning i naturligt språk, viss homonymiresolution… • Frasigenkänning • ’information retrieval’, ’statistiska metoder’ • Görs bl.a. genom statistiska metoder (samförekomstberäkningar) och ordklasstaggning • Möjliggör bl.a. frassökning ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..

  11. Semantisk analys • Termers betydelse • Disambiguering • Analys av samförekomst • Lexikon/korpus/tesaurus • Regler • Bete(s) är en typ av… • Alt. 1) huggtand på en elefant • Alt. 2) …mark • Alt. 3) … agn vid fiske • Vad gillar abborrar för [bete (Alt. 2)]? • Möjliggör mer utvecklad homonymiresolution, sökning på begrepp snarare än termer… ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..

  12. Pragmatisk & diskursanalys • Analys av texter större än en enda mening • Förstå vad en del av en text har för roll i ett dokument • Anafora – ord som refereras till • ’Marie berättade att hon besteg Kaisepakte när hon var hemma i Kiruna senast.’ • Möjliggör fler betydelsebärande ord i dokument förändrade vikter (TF*IDF) • Ellipser – utelämnade ord/satser • ’Monica önskar att hon också vågade [bestiga Kaisepakte när hon var hemma i Kiruna senast].’ • Möjliggör fler betydelsebärande ord i dokument förändrade vikter (TF*IDF) ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..

  13. Översikt • Dagens söktjänster • Indexering • Några problem • Natural Language Processing (NLP) • Några lösningar på problemen • Hur långt har man kommit? • Några exempel • Vad händer framöver? ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..

  14. Ask Jeeves • http://ask.com • Hanterar frågor ställda i naturligt språk (engelska) • Specifika domäner/områden och ord • Faktafrågor, kändisar, relaterade sökord… • President, capital, country, currency… • Resultatet av analysen kan skickas vidare till andra söktjänster • Omvandling till varje söktjänsts eget sökspråk ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..

  15. Söktjänsters funktioner • Stemming • http://looksmart.com • http://msn.com • http://google.com • http://bubl.ac.uk • Stavningskontroll • http://google.com • http://alltheweb.com • Trunkering • http://altavista.com ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..

  16. Framtiden – några trender • Från termer till begrepp • Semantisk analys • Visualisering • Tesaurer/kartor för browsing – komplement till standardsökningar • Dokument http://www.kartoo.com/ • Termer http://www.visualthesaurus.com/ • Specifika domäner • Fortsättning på bl.a. AskJeeves olika tjänster • Ordböcker, översättningar ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..

  17. ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..

  18. Länkar Funktioner i söktjänster (Mycket händer. Hela tiden) • Search Engine Showdown http://www.searchengineshowdown.com • Search Engine Watch http://www.searchenginewatch.com Forskning på området (Sverige) • Institutionen biblioteks- och informationsvetenskap/Bibliotekshögskolan, Högskolan i Borås http://hb.se/bhs • Nationella forskarskolan i språkteknologi http://www.gslt.hum.gu.se ..::Språkteknologi och söktjänster – idag och imorgon | Monica Lassi | Chals2004::..

More Related