360 likes | 538 Views
Stavningsstöd, termexpansion och kategorisering. Hercules Dalianis NADA-KTH Email: hercules@nada.kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules. Stavningsstöd, termexpansion och kategorisering. Långa frågor och frassökning Stavningsstöd i sökmotorer KWIC Key-words-in-context
E N D
Stavningsstöd, termexpansion och kategorisering Hercules Dalianis NADA-KTH Email: hercules@nada.kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules
Stavningsstöd, termexpansion och kategorisering • Långa frågor och frassökning • Stavningsstöd i sökmotorer • KWIC Key-words-in-context • Termexpansion för bättre sökning • Kategorisering • Klustring
Medelfrågan 1,8 ord • Längre frågor ger bättre svar • Större inmatningsfält • Stemming och särskrivning • Frassökning • Sökning i fler filtyper PDF, PowerPoint, Ljudfiler, Bildfiler, • Sökning på fler språk
Stavningsstöd vid sökning • Många felstavade sökord i sökmotorer 10 % minst • Stavningsstöd => fuzzy matching
Sex olika typer av stavfel • Personer som inte kan inte stava rätt- dyslektiker, andraspråksanvändare, m.fl. • Slarvfel - slinter på tangentbordet • Osäkra på stavningen • Alternativa stavningar av ord i indexet (Namn stavas på olika sätt) • Felstavningar i indexet • Särskrivningar eller hopskrivningar
Många felstavningar i sökmotorer • 10 procent av alla sökfrågor är felstavade (1 miljon sökfrågor på RSVs webbplats, (Dalianis 2002)) • Google pressrelease (2002) säger samma sak • 10 procent av alla sökfrågor är felstavade på Sunets webbkatalog (Stolpe 2002) • Euroling-SiteSeeker loggar säger 10-12.5 procent felstavade sökfrågor (på 1 miljon sökfrågor totalt)
Stava används i Lexin en webbaserad ordbok, med bl.a. svensk-engelsk ordbok • 7 miljoner uppslagningar per månad och där har man upp till 33 procent felstavningar totalt
Dynamiskt stavningsstöd • Indexet är lexikonet • Alla ord i indexet är rätt även felstavade ord. • Om ett sökord ej finns i indexet försöker stavningsstödet hitta närmaste editerings-avstånd av sökordet till ett ord i indexet. • Provar med olika näraliggande tangentbordsättningar
På RSV sökmotor med stavningsstöd korrigerades 90 procent av stavfelen • 40 procent av förslagen var särskrivningar (datamässigt tungt) • 29 procent var felstavningar • Dokumentsamlingen innehöll drygt 5 000 dokument
I ett annat kontrollerat experiment på 79 000 svenska nyhetstexter ökade precisionen och täckningen med 4 respektive 11.5 procent om man hade stavningsstöd (Sarr 2003). • Nästan samma korpus användes för att visa att svensk stemming ökade precisionen och täckningen med 15 resp 18 procent (Carlberger et al 2003).
Att göra automatisk särskrivning är datamässigt tungt • rättstavning => rätt stavning • Hopskrivningar lätt att göras automatiskt rätt stavning => rättstavning text sammanfattning => textsammanfattning • Google, SiteSeeker
Stemming • Stemming (Carlberger et al 2001) • Bilverkstad => bilverkstaden, bilverkstäder, mm • 15-18 procent bättre träffar vid sökning på svenska. • Andra språk upp till 30-50 procent bättre träffar
Trunkering (bilverkst*) • Frågeexpansion- generera alla böjningsformer • bilverkstad, bilverkstaden, bilverkstadens, bilverkstäder, bilverkstäderna, bilverkstäderna, mm • Samma effekt som stemming men mer kostsamt datamässigt
KWIC • KWIC- Key word in contextExtrakt av relevanta textutdrag • De första sökmotorerna hade bara länkadressen och kanske första orden i den indexerade texten • Tvungen att klicka in i alla dokument • Textsammanfattare SweSum ihopkopplad med Altavista 1999 !!
Sökmotorer med KWIC • Google • AltaVista • Fast • SiteSeeker • har alla KWIC idag
Synonymgenerering • Termexpansion vore bra att ha • Bilverkstad => bilverkstad, bilreparation, garage, verkstad • Man vill slippa använda synonymlexikon
LSI Latent Semantic Indexing (LSA Latent semantic analysis) • Bygger på vektorrymdsmodellen • Termer som befinner sig nära varandra kanske har med varandra att göra. • Tidskrävande • Samförekomster • bilverkstad, bilreparation, bilskada, garage, Volvo, Sverige, mm
Random Indexing mer effektivt än LSI/LSA • Approximering av LSI/LSA • Skapar färre dimensioner än LSI/LSA • Lättare att uppdatera
Google synomymsökning • ~volvo => car, cars • ~volvo ~car ~cars=> motor car, volvo cars • ~volvo -volvo ~car -car => 240, motor, vehicle • ~car => BMV, auto, automotive, cars • ~car -car => automotive, motor, racing
Kategorisering vid indexeringoch sökning • Automatisk språkigenkänning - svenska, engelska, kinesiska, mm • Dokumenttyp HTML, Word, Excel, PDF mm • Datum • Kategorier i form av server, domän, eller land
Kategorisering • Kategorier finns även på webbplatser • Kommuner tex • Kommunförvaltning • Skolor • Fritid • Kultur • Socialförvaltning • Övrigt
Kategorisering föränderligt • På många webbplatser ändrar sig eller läggs kategorier till efter hand • De färdigvalda kategorierna blir snabbt obsoleta • Automatisk kategorisering genom bra exempel? • Men de flesta använder inte kategorier vid sökning
Klustring • Klustring är klurigt • Enligt vilka mått skall man klustra? • Cosine = Vinkeln mellan texternas vektorer (enligt vektorrymdsmodellen) • Andra mått • Antal ord som texterna delar • Antal ord som delas samt ordfrekvenserna • Normalisering
Klustringalgoritmer • Hierarkiska • Korpusen delas upp i några få kluster därefter arbetar sig algoritmen nedåt • Icke hierarkiska • Utgå från den enskilda texten och arbeta uppåtRosell 2003 om man vill läsa mera
Kategorisering • Överlappande eller icke överlappande kategorier • Polyethic och Monothetic överlappande och icke överlappade egenskaper • Ordnade eller icke ordnade kategorier
Vivisimo klustringssökmotorn • Sökmotorn Vivisimo www.vivisimo.com har en klustrare • Tar de första 500 bästa träffarna och klustrar dem
Klustring • Rosells klustrare (2002, 2003) klustrade 5 000 svenska nyhetstexter • K-mean icke-hierarkisk algoritm • Använde stemming och ordledsuppdelning • Stemming förbättrar klustringsresultaten med ungefär 5 procent. • Sammansättningsuppdelning förbättrar resultaten med 10 procent och en kombination ger 13 procents förbättring (Rosell 2003).
Rosell kunde jämföra sina automatiska kluster med de kategorier som nyhetstexterna kom ifrån från början • Därigenom kunde han se hur pass bra klustren blev.
Slutsatser • Framtiden • Termexpansion • Särskrivning • Semiautomatisk kategorisering • Flerspråklig sökning