110 likes | 199 Views
Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web. Mark W. Davis and William C.Ogden AAAI 1997. Inleiding. Cross-Language Text Retrieval (CLTR): vraag in taal a documenten in taal b eventueel eenvoudige vertaling Doelen/doelgroepen:
E N D
Implementing Cross-Language Text Retrieval Systems for Large-scale text Collections and the World Wide Web • Mark W. Davis and William C.Ogden • AAAI 1997
Inleiding • Cross-Language Text Retrieval (CLTR): • vraag in taal a • documenten in taal b • eventueel eenvoudige vertaling • Doelen/doelgroepen: • wat kennis taal, moeite met queries • eventueel zelf al beoordelen • eerste selectie voor laten vertalen
QUILT:Query User Interface with Light Translations • Prototype • Engelse queries vertaald naar Spaans • Documenten in Spaans, plus eenvoudige vertaling • Zoektermen highlighted • Vertaling zoektermen zo zichtbaar
Het proces: vertalingen zoeken • Engels: • zinsgrenzen • bepalen woordsoorten: POS-tagger • filteren: alleen nuttige POS • gebruik van Porter stemming en stoplist • Engels-Spaans: • opzoeken term in tweetalig lexicon: Spaanse equivalenten met zelfde POS Dit levert een verzameling mogelijke vertalingen voor elk woord
Het proces: disambiguatie • Gekozen voor gebruik van een parallel 'aligned' corpus (UN-teksten) • Engelse query levert documentvector van Engelse documenten • Voor iedere Spaanse term, voor ieder equivalent vector van Spaanse documenten • Equivalent met meest gelijke vector (normalized dotproduct) wordt gekozen
Voorbeeld • Engelse query How has the threat of swine fever affected international trade? • POS, filter, stemming, stoplist NN_threat NN_swine NN_fever VB_affect JJ_intern NN_trade • Equivalenten, voorbeeld NN_fever calentur|chuch|fiebr|pasm • Spaanse query menaz perr fiebr afect intern comerc • NB Engelse woorden die NIET vertaald kunnen worden worden Spaans gestemd en meegenomen
Evaluatie van systeem • Gebruik van TREC Spaanse testsets • Voor de queries gebruik van de Engelstalige querybeschrijvingen (=vertaling van de Spaanse querybeschrijvingen) • Evaluatie m.b.v. de pooled retrieved relevant set van de Spaanse systemen • Testen • gebruik alle equivalenten zonder selectie • met/zonder POS voor disambiguatie • met/zonder corpus voor disambiguatie • complete Quilt benadering
Resultaten NB: Het uiteindelijke IR systeem van QUILT is vrij basaal, kan verbeterd met b.v. gebruik van phrases en met automatische feedback (Rocchio)
Vertalen van documenten • Hier is gekozen voor een eenvoudiger vertaalproces: • zinsgrenzen • POS tagger • opzoeken in lexicon • meest frequente alternatief kiezen (frequentie op basis van heel groot corpus) • Engelse termen volledig, geen stemming • gebruiker kan ander alternatieven zien
Evaluatie van nut systeem • Echt evalueren levert problemen op omdat het doel anders is dan van "gewone" IR • Criterium : aantal correct door gebruiker geidentificeerde relevante documenten voor de queries • Pretest: kennis van Spaans • Test: vergelijken resultaten van gebruikers op zelfde niveau met en zonder gebruik van de vertaling • Alternatieve test: observatie keuze van middelen bij allerlei taken
Beschikbaarheid • Webversie van QUILT: Mundial http://crl.nmsu.edu/users/madavis/mundial.html functioneert niet (meer)? • Altavista gebruikt SYSTRAN, vele talen, commercieel product met vergelijkbare mogelijkheden