190 likes | 340 Views
Question-Answering systems (web-based). Kovačevic Milena 09/3255 k ovacevic.mln@gmail.com. Sadržaj. Uvod AskMSR arhitektura LAMP QA arhitektura izazovi. Question answering sistemi. Cilj QA sistema je da odgovori na postavljeno , konkretno pitanje
E N D
Question-Answering systems (web-based) Kovačevic Milena 09/3255 kovacevic.mln@gmail.com
Sadržaj • Uvod • AskMSRarhitektura • LAMP QA arhitektura • izazovi
Question answering sistemi • Cilj QA sistema je da odgovorinapostavljeno, konkretnopitanje • “Who killed Abraham Lincoln?”, “How tall is Mount Everest?” • Ne povlače se celestranice, best-matchingpasusi • Kao pomoćpripokušajurazumevanja user query-ja, QA sistemikoristeparsiranje, semantičkeveze, rčcnike
Question answering sistemi(1) • Automatski QA sistemi iz jednog, “skromnog” izvora informacija su izuzetno zahtevan problem – malo informacija, obično jedan odgovor na pitanje, komplikovano mapiranje iz pitanja u odgovor • Web QA Systems se baziraju na web-u kao redudantom izvoru informacija • ovde se fokusiramo na njih
Question answering sistemi(2) • Ovdecemoopisatiarhitekturudvarazličita QA sistema • AskMSR (Microsoft research) • LAMP (publicly accessible, University of Singapore)
AskMSR - System architecture Arhitekturasistemamožebitiopisana u 4 koraka • Query reformulation • N-gram mining • Filtering • N-gram tilling
AskMSR - Query reformulation “When was the paper clip invented?” :“The paper clip was invented” • Na generisanopitanjesistemgenerišeodređenbrojtzv. “rewrite strings”, kojisuuglavnomsubstringovipostavljenogpitanja • Običnestring-based manipulacije • Svakom rewrite-u je data određenatežina • Na kraju se (zasvakislčaj) uradiobicanANDingrečiu query-ju. Tako rewrite-ovaniupitimanajmanjutežinu
AskMSR - N-gram mining • Svaki rewrite-ovaniupit ide u search engine • Search engine tipčnoimaindeksiraneizvodeizstranica(a ne celestranice) • Izvraćenihizvodaskupljaju se N-gramikaoodgovorinapostavljeniupit • Unigrami, bigrami I trigrami se ekstrahujuidodeljujuim se težinenaosnovu: 1. rewrite-ovanog upitakojiih je povukaoi 2. brojauniqizvoda u kojima se javlja
AskMSR - N-gram filtering • Upit je napočetkuanaliziranidodeljen mu je jedan od 7 query tipova(who-question, what-question, how-many-question.. .) • Baziranona query type, sistemodlučujekoji od filtera da primenina set potencijalnihodgovoratokomkolekcije n-grama
AskMSR - N-gram tiling • Konačno, primenjuje se tiling algoritam • Pridružujuse odgovoriizrazlicitihfragmenata • “A B C” I “B C D” –> “A B C D”
AskMSR - Stabloodlucivanja • Predikcijaperformansisistema – da li cesistemdatidobarodgovor • Sistem se najogrepokazaokodpitanjakojipocinjusahow, najboljekodpitanjakojapocinjusawho
LAMP • Sistemubacujepitanje u search-engine Google, idohvataprvih 100 rezultatapretage • Rezultatsadrzi URL, naslovistring segment web dokumenta. • - bez URL – snipeti
Povlacenjeodgovora • Sistem koristi SVM da klasifikuje pitanja (90% tacnosti) • Za svaki odgovor sistem konstruiše snipet klaster sastavljen od svih snipeta koji sadrže taj odgovor • Snipeti klastera se predstavljaju kao vektori a = (a1, a2 ,..., an ), gde je n broj svih reci, a ai frekvenca i-te reci • Query je takodje predstavljen na ovaj nacin
Procenaodgovora Standardni Vektor-Space model u IR (information retrival) koristi kosinus ugla izmedju querija I dokument vektora da se izmeri relevantnost
QA- izazovi • QA systems suposlednjihgodinadostauznapredovali. Otvorilasu se nova poljairesearch izazovi • Real time question answering • Multilingual (or cross-lingual) questionanswering- postavljanjepitanjanajednomjezikumogucnosti pretraživanjaodgovora i nadrugimjezicima • Advanced reasoning for QA • User profiling for QA , korisniku se ponudeodgovoriiznjegovogdomenainteresovanja