310 likes | 482 Views
Automatizirana kategorizacija teksta. Franjo Skočec Stjepan Buljat. FER 26.11.2003. Povijest TC-a. Kategorizacija teksta (text categorization - TC, text clasification, topic spotting) javlja se ranih ’60. Sve do kasnih ’80. najpopularniji pristup bio je knowledge engineering – KE
E N D
Automatizirana kategorizacija teksta Franjo Skočec Stjepan Buljat FER 26.11.2003.
Povijest TC-a • Kategorizacija teksta (text categorization - TC, text clasification, topic spotting) javlja se ranih ’60. • Sve do kasnih ’80. najpopularniji pristup bio je knowledge engineering – KE • U ’90. javlja se pojačano zanimanje za klasifikaciju teksta, kao i nov pristup baziran na paradigmi strojnog učenja
Definicija kategorizacije teksta • Kategorizacija teksta je proces dodjeljivanja Boolean vrijednosti svakom paru {dj,ci}D x C, gdje je D domena dokumenata, a C je skup preddefiniranih kategorija • Formalno TC je proces aproksimacije nepoznate ciljne funkcije, koja opisuje kako bi dokumenti trebali biti klasificirani, pomoću funkcije Φ : D x C {T, F} (klasifikator, pravilo, hipoteza, model)
Definicija kategorizacije teksta • decizijska matrica
Definicija kategorizacije teksta • Kategorije su simboličke labele (nikakvo znanje o njihovom značenju nije dosupno) • Klasifikacija se ostvaruje samo uz pomoć znanja izvađenog iz samih dokumenata (endogenous knowledge vs exogenous knowledge) • Oslanjajući se samo na unutarnje znanje znači klasificirati dokument samo na osnovu njegove semantike • Pripadnost dokumenta nekoj kategoriji ne može se odrediti deterministički (fenomen međuindeksne nekonzinstencije – inter-indexer inconsistency)
Definicija kategorizacije teksta • single-label TC – točno jedna kategorija mora biti dodijeljena svakom dokumentu iz domene dokumenata (nonoverlaping categories) • multilabel TC – bilo koji broj kategorija može biti dodijeljen istom dokumentu (overlaping categories) • binarni TC – svaki dokument mora biti dodijeljen kategoriji ci ili njenom komplementu
Definicija kategorizacije teksta • Dokumentno orijentirana klasifikacija teksta – za odabrani dokument dj D, žele se pronaći sve kategorije ci C gdje bi se on trebao svrstati (document-pivoted categorization -DPC) • Kategorijski orijentirana klasifikacija teksta – za odabranu kategoriju ci C želi se pronaći sve dokumente dj D koji joj pripadaju (category-pivoted categorization – CPC) • DPC je pogodniji kada dokumenti postaju dostupni u različitim trenutcima (filtriranje e-maila), dok je CPC pogodniji u slučaju dodavanja nove kategorije u već postojeći skup kategorija nakon što je već dio dokumenata već bio klasificiran (klasificiranje Web stranica)
Definicija kategorizacije teksta • “Čvrsta” kategorizacija vs. rangirana kategorizacija: • umjesto donošenja odluke o pripadnosti dokumenta nekoj kategoriji (“hard TC”), može se ocjenjivati prikladnost neke kategorije dokumentu (“ranking TC”) • konačnu odluku donosi ljudski stručnjak • koristi se kada učinkovitost automatskog klasifikatora nije zadovoljavajuća (slučaj kada kvaliteta skupa za učenje je niska ili kada dokumenti iz skupa za učenje nisu reprezentativni primjerci)
Aplikacije za TC • Automatic Indexing for Boolean Information Retrieval System • početkom ’60. najviše istraživana • svakom dokumentu je pridružena barem jedna ključna riječ ili fraza koje opisuju njegov sadržaj • Ključne riječi i fraze pripadaju konačnom skupu koji se zove kontrolirani riječnik (controlled dictionary)
Aplikacije za TC • Text Filtering • aktivnost klasificiranja toka ulaznih dokumenata poslanih asinkronim načinom od strane proizvođača prema potrošaču • pojavio se početkom ’60., danas vrlo korišteni (antispam, newsgroups, ...) • Word Sense Disambiguation • proces pronalaženja značenja riječi u ovisnosti o kontekstu u kojem se ta riječ koristi • koristi se u procesiranju prirodnog jezika i u indeksiranju dokumenata po značenju riječi, umjesto po samoj riječi, za IR ciljeve
Aplikacije za TC • Hijerarhijska kategorizacija Web stranica • Zbog sve većeg broja Web stranica sve je teže pronaći baš onu koja nam treba • Općeniti pretraživači zbog broja Web stranica su sve manje učinkoviti • Zbog svega toga povećano je zanimanje za automatsku klasifikaciju i stvaranje hijerarhijskih kataloga na Internet portalima
ML pristup kategorizaciji dokumenata • U ’80. glavni pristup kategorizaciji teksta bio je baziran na KE • Ručno se gradio ekspertni sustav koji se sastojao od skupa definiranih pravila tipa: if (DNF Boolean formula) then (category) • ML pristup bazira se na stvaranju automatskog graditelja klasifikatora • Klasifikator se gradi promatrajući karakteristike skupa dokumenata ručno klasificiranih pod ci ili ~ciod strane eksperta domene • Taj proces naziva se učenje sa nadgledanjem (učenje bez nadgledanja – document clustering)
Automatska kategorizacija teksta Part 2 Stjepan Buljat Fakultet elektrotehnike i računarstva ZEMRIS - Inteligentni sustavi 26.11.2003.
Gradnja klasifikatora teksta Induktivna gradnja klasifikatora za kategoriju ci C se sastoji od dvije faze : • definiranje funkcije CSVi : D [0,1] • definiranjefaktora ograničenjaitako da vrijedi CSVi(d) >= i Specijalan slučaj je klasifikator s binarnim odlučivanjem gdje vrijedi CSVi : D {0,1}
Gradnja klasifikatora teksta • Postoje 2 osnovna načina gradnje klasifikatora: • PARAMETARSKI, podaci za učenje se koriste za određivanje parametara vjerojatnosne distribucije. • NE-PARAMETARSKI, dijeli se na dvije pod-kategorije : • Profile-based • Example-based
Parametarski klasifikator • Najbolji primjer je naivni Bayesov klasifikator koji se temelji na računanju izraza: • Četiri vjerojatnosti koje se koriste u formuli se određuju na skupu podataka za učenje • Zašto izraz ”naivni”? • Hipoteza binarne nezavisnosti
Profile-based klasifikator • Profile-based (ili linearni) klasifikator je jednostavno rečeno klasifikator koji eksplicitnosadrži opisne informacije pojedine kategorije na temelju kojih donosi odluke • Linearni klasifikatori se često dijele na dvije klase, • Incremental klasifikatori grade profil prije analiziranja cijelog skupa za učenje i dodatno dograđuju profil kako pregledavaju nove podatke za učenje. • Batch klasifikatori pak počivaju na obrnutom principu, grade profil analizom cijelog skupa podataka.
Rocchio klasifikator • Ovaj klasifikator se temelji na adaptaciji Rocchio-ve formule na kategorizaciju teksta, • skup near-positives (definirani kao najpozitivniji među članovima negativnog skupa za učenje) • Prednost:generiranje «razumljivih» klasifikatora • Mana: dijeli skup dokumenata na dva dijela
Example-based klasifikator • Ne grade eksplicitni profil pojedine kategorije, nego ovise o podacima koje im daju stručnjaci na temelju skupa dokumenata za učenje slični onima koji se trebaju kategorizirati • Tzv. lijeni klasifikatori • Primjer: k-NN klasifikator: • gleda da li k dokumenata za učenje najsličnijih dokumentu dj spada pod kategoriju ci; ako je odgovor pozitivan onda se dokument dj kategorizira pod ci, inače ne • Konstrukcija k-NN klasifikatora zahtijeva određivanje konstante k
Kombiniranje example- i profile-based klasifikatora • k-NN sustav se «hrani», umjesto skupa dokumenata za učenje, s generaliziranim instancama (GI). • Ova metoda iskorištava superiornu efektivnost k-NN sustava nad linearnim dok istovremeno se izbjegava osjetljivost k-NN algoritma na šum u skupu dokumenata za učenje • Klasifikacijsko ponašanje linearnih i ne-linearnih sustava
Sustav klasifikatora • Metoda classifier committees • Primjenak različitih klasifikatora {1,…, k} za isti zadatak, da li će se dokument djsvrstati pod kategoriju ci ili ne • Karakteristike: i) odluka k klasifikatora ii) izbor kombinacijske funkcije. • Kombinacijske funkcije, • majority voting (MV) • adaptive classifier combination(ACC) • dynamic classifier selection (DCS)
Određivanje faktora ograničenja • Neke od metoda: - CSV tresholding (ili probability tresholding), ovdje je faktor ograničenja i vrijednost CSVi funkcije. Koriste se različiti faktori ograničenja za različite kategorije ci - Proportional tresholding, cilj ove metode jest postavljanje takvog faktora i tako da je gTe(ci) kategorije ci što bliži vrijednosti gTr(ci) - Fixed tresholding, najjednostavniji
Ocjena rada klasifikatora teksta Mjere kategorizacijske efektivnosti. Preciznost i odaziv. • Preciznost (Pri) se definira kao vjerojatnost da se slučajno odabrani dokument dx točno klasificira pod kategoriju ci • Odaziv (Rei) definira kao vjerojatnost da li da se slučajno odabrani dokument dx klasificira pod kategoriju ci
Preciznost i odaziv • Za procjenu vrijednosti faktora preciznosti i odaziva koriste se dvije različite metode: • microaveraging: preciznost i odaziv se određuju globalnim sumiranjem po svim individualnim odlukama • macroaveraging: preciznost i odaziv se ocjenjuju lokalno za svaku kategoriju s traženjem srednje vrijednosti po svim rezultatima za različite kategorije
Kombinirane mjere • (interpolated) 11-point average precision,svaki treshold ti se postavlja na vrijednosti na kojima odaziv poprima vrijednosti 0.0,0.1,… 0.9,1.0. Za ovih 11 različitih tresholda računa se preciznost. -breakeven point, vrijednost pri kojoj je Pr = Re -F funkcija, 0<=<=1
Skup dokumenata za testiranje • standardni skupovi podataka za testiranje rada klasifikatora: • REUTERS-21578,skup novinskih članaka koji pokrivaju vremenski period od 1987. do 1991. -OHSUMED, skup naslova ili naslova sa sažetkom iz medicinskih časopisa -Metoda usporedbe rada dvaju različitih klasifikatora -koristiti istu kolekciju dokumenata za testiranje (iste dokumente i iste kategorije) -isti odabir skupa podataka za učenje i skupa podataka za testiranje -ista mjera efektivnosti se treba koristiti za oba klasifikatora
Koji je klasifikator bolji? • Metoda usporedbe se sastoji od: -direktna usporedba, klasifikatori C' i C'' su testirani na istom skupu podataka (TC) koristeći zajedničku evaluacijsku mjeru radu. -indirektna usporedba: 1.klasifikator C' je testiran na skupu TC', a klasifikator na skupu TC'' 2. jedan ili više «baseline» klasifikatora C1,…Cm su testirani na TC' i TC'' -Test 2 može pokazati relativnu «krutost» dvaju skupa podataka, TC' i TC'' -Dolazi se do relativnog faktora koji određuje svojstva dvaju klasifikatora -Rezultati gđe.Yang
Slika 2 Komparativan prikaz rezultata različitih klasifikatora, podebljani rezultati su najbolji rezultati za pojedini skup podataka
Literatura: • [A] Sebastiani, Fabrizio, «Istituto di Elaborazione dell' Informazione, Consiglio Nazionale delle Ricerche,» A Tutorial On Automated Text Categorization, pp. 11-22, 08.03.2000