1 / 30

Automatizirana kategorizacija teksta

Automatizirana kategorizacija teksta. Franjo Skočec Stjepan Buljat. FER 26.11.2003. Povijest TC-a. Kategorizacija teksta (text categorization - TC, text clasification, topic spotting) javlja se ranih ’60. Sve do kasnih ’80. najpopularniji pristup bio je knowledge engineering – KE

clove
Download Presentation

Automatizirana kategorizacija teksta

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Automatizirana kategorizacija teksta Franjo Skočec Stjepan Buljat FER 26.11.2003.

  2. Povijest TC-a • Kategorizacija teksta (text categorization - TC, text clasification, topic spotting) javlja se ranih ’60. • Sve do kasnih ’80. najpopularniji pristup bio je knowledge engineering – KE • U ’90. javlja se pojačano zanimanje za klasifikaciju teksta, kao i nov pristup baziran na paradigmi strojnog učenja

  3. Definicija kategorizacije teksta • Kategorizacija teksta je proces dodjeljivanja Boolean vrijednosti svakom paru {dj,ci}D x C, gdje je D domena dokumenata, a C je skup preddefiniranih kategorija • Formalno TC je proces aproksimacije nepoznate ciljne funkcije, koja opisuje kako bi dokumenti trebali biti klasificirani, pomoću funkcije Φ : D x C  {T, F} (klasifikator, pravilo, hipoteza, model)

  4. Definicija kategorizacije teksta • decizijska matrica

  5. Definicija kategorizacije teksta • Kategorije su simboličke labele (nikakvo znanje o njihovom značenju nije dosupno) • Klasifikacija se ostvaruje samo uz pomoć znanja izvađenog iz samih dokumenata (endogenous knowledge vs exogenous knowledge) • Oslanjajući se samo na unutarnje znanje znači klasificirati dokument samo na osnovu njegove semantike • Pripadnost dokumenta nekoj kategoriji ne može se odrediti deterministički (fenomen međuindeksne nekonzinstencije – inter-indexer inconsistency)

  6. Definicija kategorizacije teksta • single-label TC – točno jedna kategorija mora biti dodijeljena svakom dokumentu iz domene dokumenata (nonoverlaping categories) • multilabel TC – bilo koji broj kategorija može biti dodijeljen istom dokumentu (overlaping categories) • binarni TC – svaki dokument mora biti dodijeljen kategoriji ci ili njenom komplementu

  7. Definicija kategorizacije teksta • Dokumentno orijentirana klasifikacija teksta – za odabrani dokument dj D, žele se pronaći sve kategorije ci  C gdje bi se on trebao svrstati (document-pivoted categorization -DPC) • Kategorijski orijentirana klasifikacija teksta – za odabranu kategoriju ci  C želi se pronaći sve dokumente dj D koji joj pripadaju (category-pivoted categorization – CPC) • DPC je pogodniji kada dokumenti postaju dostupni u različitim trenutcima (filtriranje e-maila), dok je CPC pogodniji u slučaju dodavanja nove kategorije u već postojeći skup kategorija nakon što je već dio dokumenata već bio klasificiran (klasificiranje Web stranica)

  8. Definicija kategorizacije teksta • “Čvrsta” kategorizacija vs. rangirana kategorizacija: • umjesto donošenja odluke o pripadnosti dokumenta nekoj kategoriji (“hard TC”), može se ocjenjivati prikladnost neke kategorije dokumentu (“ranking TC”) • konačnu odluku donosi ljudski stručnjak • koristi se kada učinkovitost automatskog klasifikatora nije zadovoljavajuća (slučaj kada kvaliteta skupa za učenje je niska ili kada dokumenti iz skupa za učenje nisu reprezentativni primjerci)

  9. Aplikacije za TC • Automatic Indexing for Boolean Information Retrieval System • početkom ’60. najviše istraživana • svakom dokumentu je pridružena barem jedna ključna riječ ili fraza koje opisuju njegov sadržaj • Ključne riječi i fraze pripadaju konačnom skupu koji se zove kontrolirani riječnik (controlled dictionary)

  10. Aplikacije za TC • Text Filtering • aktivnost klasificiranja toka ulaznih dokumenata poslanih asinkronim načinom od strane proizvođača prema potrošaču • pojavio se početkom ’60., danas vrlo korišteni (antispam, newsgroups, ...) • Word Sense Disambiguation • proces pronalaženja značenja riječi u ovisnosti o kontekstu u kojem se ta riječ koristi • koristi se u procesiranju prirodnog jezika i u indeksiranju dokumenata po značenju riječi, umjesto po samoj riječi, za IR ciljeve

  11. Aplikacije za TC • Hijerarhijska kategorizacija Web stranica • Zbog sve većeg broja Web stranica sve je teže pronaći baš onu koja nam treba • Općeniti pretraživači zbog broja Web stranica su sve manje učinkoviti • Zbog svega toga povećano je zanimanje za automatsku klasifikaciju i stvaranje hijerarhijskih kataloga na Internet portalima

  12. ML pristup kategorizaciji dokumenata • U ’80. glavni pristup kategorizaciji teksta bio je baziran na KE • Ručno se gradio ekspertni sustav koji se sastojao od skupa definiranih pravila tipa: if (DNF Boolean formula) then (category) • ML pristup bazira se na stvaranju automatskog graditelja klasifikatora • Klasifikator se gradi promatrajući karakteristike skupa dokumenata ručno klasificiranih pod ci ili ~ciod strane eksperta domene • Taj proces naziva se učenje sa nadgledanjem (učenje bez nadgledanja – document clustering)

  13. Automatska kategorizacija teksta Part 2 Stjepan Buljat Fakultet elektrotehnike i računarstva ZEMRIS - Inteligentni sustavi 26.11.2003.

  14. Gradnja klasifikatora teksta Induktivna gradnja klasifikatora za kategoriju ci C se sastoji od dvije faze : • definiranje funkcije CSVi : D  [0,1] • definiranjefaktora ograničenjaitako da vrijedi CSVi(d) >= i Specijalan slučaj je klasifikator s binarnim odlučivanjem gdje vrijedi CSVi : D  {0,1}

  15. Gradnja klasifikatora teksta • Postoje 2 osnovna načina gradnje klasifikatora: • PARAMETARSKI, podaci za učenje se koriste za određivanje parametara vjerojatnosne distribucije. • NE-PARAMETARSKI, dijeli se na dvije pod-kategorije : • Profile-based • Example-based

  16. Parametarski klasifikator • Najbolji primjer je naivni Bayesov klasifikator koji se temelji na računanju izraza: • Četiri vjerojatnosti koje se koriste u formuli se određuju na skupu podataka za učenje • Zašto izraz ”naivni”? • Hipoteza binarne nezavisnosti

  17. Profile-based klasifikator • Profile-based (ili linearni) klasifikator je jednostavno rečeno klasifikator koji eksplicitnosadrži opisne informacije pojedine kategorije na temelju kojih donosi odluke • Linearni klasifikatori se često dijele na dvije klase, • Incremental klasifikatori grade profil prije analiziranja cijelog skupa za učenje i dodatno dograđuju profil kako pregledavaju nove podatke za učenje. • Batch klasifikatori pak počivaju na obrnutom principu, grade profil analizom cijelog skupa podataka.

  18. Rocchio klasifikator • Ovaj klasifikator se temelji na adaptaciji Rocchio-ve formule na kategorizaciju teksta, • skup near-positives (definirani kao najpozitivniji među članovima negativnog skupa za učenje) • Prednost:generiranje «razumljivih» klasifikatora • Mana: dijeli skup dokumenata na dva dijela

  19. Example-based klasifikator • Ne grade eksplicitni profil pojedine kategorije, nego ovise o podacima koje im daju stručnjaci na temelju skupa dokumenata za učenje slični onima koji se trebaju kategorizirati • Tzv. lijeni klasifikatori • Primjer: k-NN klasifikator: • gleda da li k dokumenata za učenje najsličnijih dokumentu dj spada pod kategoriju ci; ako je odgovor pozitivan onda se dokument dj kategorizira pod ci, inače ne • Konstrukcija k-NN klasifikatora zahtijeva određivanje konstante k

  20. Kombiniranje example- i profile-based klasifikatora • k-NN sustav se «hrani», umjesto skupa dokumenata za učenje, s generaliziranim instancama (GI). • Ova metoda iskorištava superiornu efektivnost k-NN sustava nad linearnim dok istovremeno se izbjegava osjetljivost k-NN algoritma na šum u skupu dokumenata za učenje • Klasifikacijsko ponašanje linearnih i ne-linearnih sustava

  21. Slika 1

  22. Sustav klasifikatora • Metoda classifier committees • Primjenak različitih klasifikatora {1,…, k} za isti zadatak, da li će se dokument djsvrstati pod kategoriju ci ili ne • Karakteristike: i) odluka k klasifikatora ii) izbor kombinacijske funkcije. • Kombinacijske funkcije, • majority voting (MV) • adaptive classifier combination(ACC) • dynamic classifier selection (DCS)

  23. Određivanje faktora ograničenja • Neke od metoda: - CSV tresholding (ili probability tresholding), ovdje je faktor ograničenja i vrijednost CSVi funkcije. Koriste se različiti faktori ograničenja za različite kategorije ci - Proportional tresholding, cilj ove metode jest postavljanje takvog faktora i tako da je gTe(ci) kategorije ci što bliži vrijednosti gTr(ci) - Fixed tresholding, najjednostavniji

  24. Ocjena rada klasifikatora teksta Mjere kategorizacijske efektivnosti. Preciznost i odaziv. • Preciznost (Pri) se definira kao vjerojatnost da se slučajno odabrani dokument dx točno klasificira pod kategoriju ci • Odaziv (Rei) definira kao vjerojatnost da li da se slučajno odabrani dokument dx klasificira pod kategoriju ci

  25. Preciznost i odaziv • Za procjenu vrijednosti faktora preciznosti i odaziva koriste se dvije različite metode: • microaveraging: preciznost i odaziv se određuju globalnim sumiranjem po svim individualnim odlukama • macroaveraging: preciznost i odaziv se ocjenjuju lokalno za svaku kategoriju s traženjem srednje vrijednosti po svim rezultatima za različite kategorije

  26. Kombinirane mjere • (interpolated) 11-point average precision,svaki treshold ti se postavlja na vrijednosti na kojima odaziv poprima vrijednosti 0.0,0.1,… 0.9,1.0. Za ovih 11 različitih tresholda računa se preciznost. -breakeven point, vrijednost pri kojoj je Pr = Re -F funkcija, 0<=<=1

  27. Skup dokumenata za testiranje • standardni skupovi podataka za testiranje rada klasifikatora: • REUTERS-21578,skup novinskih članaka koji pokrivaju vremenski period od 1987. do 1991. -OHSUMED, skup naslova ili naslova sa sažetkom iz medicinskih časopisa -Metoda usporedbe rada dvaju različitih klasifikatora -koristiti istu kolekciju dokumenata za testiranje (iste dokumente i iste kategorije) -isti odabir skupa podataka za učenje i skupa podataka za testiranje -ista mjera efektivnosti se treba koristiti za oba klasifikatora

  28. Koji je klasifikator bolji? • Metoda usporedbe se sastoji od: -direktna usporedba, klasifikatori C' i C'' su testirani na istom skupu podataka (TC) koristeći zajedničku evaluacijsku mjeru radu. -indirektna usporedba: 1.klasifikator C' je testiran na skupu TC', a klasifikator na skupu TC'' 2. jedan ili više «baseline» klasifikatora C1,…Cm su testirani na TC' i TC'' -Test 2 može pokazati relativnu «krutost» dvaju skupa podataka, TC' i TC'' -Dolazi se do relativnog faktora koji određuje svojstva dvaju klasifikatora -Rezultati gđe.Yang

  29. Slika 2 Komparativan prikaz rezultata različitih klasifikatora, podebljani rezultati su najbolji rezultati za pojedini skup podataka

  30. Literatura: • [A] Sebastiani, Fabrizio, «Istituto di Elaborazione dell' Informazione, Consiglio Nazionale delle Ricerche,» A Tutorial On Automated Text Categorization, pp. 11-22, 08.03.2000

More Related