180 likes | 384 Views
Dokumentu klasificēšanas implementācija. Pāvels Koliškins ( I RDMD0 – 2 ) Edgars Matisāns ( I RDMD0 – 3 ). Prezentācijas saturs. Ievads Teorētiskais pamatojums Programmatūras apraksts Kategorizēšanas piemērs Secinājumi. Ievads.
E N D
Dokumentu klasificēšanas implementācija Pāvels Koliškins (I RDMD0 – 2 ) Edgars Matisāns (I RDMD0 – 3)
Prezentācijas saturs • Ievads • Teorētiskais pamatojums • Programmatūras apraksts • Kategorizēšanas piemērs • Secinājumi
Ievads • Dokumenti, balstoties uz to saturu, tiek sagrupēti vienā vai vairākās iepriekš definētās kategorijās • Statistiskās klasifikācijas un mašīnapmācības metodes: regresijas modeļi, tuvāko kaimiņu klasifikators, neironu tīkli, u.c. • Teksta dokumenti parasti izteikti simbolu virknes veidā • Piemērota attēlošanas forma ir vektora telpas modelis • Dokuments tiek attēlots kā vārdu vektors
Vārdu svaru noskaidrošana (1) • Dokumentu vārdu matrica A sastāv no elementiem aij, kur aij ir i - tā vārda svars j – tajā dokumentā.
Vārdu svaru noskaidrošana (2) • Būla svēršana (1 – vārds sastopams dokumentā, 0 – pretējā gadījumā) • Vārda biežums (term frequency). Vārda svars ir vienāds ar tā izmantošanas biežumu • Vārdu biežums – apgriezts dokumentu biežumam (term frequency – inverse document frequency, tf-idf)
Vārdu svaru noskaidrošana (3) • Dēļ logaritmiskās komponentes mazāk nozīmīgie vārdi netiek ņemti vērā dokumentu līdzības noteikšanā
Piedēkļu nogriešana • Portera algoritms balstās uz ideju, ka piedēkļi angļu valodā tiek veidoti kombinējot mazākus un vienkāršākus piedēkļus
k tuvāko kaimiņu metode (1) • Algoritma ideja - izmantot k visvairāk līdzīgos kaimiņus, lai noteiktu jaunā dokumenta kategoriju
k tuvāko kaimiņu metode (2) • Algoritma ideja - izmantot k visvairāk līdzīgos kaimiņus, lai noteiktu jaunā dokumenta kategoriju • Eiklīda attālums starp divu dokumentu vektoriem • Kosinusa vērtība starp divu dokumentu vektoriem
Parametra k izvēle • 20 testa dokumenti • k parametrs mainījās no 1 līdz 200 ar soli 3 • k parametrs neietekmē veiksmīgi klasificēto dokumentu skaitu • k parametrs ietekmē piederības pārliecību (%)
Kategorizēšanas kļūda • 20 testa dokumenti • k parametrs mainījās no 1 līdz 50 • Kopā 1000 testa rezultātu • Vidējā kļūda – 0,054 (5,4 %)
Programmatūras apraksts (1) • Darbs ar apmācības kopu
Programmatūras apraksts (2) • Veiksmīgas kategorizēšanas piemērs
Programmatūras apraksts (3) • Neveiksmīgas kategorizēšanas piemērs
Secinājumi • Veiksmīgi izstrādāts teksta dokumentu kategorizēšana lietojums, kur klasificēšanas pamatā ir k tuvāko kaimiņu algoritms • k tuvāko kaimiņu algoritms var būt salīdzinoši ātrdarbīgs, ja dati, kuriem nepieciešamas augstas skaitļošanas izmaksas tiek glabāti atmiņā • Efektīvākā k parametra vērtība ir starp dokumentu kategoriju skaitu un minimālo dokumentu skaitu apmācības kopas kategorijās