1 / 4

Kategorizacija teksta

Kategorizacija teksta. k lasifikacija teksta pisanog prirodnim jezikom u prethodno definirane kategorije. p rimjena pretrazivanje Interneta filtriranje e-maila k lasificiranje novinskih članaka. ulic(a). 3. gum(a). 2. vozil (o). 2.

theola
Download Presentation

Kategorizacija teksta

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Kategorizacija teksta • klasifikacija teksta pisanog prirodnim jezikom u prethodno definirane kategorije • primjena • pretrazivanje Interneta • filtriranje e-maila • klasificiranje novinskih članaka...

  2. ulic(a) 3 gum(a) 2 vozil(o) 2 Transformacija teksta u oblik pogodan za obradu ulici U Gorjanskoj i Cerničkoj te na dijelu grada Vukovara kod tih dviju , u krugu od samo dvjestotinjak metara, otkriveno je jučer ujutro da je netko noću izbušiogumena sedam vozila. Ujutro kad su u više poduzeća otkrili da su im vozila oštećena, nastala je uzbuna, jer su se morali odgađati mnogi poslovi. Zbog toga će i šteta nanesena ovim vandalizmom biti veća od same vrijednosti guma. O događaju nam je javio Vito Mustapić, direktor tvrtke "Sava-Zagreb", kojoj je oštećen kombi parkiran na cesti blizu zgrade. Ulice ulica gume vozila vozila guma

  3. 9742. Leon 8. ulaz 5. jasna 8. razlike 12675. Leon 6. dugotrajni 6. ime 4. ulaz 7. usvojen 3. ime 4. HQI 1. dozvola 2. čvor 5. neće 3. rad 7. od 239 4 73 309 446 112 84 107 9 368 73 56 107 239 600 271 Transformacija teksta u oblik pogodan za obradu smanjivanje dimenzije izbacivanje veznika, prijedloga... izbacivanje riječi koje se pojavljuju manje od predodređenog broja puta izbacivanje riječi sadržanih samo u jednom tekstu ...

  4. 9742. Leon 4. ulaz 3. ime 5. jasna 1. dozvola 6. dugotrajni 1. dozvola 9742. Leon 6. dugotrajni 5. jasna 2. čvor 3. ime 4. ulaz 1. dozvola 3. ime 4. ulaz 2. čvor 6. dugotrajni 9742. Leon 2. čvor 5. jasna 0.0001 0.0000 0.0148 0.0000 0.0057 0.0000 0.0000 0.0000 0.0652 0.0004 0.0000 0.0000 0.0000 0.0034 0.0000 0.0012 0.0000 0.0000 0.0076 0.0000 0.0386 ... ... ... Transformacija teksta u oblik pogodan za obradu relativne frekvencije pojavljivanja riječi u svakom od tekstova grade se vektori u sažetom obliku [+1, 2:0.0652, 5:0.0148, …, 9742:0.0001] [+1, 1:0.0004, 3:0.0057, 5:0.0386,…] ... [-1, 1:0.0012, 2:0.0034, 4:0.0076,...]

More Related