210 likes | 598 Views
Detekcija anomalija. Kovačevic Milena 09/3255 Kovacevic.mln@gmail.com. Sadržaj. Uvod Procena gustine Procena parametara ( gausova raspodela ) Algoritam Evaluacija algoritma Zaključak. Detekcija anomalije. Često korišćena tehnika u machine lerning -u
E N D
Detekcijaanomalija Kovačevic Milena 09/3255 Kovacevic.mln@gmail.com
Sadržaj • Uvod • Procenagustine • Procenaparametara (gausovaraspodela) • Algoritam • Evaluacijaalgoritma • Zaključak
Detekcijaanomalije • Čestokorišćenatehnika u machine lerning-u • To je unsupervized learning tehnika, alipostojeaspektikojisusupervized • Detektovanjepaterna u setupodatakakojinisuuobičajeni(ne spadaju u “normalno” ponašanje).
(vibration) (heat) Detekcijaanomalije: primer Atributiavionskogmotora: = emitovanatoplota = intenzitetvibracija … Dataset: Novi motor:
Procenagustine Dataset: Da li imaanomaliju? (vibration) (heat)
Detekcijaanomalije: primer 1. Detekcijaupada u sistem: = atributiaktivnostii-tog korisnika Model p(x) izpodataka. Identifikacijaneuobičajenihkorisnikaproverom 2. Monitoring mašinau data centru. atributimašine = upotrebamem, = brojpristupadisku /sec, = CPU load, = CPU load/network traffic. …
Procenaparametara: uvod Dataset:
Detekcijaanomalije: algoritam • Izaberu se atributizakoje se misli da mogubitiindikacijaprimerasaanomalijom. • Nađuse parametri • Zanovi primer izračuna se kao: Ako je to je anomalija
Pretpostavimo da imamooznačeni(labeled) set podataka (anomalija , “normalan ” ). Teningset: (pretpostavićemo da suprimeribezanomalije) Krosvalidacioniset: Test set: Evaluacijaalgoritma: uvod Kada se razvijaalgoritamučenja (biranjeatributa, itd.), donošenjeodluke je mnogolakšeakoimamonačinada procenimoefikasnostalgoritma.
Treningset: 6000 ispravnihmotora CV: 2000 ispravnihmotora( ), 10 saanomalijom( ) Test: 2000 ispravnihmotora ( ), 10 saanomalijom( ) Avionskimotori primer 10000 ispravnih(normalnih) motora 20 Motorasagreškom(anomalijom)
Evaluacijaalgoritma Napravitimodel natreningsetu NA krosvalidacionom /test primeru, predvideti Evalucionemetrike: - True positive, false positive, false negative, true negative - Precision/Recall - F1-score Zaizborparametramože da se koristi I kros-validacioni set
Kakoizabratiatribute: analizagreške Želimovelikozanormalneprimere i malozaprimeresaanomalijom. Najčešćiproblemi: je uporedivo (tipa, veliko)izanormalneizaprimeresaanomalijom
Monitoring mašina u data centru Izabratitakveatributekojimogu da uzmuneuobičajenovelike (male) vrednosti u slučajuanomalije. = iskorišćenjememorije = brojpristupadisku/sec = CPU load = mrežnisaobraćajrastulinearno, x5 = x3/x4 Ako se zaglavi u nekojnpr. beskonačnojpetlji,CPU load je veliki, a saobracajmali – anomalija.
(Memory Use) (CPU Load) (CPU Load) (Memory Use)
Detekcijaanomalije vs. Supervised learning Velikibrojpozitivnih I negativnihprimera. Dovoljnopozitivnihprimera da sistemnaučikakooniizgledaju. Budućipozitivniprimeriličenadosadašnje Mali brojpozitivnihprimera( ). (0-20 ). Velikibrojnegativnihprimera( ). Puno različitih “tipova” anomalija. Teško se izpozitivnihprimeraučikakoanomalijeizgledaju; Budućeanomalije ne ličena one do sad.
Detekcjaanomalije vs. Supervised learning • Email spam klasifikacija • Vremenskaprognoza. • Klasifikacijakancera • Detekcijaupada u sistem • Proizvidnja (prim. avionskimotori) • Nadziranjemašina u data centru
Upotreba • Jošjednaupotrebaovogalgoritma je da se koristikaopretproces da bi se podacisaanomalijomukloniliiz seta podataka. • Uklanjanjepodatakasaanomalijomčestorezultuje u mnogoboljimperformansamasupervizedalgoritmakoji se zatimkoristi.
Pitanja? Hvala