1 / 63

Ritka események kezelése intelligens adatfeldolgozás segítségével

Ritka események kezelése intelligens adatfeldolgozás segítségével. Autonóm és hibatűrő információs rendszerek Előadó: Kocsis Imre, fóliák: Salánki Ágnes ikocsis@ mit.bme.hu , salanki.agnes @ inf.mit.bme.hu 2013.12.02. Fontosak a szabályok…. Fontosak a szabályok…. Kivételek?. Kivételek?.

Download Presentation

Ritka események kezelése intelligens adatfeldolgozás segítségével

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Ritka események kezelése intelligens adatfeldolgozás segítségével Autonóm és hibatűrő információs rendszerek Előadó: Kocsis Imre, fóliák: Salánki Ágnes ikocsis@mit.bme.hu, salanki.agnes@inf.mit.bme.hu 2013.12.02.

  2. Fontosak a szabályok…

  3. Fontosak a szabályok…

  4. Kivételek?

  5. Kivételek?

  6. Alapfogalmak • Ritka esemény • Arányaiban ritkán fordul elő • Hasonló ok/következmény/jellemzők • Ritka? Mennyire ritka? • Outlier/anomália • Egyetlen, a többitől független adatpont • Semmilyen közös vonása nincs másokkal

  7. Sűrűségfüggvény emlékeztető

  8. Kétdimenziós sűrűségfüggvény

  9. Alapfogalmak • Ritka esemény • Arányaiban ritkán fordul elő • Hasonló ok/következmény/jellemzők • Ritka? Mennyire ritka? • Outlier/anomália • Egyetlen, a többitől független adatpont • Semmilyen közös vonása nincs másokkal

  10. Egy dimenzióban

  11. Két dimenzióban?

  12. Alapfogalmak

  13. Ritka események a gyakorlatban – dDOS Kép forrása: http://www.csoonline.com/article/592776/the-ddos-attack-survival-guide-

  14. R. események a gyakorlatban – SPAM detektálás A SPAM valószínűsége nagyobb A SPAM-ek száma arányaiban sokkal kisebb A SPAM valószínűsége kisebb Kép forrása: D. Conway, J.M. Whyle: Machine Learning for Hackers

  15. R. események a gyakorlatban – csalásfelderítés Y tengely: tranzakciók száma / nap színezés: mennyire biztos a csalás? X tengely: számlavezetők Kép forrása: http://visualizeit.wordpress.com/

  16. Felügyelt és nem felügyelt tanulás • Felügyelt tanulás • Adott néhány pontra az elvárt kimenet is • a tanuló példákból való általánosítás • Output: függvény • a meglévő mintapontokra jól képez le • megfelelően általánosítható • Nem felügyelt tanulás • Nincs meg az elvárt kimenet • Visszajelzés nélkül építi a modellt • szabályok, összefüggések keresése (ismeretfeltárás) Tanulóhalmaz – amin építjük a modellt Teszthalmaz – amin ellenőrizzük

  17. Felügyelt és nem fel. tanulás – folyamatábra Kép forrása: http://practiceovertheory.com/blog/2010/02/15/machine-learning-who-s-the-boss/

  18. Osztályozás alapfeladat Képosztályozás: a képen látható objektum madár vagy repülő?

  19. Osztályozás alapfeladat Levelek osztályozása: SPAM vagy nem SPAM?

  20. Osztályozás alapfeladat Szabályok alapján Severity osztályozása Kép forrása: http://192.9.172.90/bigadmin/features/articles/3pmi_mgmt.full.jsp

  21. Osztályozás Feladó – ismert vagy ismeretlen? Tárgy – tartalmazza-e a luxury szót? Üzenet tartalma – term-doc. matrix • Input: (, ), ahol • változó vektor • az ún. osztálycímke • Osztályozás (klasszifikálás): • az ismert () párok alapján kitalálni az ismeretlen osztálycímkék értékét (előre megadott lehetőségek közül) SPAM?

  22. Osztályozás – alapfeladat Osztálycímke? Attribútumok? Input? Tanuló algoritmus?

  23. Példák osztályozási módszerekre – döntési fa

  24. Példák osztályozási módszerekre – döntési fa • Döntési fák • Minden szinten tesztelünk egy attribútumot, az értékek alapján kettévágjuk az értékkészletet • Levelek: többségre döntünk • Milyen attribútum szerint vágunk? • Legjobb: legtöbb információt hordozza • Meddig menjünk?

  25. Döntési fa vs diagram • Döntési diagrammal összekötni Ha bináris teljes döntési fa, lehet, hogy jobb reprezentációja is van: BDD, ROBDD. Általános eset: mivel többségi osztályra döntünk, inkább nem tanácsos

  26. Példák osztályozási módszerekre – naiv Bayes • Bayes tétel • Naiv Bayes modell • Számoljuk ki minden . osztályra a posteriori valószínűségeket • , • stb. • Döntsünk a legnagyobbra

  27. Példák osztályozási módszerekre – naiv Bayes • Valószínűségi képlet kifejtése: • Naiv Bayes modell: feltételezzük, hogy az egyes attribútumok egymástól függetlenek Valami konstans

  28. Példák osztályozási módszerekre – naiv Bayes • Osztályozás menete • Az ismert osztályváltozók alapján meghatározzuk az egyszeres feltételes valószínűségeket • Kiszámítjuk a szorzat értékét • „A statisztikák szerint a SPAM levelek 45%-a tartalmazza a <HTML> taget és 20%-uk a <TABLE> taget. Ez a levél tartalmazza a <HTML> taget, de a <TABLE>-t nem. SPAM?”

  29. Csoportosítás • Csoportosítás (clustering) – megtalálni az egymáshoz hasonló elemeket • Output: klaszterek Egymáshoz hasonló?

  30. Csoportosítási módszerek • Középpont alapú • a pont a hozzá legközelebb lévő középpont klaszterébe tartozik • Pl. k-Means • Kapcsolat alapú • legalább egy ponthoz közelebb van a saját klaszterében, mint a többiekében • Pl. single-link • Sűrűség alapú • a klaszterek sűrűség alapján felismerhetőek • Pl. DBScan • Egyéb

  31. Csoportosítási módszerek • Középpont alapú • Kapcsolat alapú • Sűrűség alapú • Egyéb

  32. Csoportosítási módszerek • Középpont alapú • Kapcsolat alapú • Sűrűség alapú • Egyéb

  33. Csoportosítási módszerek • Középpont alapú • Kapcsolat alapú • Sűrűség alapú • Egyéb

  34. A különbség Kép forrása: Ramaswamy S , Golub T R JCO 2002;20:1932-1941

  35. Kis kitérő: attribútumszelekció • Emlékeztető: szondakiválasztás • Függőségi mátrix: sorokban szondák, oszlopokban komponensek • Keressük azt a minimális szondahalmazt, amiben minden hibára legalább 1 szonda jelez • Általánosítás: attribútumszelekció • Bemeneti adatmátrix függőségi mátrix • Keressük azt a minimális attribútumhalmazt (vagy annak egy transzformációját), ami elegendő információt szolgáltat az adathalmaz egészéről • Mi az, amit először dobunk el?

  36. Alapproblémák • Detektálás • Minden ritka osztályból legalább 1 reprezentáns megtalálása • Pl.: tudjuk, hogy múlt héten az egyik szolgáltatásunk kis időre leállt. Mikor? • Jellemzés • A reprezentánsok alapján a teljes ritka osztály megtalálása • Pl.: Tudjuk, hogy az adott pillanatban már nem élt a szolgáltatás, mettől meddig tartott a kiesés? • Analízis • Fontos attribútumok, amik alapján a ritkák a jövőben felfedezhetők? • Pl.: Mi okozta a leállást? Miért nem jó erre egy klasszikus osztályozás/featureselection?

  37. Majdnem jó módszerek • Kiegyensúlyozatlan klasszifikáció • Alulmintavételezzük amit már láttunk • Anomália detektálás • Olyan különálló pontokat keresünk, amik mindegyik mástól különböznek • Klasszikus attribútumkiválasztás • Olyat keres, ami a többségire jó • Klasszikus klaszterezés • Sűrűség, kapcsolat alapú algoritmusok még akár jók is lehetnek

  38. Kiindulási feltételek • Simaság • A többségi osztály eloszlásfüggvénye megfelelően sima • Kompaktság • A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság • Ami nem kell feltételül: szeparáltság • Ha nincs: véletlen mintavételezés

  39. Kiindulási feltételek • Simaság • A többségi osztály eloszlásfüggvénye megfelelően sima • Matematikája kell? • Kompaktság • A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság • Ami nem kell feltételül: szeparáltság • Ha nincs: véletlen mintavételezés

  40. Felügyelt Detektálás Cél: minden ritka osztályból legalább egy reprezentánst megtalálni

  41. Feladat • Felügyelt: feltételezzük, hogy létezik orákulum • Milyen sorrendben kérdezzük meg tőle a pontokat, hogy a lehető leggyorsabban megtaláljuk a ritkákat? • Pl.: domainexpert leellenőrzi, amit mondunk neki, de minél kevesebbet kelljen manuálisan dolgozni • Variációk egy témára • Mennyi információnk van? • Milyen adatunk van? (csak attribútumok? Kapcsolatok is?)

  42. Apriori információval,1 ritka osztály – NNDB • Adottak: • Amit keresünk: nagy lokális sűrűségváltások Módszer? Ellenőrizzük a szomszédokat! Analógia: sűrűség alapú klaszterezés vagy edge-detection a képfeldolgozásban

  43. Algoritmus • -re , az adott ciklusban megengedhető maximális sugár • -re • Sejtett ritka elem: , amire maximális. • Ha ritka, vége. • Ha nem,,ugrás 1-re.

  44. Apriori információval – NNDB • , na de mekkora legyen ? • Ötlet: ha a ritkák aránya , akkor legyen számítsuk ki -re a . legközelebbi elem távolságát: . • Legyen . Ha a ritkák tényleg nagyon közel vannak egymáshoz, akkor beleférnek egy körbe

  45. Változatok • Több minor osztály? • Mint a bináris eset, csak addig kérdezünk, amíg minden osztályt meg nem találunk • Kevesebb apriori információ? • Adottak: 𝑆 és semmi más • Módszer: eloszlásbecslés, majd azon mesterséges sűrűségszámítás • Relációs kapcsolatok is adottak? • Módosítani kell a hasonlóságszámítást

  46. Szintetikus adat

  47. Éles adat?

  48. Éles adat?

  49. Éles adat?

  50. Éles adat?

More Related