1 / 8

Modell alapú idősor-osztályozó fejlesztése és kiterjesztése

Modell alapú idősor-osztályozó fejlesztése és kiterjesztése. Hidasi Balázs ( hidasib @ freemail.hu ) Konzulens: Gáspár-Papanek Csaba ( gaspar @ tmit.bme.hu ). 2011. június 21, Budapest. ShiftTree algoritmus. Idősor-osztályozó algoritmus Bináris döntési fa alap

milica
Download Presentation

Modell alapú idősor-osztályozó fejlesztése és kiterjesztése

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Modell alapú idősor-osztályozó fejlesztése és kiterjesztése Hidasi Balázs (hidasib@freemail.hu) Konzulens: Gáspár-Papanek Csaba (gaspar@tmit.bme.hu) 2011. június 21, Budapest

  2. ShiftTree algoritmus • Idősor-osztályozó algoritmus • Bináris döntési fa alap • Dinamikusan előállított attribútumok • Hol nézzük? (időtengely) • Mit nézzünk? (számítások) • Előnyök • Modell alapúság előnyei • Értelmezhető • Szakértői tudás nélkül is pontos • Szakértői tudással pontosabbá tehető • Hátrányok • Modell alapúság hátrányai Súlyozott átlag

  3. Modell építés idejének csökkentése • Tanítás során attribútum választás • Célfüggvény minimalizálása • Célfüggvény tulajdonságai • Adott rendezés mellett minimumok csak az egybefüggő intervallumok szélén lehetnek • Minimum előre meghatározható • Nem léphetünk ki minimumnál, de… • Ha eléri, akkor csak 2-2 helyet kell vizsgálni a további rendezéseknél • Jelentősen csökken a célfüggvény értékének meghatározásának száma • Futási idő átlagosan 22,33%-kal csökkent • Pl.: FordB – 3636 tanítóminta: • 214,94s  173,52s (-19,27%) • Pl.: CBF – 30 tanítóminta: • 0,246s  0,145s (-41,18%) • Pl.: Beef – 30 tanítóminta • 0,574s  0,517s (-9,9%)

  4. Fejlesztések a pontosság növelésére • Operátorkészlet jelentős kibővítése • Heurisztika egyezően jó attribútum jelöltek közüli választásra • Legyen maximális a határsáv • Eltérő nagyságrendek miatt normalizálás • Nyesés • Több módszer kipróbálása • Romlott a pontosság • Más módszerekhez viszont szükség van rájuk

  5. Modellek kombinálása • Több modell építése • Címkézésnél súlyozott szavazás • Hatékony, ha a modellek önmagukban pontosak és az egyes modellek eltérőek (más mintákat osztályoznak jól) • Boosting • Súlyok a tanítómintákhoz • Felépített modell kiértékelése a tanítómintákon • Modell súly • Rosszul osztályozott tanítóminták relatív súlyának növelése (nyesés!) • Klasszikus AdaBoost követelmény: pontosság a tanítómintán minimum 50% (és kevesebb, mint 100%) • SAMME: minimális pontosság követelmény csak 1/(osztályok száma) • XV • Egyszerű kombinálás, keresztvalidáción alapul • Tanítóhalmaz véletlenszerű szétbontása, csak egy részén tanul, másik részén kiértékel • Pontosság  modell súlya

  6. Kombinált modellek eredményei • Boosting vagy XV? • Bizonyos esetekben a boosting leáll • „Tökéletes” modell a tanítóhalmazon • Főleg kis tanítóminták mellett • Ilyenkor az XV még segíthet

  7. Osztályozási konfidencia • Mennyire biztos a modellünk a kimenetben • Levél (csomópont) konfidencia • Pl. többségi osztály aránya a levélben (nyesés!) • Útvonal konfidencia • Osztályozási útvonalon a konfidenciák (súlyozott) összegzése • Egyfajta nyesési eljárás • On-line tanulás (újratanulás) • Teljes modellépítés helyett a modell kisméretű megváltoztatása • Útvonal konfidencia, mint dinamikus nyesés • Arányok változásával változik a nyesés

  8. Összefoglalás • Modell alapú idősor-osztályozó döntési fa alapon • Tanítás gyorsítása: -22% futási idő • Pontosság növelése • Új operátorok • Attribútum választási heurisztika • Kombinált modellek • On-line tanulás teljes modellépítés helyett • Útvonal konfidenciák használatával • Fejlesztési lehetőségek • Streamben jelfelismerés (csúszóablakos megoldás) • Az elv alapján bármilyen félig-struktúrált/struktúrált adat osztályozására kiterjeszthető További ShiftTree-vel kapcsolatos kutatási anyagok az oldalamon:http://www.hidasi.eu

More Related