1 / 17

Zlo žená klasifikácia

Zlo žená klasifikácia. Kristína Machová. O SNOVA:. Úvod Metóda Bagging Bagging stratégie Hodnotenie Bagging metódy Metóda Boosting Hodnotenie Boosting metódy Porovnanie metód Bagging a Boosting. ÚVOD.

samira
Download Presentation

Zlo žená klasifikácia

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Zložená klasifikácia Kristína Machová

  2. OSNOVA: • Úvod • Metóda Bagging • Bagging stratégie • Hodnotenie Bagging metódy • Metóda Boosting • Hodnotenie Boosting metódy • Porovnanie metód Bagging a Boosting

  3. ÚVOD • Zložená klasifikácia rieši problém slabých klasifikátorov, ktoré dosahujú nízku efektívnosť • Nízka efektívnosť je často zapríčinená malou alebo nekvalitnou TM. • Preto sa tento prístup sústreďuje na formovanie rôznych výberov z pôvodnej TM. • Nad každým výberom sa trénuje slabý - partikulárny klasifikátor. • Výsledok klasifikácie je určený akýmsi hlasovaním všetkých slabých klasifikátorov. • Najznámejšie prístupy: metódy bagging a boosting.

  4. METÓDA BAGGING • Bootstrap AGGreatING [Breiman, 1994] • Formuje m=1...M rôznych výberov z pôvodnej TM • Nad každým výberom trénuje slabý - partikulárny klasifikátor Hm:–> {-1,1} zvoleným algoritmom SU. • Každý dokument z množiny D je(1)/nie je(-1) klasifikovaný do triedy z množiny C. • Výsledok klasifikácie je určený hlasovaním všetkých slabých klasifikátorov podľa (αm posilňuje vplyv presnejších klasifikátorov na výslednú predikciu):

  5. METÓDA BAGGING

  6. BAGGING STRATÉGIE Okrem „základnej verzie bagging“ sú známe ďalšie stratégie „bagging like strategies“: • Disjunktné partície (disjoint partitions) – každý príklad iba raz, každá podmnožina tvorí 1/M časť pôvodnej množiny, ich zjednotenie tvorí pôvodnú množinu. • Malé vrecia (small bags) – náhodný výber s možnosťou opakovania • Malé vrecia bez opakovania (no replication small bags)

  7. BAGGING STRATÉGIE • Disjunktné vrecia (disjoint bags) – na začiatku každá podmnožina tvorí 1/M časť pôvodnej množiny, potom sa v každej podmnožine zopakuje aspoň jeden náhodne zvolený prvok, počet replikácií musí byť v každej podmnožine rovnaký

  8. HODNOTENIE BAGGING METÓDY Kolekcia Reuters-21578: 674 kategórií, 24242 termov v angličtine. Po lematizácii a odstránení neplno-významových slov (stop words) ostalo 19864 termov. uspokojivá presnosť

  9. HODNOTENIE BAGGING METÓDY Kolekcia Markíza: 96 kategórií, 26785 dokumentov v slovenčine (trénovacia a testovacia časť v pomere 2:1). uspokojivá presnosť

  10. METÓDA BOOSTING • Zdokonalená metóda bagging [Schapire-Singer, 1999]založená na váhovaní TP • Formuje m=1...M rôznych výberov z pôvodnej TM, ktoré sa líšia iba váhami TP (všetky TP) • Nad každým výberom trénuje slabý - partikulárny klasifikátor Hm:–> {-1,1} zvoleným algoritmom SU. • V každej iterácii sa zvýšia/znížia váhy nesprávne/správne klasifikovaných TP predchádzajúcim klasifikátorom (riadenie chybou klasifikácie) • Výsledok klasifikácie je určený hlasovaním:

  11. METÓDA BOOSTING Najznámejší algoritmusAdaBoost.MH2 • Inicializuj distribúciu váh wi,j=1/(|D||C|), kde i=1…|D| a j=1…|C|. 2. Pre m=1…M 2.1 Generuj klasifikátor Hm: D x C –> R 2.2 Urči parameter αm € R 2.3 Modifikuj distribúciu váh: Kde Zm je normovacia konštanta, garantujúca: a yij=+1 ak di je z cj a yij=-1 ak di nie je z cj.

  12. HODNOTENIE BOOSTING METÓDY Kolekcia Reuters-21578: rozdiely v presnosti boostingom a perfektným rozhodovacím stromom – kategórie sú usporiadané klesajúco podľa frekvencie ich výskytu.

  13. HODNOTENIE BOOSTING METÓDY Kolekcia Markíza: rozdiely v presnosti medzi boostingom a perfektným rozhodovacím stromom - kategórie s nízkou frekvenciou výskytu – málo informácií pre mechanizmus zloženej klasifikácie.

  14. HODNOTENIE BOOSTING METÓDY Kolekcia Reuters-21578: závislosť presnosti boosting na počte základných klasifikátorov (15 – uspokojivé).

  15. HODNOTENIE BOOSTING METÓDY Kolekcia Reuters-21578: závislosť návratnosti boosting na počte základných klasifikátorov (10 – uspokojivé).

  16. POROVNANIE METÓD BAGGING A BOOSTING • Zvyšuje presnosť klasifikácie slabých klasifikátorov (silný klasifikátor sa nepotrebuje radiť) • Nevýhody: Strata jednoduchosti, prehľadnosti a ilustratívnosti RS zvýšená výpočtová zložitosť. • Dosiahnuté výsledky preferujú boosting pred baggingom. • Riadenie chybou klasifikácie pri boostingu nielen spresňuje ale aj zrýchľuje proces učenia. • Slabé klasifikátory boli v experimentoch získané orezaním perfektných binárnych rozhodovacích stromov.

  17. Ďakujem za pozornosť

More Related