1 / 15

Od rozhodovacích stromov k náhodným lesom

Od rozhodovacích stromov k náhodným lesom. Peter Angelovič. Školiteľ: prof. Ing. Vladimír Vojtek, PhD. Ústav aplikovanej informatiky Fakulta informatiky a informačných technológií STU. Obsah. Charakteristika a typy predikčných úloh Predikčné metódy Rozhodovacie stromy Bagging a Boosting

sumana
Download Presentation

Od rozhodovacích stromov k náhodným lesom

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Od rozhodovacích stromov k náhodným lesom Peter Angelovič Školiteľ: prof. Ing. Vladimír Vojtek, PhD. Ústav aplikovanej informatiky Fakulta informatiky a informačných technológií STU

  2. Obsah • Charakteristika a typy predikčných úloh • Predikčné metódy • Rozhodovacie stromy • Bagging a Boosting • Náhodné lesy • Optimalizácia náhodných lesov

  3. Typy predikčných úloh • Charakteristika predikčnej úlohy • Každý objekt je tvorený množinou atribútov • Predpoveď neznámeho atribútu na základe známych hodnôt ostatných atribútov • Uprednostňuje sa presnosť pred zrozumiteľnosťou získaných znalostí • Typy úloh • Klasifikácia • Regresia • Predikcia časových radov – predikcia, predpoveď

  4. Definícia klasifikácie • Majme množinu objektovO= {O1,O2,…,Ok} • Oi = {a1,a2,…,am}, aj j-ty atribút • Majme množinu triedC= {C1,C2,…,Cn} • Klasifikátor je zobrazenieK • MajmeT  O, známa príslušnosť k triedam • MajmeD  O,neznáme triedy • Klasifikačná úloha: • Zostavenie klasifikátora K nad množinou T • K priradí triedu každému objektu z D

  5. Definícia predikcie • Majme časový radS={ S(1), S(2), ..., S(k)} • S(j) = {a1, a2, …, am} • S(1), S(2), ..., S(k)  S(k+1) • Prediktor je zobrazenieP • Predikčná úloha • Zostavenie prediktoraP nad množinouT • Ppriradí numerickú hodnotu každému príkladu zD

  6. Rozhodovacie stromy • Založené na princípe rozdeľuj a panuj • Prvky rozhodovacích stromov • Medziľahlý uzol tvorí test • Hrana je výsledok tohto testu • List reprezentuje triedy, numerické hodnoty, lokálne modely

  7. Indukcia rozhodovacích stromov • Top Down Induction of Decision Trees: • Všetky príklady sa priradia rodičovskému uzlu • Uzol sa stáva listom ak sú všetky príklady z jednej triedy • Inak sa vyberie atribút, ktorý najlepšie rozdelí príklady – stane sa testom pre vetvenie • Vytvoria sa vetvy a pre každú sa zostaví podmnožina príkladov • Postup sa rekurzívne opakuje • Všetky príklady v danom uzle patria do jednej triedy • Všetky atribúty pre vetvenie už boli vyčerpané • V uzle už nie sú žiadne príklady • Dôležité je kritérium vetvenia

  8. Algoritmy rozhodovacích stromov • Kritérium vetvenia – ENTROPIA - miera neurčitosti príkladov v danom uzle • Algoritmus ID3 • Klasifikačné úlohy • Kritérium: INFORMAČNÝ ZISK (opak entropie) • Pracuje iba s nominálnymi atribútmi • Uprednostňuje atribúty s veľkým počtom hodnôt • Algoritmus C4.5 • Klasifikačné úlohy • Kritérium: POMERNÝ INFORMAČNÝ ZISK • Dokáže pracovať s numerickými atribútmi • Odstraňuje nevýhodu ID3 • Orezávanie stromov – predchádza preučeniu

  9. Algoritmy regresných a modelových stromov • Klasifikačný a regresný strom CART • Klasifikačné aj regresné úlohy • Kritérium: GINI INDEX • Pracuje s nominálnymi a numerickými atribútmi • V listoch sú buď triedy alebo numerické hodnoty • Výsledný strom býva rozsiahly a neprehľadný • Algoritmus M5 • Regresné úlohy • Kritérium: REDUKCIA ŠTANDARDNEJ ODCHÝLKY • V listoch sú lineárne modely • Zvýšenie presnosti – orezávaním, vyhladzovaním • Algoritmus M5’ • Rozšírenie M5 • Práca s chýbajúcimi hodnotami atribútov

  10. Boosting a Bagging Princíp techník Boosting a Bagging

  11. Boosting a Bagging • Zostavenie viacerých rozhodovacích stromov • Výsledok predikcie je agregáciou všetkých stromov • Boosting • Každému príkladu sa priradí váha • Chybne predikovaným príkladom sa váha mení • Presnosť prediktora je úmerná počtu správne predikovaných hodnôt • Bagging • Vytvorí sa T trénovacích množín technikou bootstrap • Pre každú množinu sa zostaví samostatný prediktor

  12. Náhodné lesy • Náhodný les • Kolekcia stromov • Výsledok je agregáciou výsledkov jednotlivých stromov • Princíp: • Vytvorenie N trénovacích množín metódou bootstrap • Zostavenie stromu pre každú trénovaciu množinu • Predikcia výstupnej hodnoty pre neznámy príklad • Atribút pre vetvenie: z náhodne vybraných atribútov • Sú odolné voči preučeniu • Nepotrebujú validačnú množinu

  13. Vlastnosti náhodných lesov • Jednoduchý princíp • Odolnosť voči preučeniu • Dobrá paralelizovteľnosť • Lepšie výsledky ako boosting alebo bagging • Odolnosť voči šumu • Možnosť výpočtu chyby generalizácie, výpočet korelácie a sily prediktora

  14. Optimalizácia náhodných lesov • Optimalizácia pomocou EA • Počet stromov v lese • Počet atribútov pre vetvenie • Typ funkcie pre kritérium vetvenia • Výber príkladov pre zostavenie trénovacej množiny • Optimalizácia pomocou NS • NS ako lokálne modely v listoch • NS ako agregačná funkcia jednotlivých stromov

  15. Ďakujem za pozornosť

More Related