150 likes | 314 Views
Od rozhodovacích stromov k náhodným lesom. Peter Angelovič. Školiteľ: prof. Ing. Vladimír Vojtek, PhD. Ústav aplikovanej informatiky Fakulta informatiky a informačných technológií STU. Obsah. Charakteristika a typy predikčných úloh Predikčné metódy Rozhodovacie stromy Bagging a Boosting
E N D
Od rozhodovacích stromov k náhodným lesom Peter Angelovič Školiteľ: prof. Ing. Vladimír Vojtek, PhD. Ústav aplikovanej informatiky Fakulta informatiky a informačných technológií STU
Obsah • Charakteristika a typy predikčných úloh • Predikčné metódy • Rozhodovacie stromy • Bagging a Boosting • Náhodné lesy • Optimalizácia náhodných lesov
Typy predikčných úloh • Charakteristika predikčnej úlohy • Každý objekt je tvorený množinou atribútov • Predpoveď neznámeho atribútu na základe známych hodnôt ostatných atribútov • Uprednostňuje sa presnosť pred zrozumiteľnosťou získaných znalostí • Typy úloh • Klasifikácia • Regresia • Predikcia časových radov – predikcia, predpoveď
Definícia klasifikácie • Majme množinu objektovO= {O1,O2,…,Ok} • Oi = {a1,a2,…,am}, aj j-ty atribút • Majme množinu triedC= {C1,C2,…,Cn} • Klasifikátor je zobrazenieK • MajmeT O, známa príslušnosť k triedam • MajmeD O,neznáme triedy • Klasifikačná úloha: • Zostavenie klasifikátora K nad množinou T • K priradí triedu každému objektu z D
Definícia predikcie • Majme časový radS={ S(1), S(2), ..., S(k)} • S(j) = {a1, a2, …, am} • S(1), S(2), ..., S(k) S(k+1) • Prediktor je zobrazenieP • Predikčná úloha • Zostavenie prediktoraP nad množinouT • Ppriradí numerickú hodnotu každému príkladu zD
Rozhodovacie stromy • Založené na princípe rozdeľuj a panuj • Prvky rozhodovacích stromov • Medziľahlý uzol tvorí test • Hrana je výsledok tohto testu • List reprezentuje triedy, numerické hodnoty, lokálne modely
Indukcia rozhodovacích stromov • Top Down Induction of Decision Trees: • Všetky príklady sa priradia rodičovskému uzlu • Uzol sa stáva listom ak sú všetky príklady z jednej triedy • Inak sa vyberie atribút, ktorý najlepšie rozdelí príklady – stane sa testom pre vetvenie • Vytvoria sa vetvy a pre každú sa zostaví podmnožina príkladov • Postup sa rekurzívne opakuje • Všetky príklady v danom uzle patria do jednej triedy • Všetky atribúty pre vetvenie už boli vyčerpané • V uzle už nie sú žiadne príklady • Dôležité je kritérium vetvenia
Algoritmy rozhodovacích stromov • Kritérium vetvenia – ENTROPIA - miera neurčitosti príkladov v danom uzle • Algoritmus ID3 • Klasifikačné úlohy • Kritérium: INFORMAČNÝ ZISK (opak entropie) • Pracuje iba s nominálnymi atribútmi • Uprednostňuje atribúty s veľkým počtom hodnôt • Algoritmus C4.5 • Klasifikačné úlohy • Kritérium: POMERNÝ INFORMAČNÝ ZISK • Dokáže pracovať s numerickými atribútmi • Odstraňuje nevýhodu ID3 • Orezávanie stromov – predchádza preučeniu
Algoritmy regresných a modelových stromov • Klasifikačný a regresný strom CART • Klasifikačné aj regresné úlohy • Kritérium: GINI INDEX • Pracuje s nominálnymi a numerickými atribútmi • V listoch sú buď triedy alebo numerické hodnoty • Výsledný strom býva rozsiahly a neprehľadný • Algoritmus M5 • Regresné úlohy • Kritérium: REDUKCIA ŠTANDARDNEJ ODCHÝLKY • V listoch sú lineárne modely • Zvýšenie presnosti – orezávaním, vyhladzovaním • Algoritmus M5’ • Rozšírenie M5 • Práca s chýbajúcimi hodnotami atribútov
Boosting a Bagging Princíp techník Boosting a Bagging
Boosting a Bagging • Zostavenie viacerých rozhodovacích stromov • Výsledok predikcie je agregáciou všetkých stromov • Boosting • Každému príkladu sa priradí váha • Chybne predikovaným príkladom sa váha mení • Presnosť prediktora je úmerná počtu správne predikovaných hodnôt • Bagging • Vytvorí sa T trénovacích množín technikou bootstrap • Pre každú množinu sa zostaví samostatný prediktor
Náhodné lesy • Náhodný les • Kolekcia stromov • Výsledok je agregáciou výsledkov jednotlivých stromov • Princíp: • Vytvorenie N trénovacích množín metódou bootstrap • Zostavenie stromu pre každú trénovaciu množinu • Predikcia výstupnej hodnoty pre neznámy príklad • Atribút pre vetvenie: z náhodne vybraných atribútov • Sú odolné voči preučeniu • Nepotrebujú validačnú množinu
Vlastnosti náhodných lesov • Jednoduchý princíp • Odolnosť voči preučeniu • Dobrá paralelizovteľnosť • Lepšie výsledky ako boosting alebo bagging • Odolnosť voči šumu • Možnosť výpočtu chyby generalizácie, výpočet korelácie a sily prediktora
Optimalizácia náhodných lesov • Optimalizácia pomocou EA • Počet stromov v lese • Počet atribútov pre vetvenie • Typ funkcie pre kritérium vetvenia • Výber príkladov pre zostavenie trénovacej množiny • Optimalizácia pomocou NS • NS ako lokálne modely v listoch • NS ako agregačná funkcia jednotlivých stromov