670 likes | 911 Views
2. Decyzja rozlozona na szereg prostszych decyzji; w rznych etapach wykorzystywane sa rzne cechy i uwzgledniane rzne podzbiory klas. Schemat dzialania klasyfikatora przedstawia drzewo decyzyjne. Podczas calego procesu decyzyjnego uwzgledniane wszystkie cechy i klasy.. . . jednoetapowa. sekwencyj
E N D
1. 1 Stosowane symbole L liczba klas
T drzewo decyzyjne
t wezel drzewa
Tt poddrzewo drzewa T o korzeniu w wezle t
TL zbir lisci drzewa T
|TL| liczba lisci drzewa T
m liczba przykladw
mi liczba przykladw, dla ktrych dany atrybut przyjmuje wartosc i-ta
mj liczba przykladw klasy cj
2. 2
3. 3 Drzewo decyzyjne
4. 4 Drzewo decyzyjne
5. 5 Zalety drzew decyzyjnych szybka klasyfikacja
zrozumialy proces decyzyjny
mozliwosc aproksymacji zlozonych powierzchni decyzyjnych
mozliwosc stosowania cech rznego typu
efektywne z punktu widzenia przechowywania w pamieci
6. 6 Wady drzew decyzyjnych im wiecej klas oraz im bardziej sie one nakladaja,tym wieksze drzewo decyzyjne
trudno zapewnic jednoczesnie wysoka jakosc klasyfikacji i male rozmiary drzewa
w wezlach testowany jeden atrybut
lokalna optymalizacja
metody nieadaptacyjne
7. 7 Konstrukcja drzewa decyzyjnego
8. 8 Konstrukcja drzew decyzyjnych Jeden zbir danych ? wiele mozliwych drzew
Czym nalezy sie kierowac wybierajac (konstruujac) drzewo?
9. 9 Kryteria optymalizacji
10. 10 Zstepujaca konstrukcja drzew decyzyjnych
11. 11 Utworzenie liscia Do wezla koncowego przypisuje sie etykiete tej klasy, ktrej obrazw najwiecej dociera do tego wezla.
12. 12 Podzial wezla - przyklady
13. 13 Podzial wezla
14. 14 Podzial wezla w przypadku atrybutw nominalnych 1. Dla kazdego atrybutu yi oblicz wartosc wybranej miary.
2. Wybierz atrybut optymalny w sensie powyzszej miary.
3. Od danego wezla utwrz tyle galezi, ile rznych wartosci przyjmuje atrybut yi.
15. 15 Kryteria wyboru atrybutu mierzace rznice miedzy zbiorem przykladw w wezle t a zbiorami przykladw w wezlach potomnych ze wzgledu na rozklad czestosci klas;
mierzace rznice miedzy poszczeglnymi zbiorami przykladw w wezlach potomnych ze wzgledu na rozklad czestosci klas;
mierzace statystyczna niezaleznosc miedzy rozkladem klas a podzialem zbioru przykladw na podzbiory.
16. 16 Kryteria wyboru atrybutu przyrost informacji
17. 17 Kryteria wyboru atrybutu wsplczynnik przyrostu informacji
18. 18 Kryteria wyboru atrybutu - miara zrznicowania danych (Gini index)
19. 19 Kryteria wyboru atrybutu statystyka ?2
20. 20 Kryteria wyboru atrybutu Eksperymenty pokazuja ze:
przedstawione kryteria wyboru atrybutu nie wplywaja na blad klasyfikacji; mozna otrzymac rwnie dobre drzewa wybierajac atrybuty w wezlach losowo, ale
przedstawione miary wplywaja na rozmiary skonstruowanego drzewa (przed przycieciem); drzewa, dla ktrych losowano atrybuty zawieraja okolo dwa razy wiecej wezlw;
przewaznie korzystajac z miary GR otrzymuje sie najmniejsze drzewa a za pomoca ?2 najwieksze;
na blad klasyfikacji ma wplyw przycinanie drzewa.
21. 21 Kryterium stopu Mozliwe dwa podejscia:
Przerwanie rozbudowy drzewa, gdy spelniony jest jeden z ponizszych warunkw:
liczba blednie klasyfikowanych obrazw jest mniejsza niz ustalony prg;
liczba obrazw w wezle jest mniejsza niz ustalony prg;
drzewo osiagnelo maksymalny dopuszczalny rozmiar (maksymalna liczba wezlw lub maksymalna wysokosc).
Zbudowanie drzewa klasyfikujacego poprawnie wszystkie lub prawie wszystkie przyklady, a nastepnie przyciecie drzewa.
22. 22 Przycinanie drzew
23. 23 Przycinanie drzew
24. 24 Przycinanie drzew Na podstawie oddzielnego zbioru przycinania
Na podstawie zbioru uczacego
Wykorzystujace zasade minimalnej dlugosci kodu
25. 25 Przycinanie drzew
26. 26 Przycinanie drzew reduced error pruning Blad szacowany na podstawie odrebnego zbioru przycinania.
Wezly przegladane od dolu.
Poddrzewo Tt zastepowane lisciem t gdyerror(t) ? error(Tt).
Procedura powtarzana dopki dalsze przycinanie nie zwieksza bledu.
Zalety: prostota, niski koszt obliczeniowy.
Wady: koniecznosc poswiecenia czesci danych na przycinanie; czasem drzewo zostaje przyciete zbyt mocno (zwlaszcza gdy zbir przycinania jest znacznie mniejszy niz zbir uczacy).
27. 27 Przycinanie drzew reduced error pruning, przyklad
28. 28 Przycinanie drzew reduced error pruning, przyklad
29. 29 Przycinanie drzew reduced error pruning, przyklad
30. 30 Przycinanie drzew reduced error pruning, przyklad
31. 31 Przycinanie drzew reduced error pruning, przyklad
32. 32 Przycinanie drzew reduced error pruning, przyklad
33. 33 Przycinanie drzew pessimistic error pruning Blad szacowany na podstawie zbioru uczacego.
Wezly przegladane od korzenia.
Poddrzewo Tt o korzeniu w wezle t zastepowane lisciem gdyerror(t) ? error(Tt) + SE(error(Tt)) error(t) = error(t) + error(Tt) = error(Tt) + |TtL|SE(error(Tt)) = [error(Tt)(m(t) - error(Tt)) / m(t)].
34. 34 Blad szacowany na podstawie zbioru uczacego.
Wezly przegladane od dolu.
Poddrzewo Tt zastepowane lisciem gdyerror(t) < error(Tt)ts nastepniki wezla t
Wada: koniecznosc doboru parametru k okreslajacego wplyw prawdopodobienstwa a priori klas.
Przycinanie drzew minimum error pruning
35. 35 Wezly przegladane od dolu.
Poddrzewo Tt jest zastepowane lisciem gdyCV(t) < CVmin oraz CV(ts) < CVmin (ts nastepniki wezla t) CV(t) wartosc, jaka przyjmuje kryterium wyboru atrybutu zastosowane przy konstrukcji drzewa (np. przyrost informacji)CVmin progowa wartosc kryterium
Niekiedy tworzy sie wiele drzew odpowiadajacych rznym wartosciom CVmin a nastepnie wybiera jedno z nich.
Przycinanie drzew critical value pruning
36. 36 Generowana jest rodzina poddrzew T0, T1 ...Tk pierwotnego drzewa: drzewo Ti+1 powstaje z Ti po przycieciu galezi, dla ktrych nastepujaca wartosc jest najmniejsza:? = (errror(t) error(Tt)) / (|TtL| - 1).
Sposrd wygenerowanych drzew wybrane zostaje to, dla ktrego blad jest najmniejszy (blad oszacowany na podstawie odrebnego zbioru danych lub w procesie walidacji krzyzowej).
Przycinanie drzew cost-complexity pruning
37. 37 Brakujace wartosci atrybutw Przyczyny: parametr nie zostal zmierzony, nie podano odpowiedzi w kwestionariuszu itp.
Trudnosci podczas uczenia (nieznany atrybut przykladu ze zbioru uczacego)
przy obliczaniu wartosci kryterium wyboru atrybutu,
przy kierowaniu przykladu do odpowiedniej galezi.
Trudnosci podczas klasyfikacji (nieznany atrybut nowego przykladu).
38. 38 Brakujace wartosci atrybutw
39. 39 Brakujace wartosci podczas wybieranie atrybutu
40. 40 Brakujace wartosci podczas wybieranie atrybutu
41. 41 Brakujace wartosci podczas wybieranie atrybutu
42. 42 Brakujace wartosci podczas wybieranie atrybutu
43. 43 Brakujace atrybuty podczas kierowania przykladu do jednej z galezi Pomijanie
Wypelnianie
Podzial
Losowanie przyklad skierowany do galezi wybranej losowo z prawdopodobienstwem proporcjonalnym do liczby znanych przykladw skierowanych do tej galezi
Oddzielna galaz od wezla, w ktrym testowany jest nieznany atrybut tworzona jest dodatkowa galaz
44. 44 Brakujace atrybuty podczas klasyfikacji
45. 45 Brakujace atrybuty podczas klasyfikacji
46. 46 Brakujace atrybuty podczas klasyfikacji
47. 47 Brakujace atrybuty podczas klasyfikacji
48. 48 Dyskretyzacja atrybutw ciaglych zwiekszenie efektywnosci obliczeniowej
zwiekszenie prostoty i czytelnosci hipotez
poprawa dokladnosci hipotez (unikanie nadmiernego dopasowania)
49. 49 Rodzaje dyskretyzacji metody prymitywne i zaawansowane (zstepujace lub wstepujace)
metody lokalne i globalne
metody z nauczycielem i bez nauczyciela
50. 50 Prymitywne metody dyskretyzacji
51. 51 Prymitywne metody dyskretyzacji nie jest uwzgledniany rozklad wartosci atrybutw i klas w zbiorze uczacym
koniecznosc okreslania liczby przedzialw dyskretyzacji
52. 52 Metody zaawansowane dyskretyzacja zstepujaca function Dyskretyzacja_zstepujaca(P-przyklady, a-atrybut)
if kryterium_stopu then
return
prg = wybr_progu(P,a)
progi_1 = Dyskretyzacja_zstepujaca(Pa?prg,a)
progi_2 = Dyskretyzacja_zstepujaca(Pa>prg,a)
return {prg} ? progi_1 ? progi_2
end function
53. 53 Dyskretyzacja zstepujaca wybr progu
54. 54 Dyskretyzacja zstepujaca wybr progu
55. 55 Dyskretyzacja zstepujaca wybr progu
56. 56 Dyskretyzacja zstepujaca kryterium stopu
57. 57 Dyskretyzacja zstepujaca kryterium stopu
58. 58 Metody zaawansowane dyskretyzacja wstepujaca function Dyskretyzacja_wstepujaca(P-przyklady, a-atrybut)
Z = zbir przedzialw zawierajacych po jednej wartosci atrybutu a
repeat
z1,z2 = wybr_sasiednich_przedzialw(P,a,Z)
Z = Z {z1,z2} ? {z1 ? z2}
until kryterium_stopu(Z)
end function
59. 59 Dyskretyzacja wstepujaca laczenie przedzialw
60. 60 Dyskretyzacja wstepujaca laczenie przedzialw
61. 61 Dyskretyzacja wstepujaca kryterium stopu
62. 62 Mniej typowe rozwiazania stosowane podczas konstrukcji drzew decyzyjnych Stosowanie wielu atrybutw w wezlach drzewa
Inkrementacyjna konstrukcja drzew
Stosowanie globalnych kryteriw optymalizacji
Zastosowanie drzew do aproksymacji
63. 63 Mniej typowe rozwiazania wiele cech w wezlach (przykladowe rozwiazanie dla cech ciaglych)
64. 64 Mniej typowe rozwiazania wiele cech w wezlach
65. 65 Mniej typowe rozwiazania wiele cech w wezlach
66. 66 Przyklady zastosowan drzew decyzyjnych - klasyfikacja
67. 67 Przyklady zastosowan drzew decyzyjnych inzynieria oprogramowania Klasyfikacja modulw oprogramowania; wykrywanie modulw zawierajacych znaczna liczbe bledw; przewidywanie przed implementacja czy modul bedzie zawieral znaczna liczbe bledw.
16 systemw od 3000 do 112000 linii kodu (Fortran); 4700 modulw; 32% kodu z poprzednich wersji.
74 atrybuty opisujace naklad pracy na napisanie danego fragmentu, zmiany, styl projektowania, styl programowania, rozmiary, zlozonosc itd.
Kryterium wybory atrybutu: przyrost informacji.
Kryterium stopu: najwyzej N% przykladw w lisciu jest klasyfikowanych blednie.
68. 68 Przyklady zastosowan drzew decyzyjnych rozpoznawanie obrazw Rozpoznawanie chinskich znakw: 3155 klas, 31550 przykladw w zbiorze uczacym, 9345 w zbiorze testowym.
Cechy wygenerowano na podstawie histogramw oraz transformacji Walsha; liczba cech wynosila 64.
Do wyboru cech uzyto miary uwzgledniajacej wariancje poszczeglnych klas oraz calego zbioru danych (wzdluz wektorw okreslajacych poszczeglne cechy).
Kryterium stopu: prg bledu.
Najdluzsza sciezka od korzenia do liscia wynosila 20, srednia dlugosc sciezki wynosila 10.
Osiagnieto poprawnosc ok. 99%.