290 likes | 399 Views
BESLISSINGSBOMEN. Jan Talmon Medische Informatica Universiteit Maastricht. Opzet presentatie. Algemene opmerkingen over classificatie algoritmen Principes van classificatie bomen Issues Keuze attributen, Splits , Stop criterium , Pruning , Missing values Voor- en nadelen
E N D
BESLISSINGSBOMEN Jan Talmon Medische Informatica Universiteit Maastricht
Opzet presentatie • Algemene opmerkingen over classificatie algoritmen • Principes van classificatie bomen • Issues • Keuze attributen, Splits, Stop criterium, Pruning, Missing values • Voor- en nadelen • Toepassingen
Algemene opmerkingen • Een classificatie algoritme maakt een afbeelding van een n-dimensionale meetvector op een 1-dimensionale uitkomstruimte X Yi
Algemene opmerkingen • De uitkomstruimte is nominaal of ordinaal met een beperkt aantal uitkomsten. • Ziekte categorieen • Gradaties • niet, licht, matig, ernstig, zeer ernstig
Algemene opmerkingen • Parametrisch versus niet-parametrisch • One shot versus sequentieel • Classificatiebomen zijn • Niet-parametrisch en sequentieel
Algemene opmerkingen • Definities: • Leerset: de verzameling cases die gebruikt wordt om een algoritme te leren • Attribuut: een kenmerk waarmee de cases gekarakteriseerd worden (leeftijd, geslacht, bloeddruk, etc)
Opzet presentatie • Algemene opmerkingen over classificatie algoritmen • Principes van classificatie bomen • Issues • Keuze attributen, Splits, Stop criterium, Pruning, Missing values • Voor- en nadelen • Toepassingen
Principes • Een leerset deel je op in twee of meer subsets • Hiervoor wordt één attribuut gebruikt • Herhaal dit proces voor elke subgroep die niet uit cases van slechts een uitkomst categorie bestaat.
P1> P1 P2> P2 Principes
Opzet presentatie • Algemene opmerkingen over classificatie algoritmen • Principes van classificatie bomen • Issues • Keuze attributen, Splits, Stop criterium, Pruning, Missing values • Voor- en nadelen • Toepassingen
Issue: Keuze attributen • We hebben een maat nodig die de kwaliteit van een split aangeeft • Entropie • Gemiddelde onzekerheid over de klassificatie van een case
Issue: Keuze attributen • Door een split neemt de entropie af • Voor elke subgroep j hebben we entropie Ej • Totale entropie na split= ES = pjxEj • We kiezen attribuut met minimale Es • Of met maximale entropie reductie • H=E - Es
P1 Issue: Splits • Binair versus multiple splits • Binair • Past niet goed bij klassifikatieproblemen met meer dan twee uitkomstwaarden
P1 Issue: Splits • Multiple • Veel splits zorgen voor een grote entropie reductie, maar hebben slechte voorspellende waarde
P1 P1 Issue: Splits • Multiple • Verwijder de potientele split die de entropie het minst doet toenemen
Issue: Splits • Multiple • Bij nominale attributen kunnen we combinaties van attribuut waarden nemen • Gebruik weer entropie reductie als maat
Issue: Stop criterium • We kunnen doorgaan tot dat elke subgroep slechts cases bevat van een categorie • Slechte voorspellende waarde • Ons model is aangepast aan de leerset • Wanneer stoppen we???
Issue: Stop criterium • De entropie reductie is – onder bepaalde voorwaarden – chi-kwadraat verdeeld. • Het aantal vrijheidsgraden is het aantal subgroepen minus 1 • Men kan dus de kans uitrekenen dat een bepaalde entropie reductie optreedt terwijl het attribuut geen voorspellende waarde heeft
Issue: Stop criterium • Stop als deze kans > 0.05 • Stop als deze kans voor een pad in de boom groter wordt dan 0.05 • Gebruik deze kans ook om te bepalen wanneer we stoppen met het weghalen van splits (minimale kans) • Gebruik deze kans ook voor de keuze van het beste attribuut (minimale kans)
Issue: Pruning • Pruning is het weghalen van subtakken in de boom om een goede voorspellende waarde te houden • Pruning vereist een test-set • Eindknopen met een slechte voorspellende waarde op deze testset worden verwijderd • Deze testset is eigenlijk een leerset!!
Issue: Missing values • Niet altijd zijn alle gegevens van een case bekend. • Zorg dat voor elke knoop een of meer alternatieve attributen zijn die een “soortgelijke” split opleveren
P1> P2> M=5,k=20 M=15,k=2 A=15,b=4 a=10,b=13 A B Issue missing values • Splits een knoop in de boom • Beschouw de splitsing nu als een classificatie en probeer deze met de overige attributen te voorspellen.
Opzet presentatie • Algemene opmerkingen over classificatie algoritmen • Principes van classificatie bomen • Issues • Keuze attributen, Splits, Stop criterium, Pruning, Missing values • Voor- en nadelen • Toepassingen
Voordelen • Niet parametrisch • Ordening is belangrijk, niet de maat • Lokaal • Snel • Flexibel • Interactief • Inzichtelijk
Nadelen • Matige theoretische onderbouwing • Grote leersets nodig • Elke split maakt de leerset voor de volgende laag kleiner • Geen interactie tussen variablen • Transformaties: +, -, x, / • Combinatorische explosie • Geen vooruitziende blik • Bouw geen boom maar een bos
Uitdagingen • Gebruik domeinkennis • Bv. sommig onderzoek doe je voor ander, duurder onderzoek • Hoe maak je kosten-effectieve klassificatiebomen • Incrementeel leren/leren van fouten
Opzet presentatie • Algemene opmerkingen over classificatie algoritmen • Principes van classificatie bomen • Issues • Keuze attributen, Splits, Stop criterium, Pruning, Missing values • Voor- en nadelen • Toepassingen
Toepassingen • ECG analyse • Voorspellen van de uitkomst van endoscopisch onderzoek • Beoordeling vaatlab gegevens • Criteria voor het aanpassen van medicatie bij epilepsie
Literatuur • Quinlan: ID3 (1986), C4.5 • Breiman: Classification And Regression Trees (CART) • Talmon: NPPA in: Pattern Recognition Letters (1986)