1 / 29

BESLISSINGSBOMEN

BESLISSINGSBOMEN. Jan Talmon Medische Informatica Universiteit Maastricht. Opzet presentatie. Algemene opmerkingen over classificatie algoritmen Principes van classificatie bomen Issues Keuze attributen, Splits , Stop criterium , Pruning , Missing values Voor- en nadelen

zarita
Download Presentation

BESLISSINGSBOMEN

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. BESLISSINGSBOMEN Jan Talmon Medische Informatica Universiteit Maastricht

  2. Opzet presentatie • Algemene opmerkingen over classificatie algoritmen • Principes van classificatie bomen • Issues • Keuze attributen, Splits, Stop criterium, Pruning, Missing values • Voor- en nadelen • Toepassingen

  3. Algemene opmerkingen • Een classificatie algoritme maakt een afbeelding van een n-dimensionale meetvector op een 1-dimensionale uitkomstruimte X Yi

  4. Algemene opmerkingen • De uitkomstruimte is nominaal of ordinaal met een beperkt aantal uitkomsten. • Ziekte categorieen • Gradaties • niet, licht, matig, ernstig, zeer ernstig

  5. Algemene opmerkingen • Parametrisch versus niet-parametrisch • One shot versus sequentieel • Classificatiebomen zijn • Niet-parametrisch en sequentieel

  6. Algemene opmerkingen • Definities: • Leerset: de verzameling cases die gebruikt wordt om een algoritme te leren • Attribuut: een kenmerk waarmee de cases gekarakteriseerd worden (leeftijd, geslacht, bloeddruk, etc)

  7. Opzet presentatie • Algemene opmerkingen over classificatie algoritmen • Principes van classificatie bomen • Issues • Keuze attributen, Splits, Stop criterium, Pruning, Missing values • Voor- en nadelen • Toepassingen

  8. Principes • Een leerset deel je op in twee of meer subsets • Hiervoor wordt één attribuut gebruikt • Herhaal dit proces voor elke subgroep die niet uit cases van slechts een uitkomst categorie bestaat.

  9. P1> P1 P2>   P2 Principes

  10. Opzet presentatie • Algemene opmerkingen over classificatie algoritmen • Principes van classificatie bomen • Issues • Keuze attributen, Splits, Stop criterium, Pruning, Missing values • Voor- en nadelen • Toepassingen

  11. Issue: Keuze attributen • We hebben een maat nodig die de kwaliteit van een split aangeeft • Entropie • Gemiddelde onzekerheid over de klassificatie van een case

  12. Issue: Keuze attributen • Door een split neemt de entropie af • Voor elke subgroep j hebben we entropie Ej • Totale entropie na split= ES = pjxEj • We kiezen attribuut met minimale Es • Of met maximale entropie reductie • H=E - Es

  13. P1 Issue: Splits • Binair versus multiple splits • Binair • Past niet goed bij klassifikatieproblemen met meer dan twee uitkomstwaarden

  14. P1 Issue: Splits • Multiple • Veel splits zorgen voor een grote entropie reductie, maar hebben slechte voorspellende waarde

  15. P1 P1 Issue: Splits • Multiple • Verwijder de potientele split die de entropie het minst doet toenemen

  16. Issue: Splits • Multiple • Bij nominale attributen kunnen we combinaties van attribuut waarden nemen • Gebruik weer entropie reductie als maat

  17. Issue: Stop criterium • We kunnen doorgaan tot dat elke subgroep slechts cases bevat van een categorie • Slechte voorspellende waarde • Ons model is aangepast aan de leerset • Wanneer stoppen we???

  18. Issue: Stop criterium • De entropie reductie is – onder bepaalde voorwaarden – chi-kwadraat verdeeld. • Het aantal vrijheidsgraden is het aantal subgroepen minus 1 • Men kan dus de kans uitrekenen dat een bepaalde entropie reductie optreedt terwijl het attribuut geen voorspellende waarde heeft

  19. Issue: Stop criterium • Stop als deze kans > 0.05 • Stop als deze kans voor een pad in de boom groter wordt dan 0.05 • Gebruik deze kans ook om te bepalen wanneer we stoppen met het weghalen van splits (minimale kans) • Gebruik deze kans ook voor de keuze van het beste attribuut (minimale kans)

  20. Issue: Pruning • Pruning is het weghalen van subtakken in de boom om een goede voorspellende waarde te houden • Pruning vereist een test-set • Eindknopen met een slechte voorspellende waarde op deze testset worden verwijderd • Deze testset is eigenlijk een leerset!!

  21. Issue: Missing values • Niet altijd zijn alle gegevens van een case bekend. • Zorg dat voor elke knoop een of meer alternatieve attributen zijn die een “soortgelijke” split opleveren

  22. P1> P2> M=5,k=20 M=15,k=2 A=15,b=4 a=10,b=13 A B Issue missing values • Splits een knoop in de boom • Beschouw de splitsing nu als een classificatie en probeer deze met de overige attributen te voorspellen.

  23. Opzet presentatie • Algemene opmerkingen over classificatie algoritmen • Principes van classificatie bomen • Issues • Keuze attributen, Splits, Stop criterium, Pruning, Missing values • Voor- en nadelen • Toepassingen

  24. Voordelen • Niet parametrisch • Ordening is belangrijk, niet de maat • Lokaal • Snel • Flexibel • Interactief • Inzichtelijk

  25. Nadelen • Matige theoretische onderbouwing • Grote leersets nodig • Elke split maakt de leerset voor de volgende laag kleiner • Geen interactie tussen variablen • Transformaties: +, -, x, / • Combinatorische explosie • Geen vooruitziende blik • Bouw geen boom maar een bos

  26. Uitdagingen • Gebruik domeinkennis • Bv. sommig onderzoek doe je voor ander, duurder onderzoek • Hoe maak je kosten-effectieve klassificatiebomen • Incrementeel leren/leren van fouten

  27. Opzet presentatie • Algemene opmerkingen over classificatie algoritmen • Principes van classificatie bomen • Issues • Keuze attributen, Splits, Stop criterium, Pruning, Missing values • Voor- en nadelen • Toepassingen

  28. Toepassingen • ECG analyse • Voorspellen van de uitkomst van endoscopisch onderzoek • Beoordeling vaatlab gegevens • Criteria voor het aanpassen van medicatie bij epilepsie

  29. Literatuur • Quinlan: ID3 (1986), C4.5 • Breiman: Classification And Regression Trees (CART) • Talmon: NPPA in: Pattern Recognition Letters (1986)

More Related