280 likes | 406 Views
Thema. Classification of Credit Applicants Using Data Mining. Gruppe E1-116 a. Yue Sun Frank Moritz Jasmin Catovic Andr é B ünger Supervisor: Thomas D. Nielson. Aufgabenstellung. Klassifizierung von Kreditnehmern mittels Datamining genutzte Techniken: Entscheidungsbäume
E N D
Thema Classification of Credit Applicants Using Data Mining.
Gruppe E1-116 a • Yue Sun • Frank Moritz • Jasmin Catovic • André Bünger • Supervisor: Thomas D. Nielson
Aufgabenstellung • Klassifizierung von Kreditnehmern mittels Datamining • genutzte Techniken: • Entscheidungsbäume • Neuronale Netze • Naive Bayes Klassifizierer
Aufbau der Präsentation • verwendete Datenbank • Benutze Algorithmen • Experimente und Ergebnisse • Schlussfolgerung
Die Datenbank • Name: • Determining the solidness of borrowers via Credit-Scoring • Herkunft: • Statistisches Archiv der Universität München
Datenbank 2 • 1000 Datensätze • 21 Attribute • 20 Merkmalsattribute • 3 stetige • 17 diskrete • 1 Zielattribut (kreditwürdig, nicht kreditwürdig)
Trainings- und Testsets • 5 verschiedene Sets • Größe der Testsets : 300 Datensätze • Größe der Trainingsets : • 700 Datensätze • 500 Datensätze • 300 Datensätze • 100 Datensätze
Diskretisierung • Naive Bayes benötige diskrete Attribute • 2 verschiedene Methoden benutzt • vorgegebener Vorschlag („Expertenmeinung“) • recursive minimal entropy partitioning (RMEP)
RMEP • teilt stetige Attribute, so dass Intervalle mit gleichem Zielattributwert gebildet werden • Realisiert mit Weka DiscretizeFilter (MDL)
Naive Bayes Klassifizierer • basiert auf Bayes Theorie der bedingten Wahrscheinlichkeit • Annahme das die Attribute unabhängig voneinander sind
Struktur Creditability Balance F Worker Duration Credit History ...
Entscheidungsbäume • verwendete Software : Clementine 6.0 • Clementine verwendete den C5 Algorithmus • C5 ist eine Verbesserung von C4.5 • basiert auf ID3
Neuronale Netze • Verwendete Software : Clementine 6.0 • Vorwärtsverkettete Netze • eine versteckte Schicht mit 5 Neuronen
Experimente Ziel: den besten Klassifizierer finden Variation von Parametern Naive Bayes : m-estimate of probability Entscheidungsbäume : Pruningrate, Kosten neuronale Netze: Momentum, Lernrate
Entscheidungsbäume „Expertenmeinung“
Vergleich der Klassifikation in kreditwürdig/nicht kreditwürdig bei 700 DS und “Expertenmeinung”
Probleme bei der Klassifikation • Viele nichtkreditwürdige werden als kreditwürdig klassifiziert • Mit erhöhtem Pruning werden mehr als kreditwürdig klassifiziert • Problemlösungsversuch: • Kosten für Missklasssifikation erhöht • Ergebnis : keine Verbesserung
Neuronale Netze trainiert mit 700 Datensätzen und Momentum = 0.5
Vergleich der Klassifikation trainiert mit 700 Datensätzen, “Expertenmeinung”, momentum=0.5
Probleme • Viele Nichtkreditwürdige werden als kreditwürdig klassifiziert • Stark unterschiedliche Ergebnisse bei Modellen mit den gleichen Parametern und Datensätzen (bis zu 17%)
Naive Bayes Klassifizierer „Expertenmeinung“
Vergleich von „Expertenmeinung“ und RMEP bei 700 Datensätzen
Vergleich der Klassifikation bei 700 Datensätzen und “Expertenmeinung”
Vergleich der besten Ergebnisse • Entscheidungsbäume: • Original : 72,07% mit pruningrate von 80 • RMEP: 71,20% mit pruningrate von 80 • EM: 73,40% mit pruningrate von 60 • Neuronale Netze • original: 74,07% mit alpha 0.5 und eta 0.5 • RMEP: 75,34% mit alpha 0.5 und eta 0.2 • EM: 74,53% mit alpha 0.5 und eta 0.1 • Naive Bayes Klassifizierer • RMEP: 74,73% mit m=5 • EM: 74,87% mit m=10
Vergleich 2 0 1 insgesamt Entscheidungsbäume : 47% 86% 73,40% Neuronale Netze: 46% 87% 75,34% Naive Bayes Klassifizierer: 53% 84% 74,87%
Zusammenfassung • bestes Resultat mit neuronalen Netzen • aber keine großen Unterschiede • Naive Bayes Klassifizierer klassifiziert nichtkreditwürdige Kreditnehmer am besten • gleiche Probleme bei der Klassifikation von nichtkreditwürdigen Kreditnehmern
Fazit • bester Klassifizierer ist der Naive Bayes Klassifizierer, da er nichtkreditwürdige Kunden besser klassifiziert als die anderen zwei Methoden. • dadurch Reduzierung der Kreditausfälle für die Bank