430 likes | 625 Views
Credit Risk Management Teil 2 . Logistische Regression (I) Unterschied zur Diskriminanzanalyse. Bei der linearen Diskriminanzanalyse wurde der Ansatz gewählt und unterstellt, daß alle unabhängigen Variablen normalverteilt sind mit der gleichen Varianz 2 .
E N D
Credit RiskManagement Teil 2 .
Logistische Regression(I) Unterschied zur Diskriminanzanalyse Bei der linearen Diskriminanzanalyse wurde der Ansatz gewählt und unterstellt, daß alle unabhängigen Variablen normalverteilt sind mit der gleichen Varianz 2. Für normalverteile unabhängige Zufallsvariablen mit und gilt, daß auch die abhängige Variable Y normalverteilt ist mit Dagegen verlangt die Logistische Regression weder die Varianzhomogenität noch die Normalverteilung der Merkmale.
Logistische Regression(II) Definition Ausgangspunkt der Logistische Regression ist ein Regressions-modell, bei dem die Abweichungen vom Mittelwert für alle Variablen in dem Störterm zusammengefaßt sind mit yi = Nicht beobachtete (latente) Variable beim i-ten Objekt xij = Ausprägung der Merkmalsvariable j (j = 1, 2,..., J), beim i-ten Objekt bj = Koeffizient der j-ten unabhängigen Variable b0 = Konstantes Glied ui = Störterm, der eine logistische Verteilung aufweist
Logistische Regression(III) Ökonometrischer Ansatz Die dichotome latente Variable y („ Insolvenzgefährdung“) nimmt die beiden Werte 1 (insovenzgefährdet) oder 0 (nicht insolvenz-gefährdet) an. Beobachtet wird nun Die Wahrscheinlichkeit, daß ein Unternehmen als insolvenz-gefährdet klassifiziert wird, läßt sich dann bestimmen durch die bedingte Wahrscheinlichkeit . F ist die kumulierte Verteilung des Störterms u
Logistische Regression(IV) Ökonometrischer Ansatz Unterstellt man eine symmetrische Verteilung u, so vereinfacht sich die Wahrscheinlichkeitsfunktion zu: Da die Werte yi Realisierungen eines binomialen Prozess mit der Wahrscheinlichkeit Pi sind, ist die Likelihoodfunktion, die gemein-same Wahrscheinlichkeitsverteilung der Stichprobe (y1, y2,..., yn) gleich Im Rahmen eines Maximum-Likelihood-Schätzverfahren sind die Parameter bj iterativ so zu bestimmen, daß diese Wahrscheinlich-keit maximal ist.
Logistische Regression(V) Logistische Verteilungsfunktion Damit man nun die Funktionswerte als Wahrscheinlichkeiten interpretieren kann, müssen diese im Intervall von 0 und 1 lie-gen. Möglich wird dies, indem man keinen linearen Funktions-verlauf, sondern einen s-förmigen, logistischen Funktionsver- lauf wählt mit der Form mit als linearer Prädiktor des logistischen Modells. Daraus folgt Logistic Probability Unit (Logit)
Logistische Regression(VI) Verlauf der Logistischen Verteilungsfunktion Symmetrisch mit Wendepunkt in (0, 0,5). B0 verschiebt die Funktion horizontal. Höhere Werte bj führen zu einem steileren Verlauf
Logistische Regression(VII) Spezielle Standards • Alle weichen sollten in standardisierter Form als unabhängige Variablen in das Modell einfließen. • Die Merkmalsvariablen können bei der logistischen Regression ein beliebiges Skalenniveau aufweisen. • Dies wird zwar so bei ökonometrischen Modellen behauptet und auch umgesetzt, ist aber maßtheoretisch falsch. Auch müßten die Para-meter bj dann eine Dimension beinhalten, um nicht Äpfel mit Birnen zu addieren. • Die geschätzte Klassifikationsfunktion sollte betriebswirtschaftlich widerspruchsfrei sein Faktoren. Dies ist nicht einfach zu prüfen, da die bj nun die Änderung des Logit der abhängigen Variablen bei einer Änderung einer unabhängigen Variablen um eine Einheit darstellen.
Logistische Regression(VII) Interpretation einzelner Koeffizienten Partielle Ableitungen Elastizitäten Leker; Schewe und Anders; Szczesny [1998] schätzten ein logistisches Regressionsmodell mit Hilfe neuronaler Netze und kamen zu dem Ergebnis, daß "die logistische Regressionsanalyse sehr gut geeignet erscheint, Unternehmen aufgrund von Jahresabschluß-Kennzahlen zu klassifizieren". Verbesserung durch zusätzliche Berücksichtigung qualitativer Informationen denkbar!
Credit RiskManagement Teil 3 .
Entscheidungsbaumverfahren(I) Allgemeine Beschreibung • Der Entscheidungsbaum ist die Darstellung einer Entscheidungsregel, anhand derer Objekte in Klassen eingeteilt werden. • Die Klassifizierung erfolgt durch die hintereinander geschaltete Abfrage der Ausprägung bestimmter, vorher festgelegter Eigenschaften. • In der Kreditwürdigkeitsprüfung kann das Entscheidungsbaum-verfahren verwendet werden, um Kreditnehmer anhand von bestimmten Merkmalen in Qualitäts- bzw. Rating-Klassen einzuteilen. • Die Anwendung des Entscheidungsbaumverfahrens ist relativ einfach. • Viel komplexer ist die Konstruktion eines Entscheidungsbaums. Dafür werden rekursive Partitionierungs-Algorithmen eingesetzt. • Eine Lernstichprobe mit bekannten Klassenzugehörigkeiten der beinhalteten Stichprobenelemente bildet dabei die Datenbasis zur Gewinnung optimaler Trennkriterien für jede Abfrage und zur Ermittlung der optimalen Baumgröße.
Entscheidungsbaumverfahren(II) Das CART-Verfahren (Classification and Regression Trees) Das CART-Verfahren unterstützt nur rein binäre Entscheidungsbäume, d.h. bei jedem Schritt erfolgt die Aufteilung in jeweils 2 Teilmengen. Ausgehend vom Wurzelknoten, der alle Elemente der Stichprobe enthält, entstehen durch eine Ja/Nein-Frage 2 Tochterknoten als disjunkte Teil-mengen der Lernstichprobe. Als Zwischenknoten können diese ebenfalls zu 2 Tochterknoten führen oder sie sind bereits Endknoten. Dabei können einer Ratingklasse mehrere Endknoten zugeordnet sein.
Entscheidungsbaumverfahren(III) Das CART-Verfahren Klassifikationsbaum zum Kreditbeispiel 1: schlechter Kreditnehmer , 2: guter Kreditnehmer Als Prädiktoren für die Bonität eines Kunden dienen laufendes Konto', Laufzeit, bisherige Zahlungsmoral, Darlehenshöhe,
Entscheidungsbaumverfahren(IV) Aufteilung der Eltern- in Tochterknoten (Trennkriterium) Die Trennkriterien sind so zu wählen, daß die entstehenden Tochterknoten im Hinblick auf eine resultierende Klassenver-teilung möglichst homogen sind. Bei CART wird jede Verzweigung nur durch eine Variable bestimmt, wobei gilt: (1) Für jede mindestens ordinal skalierte Variable xi kommen sämtliche Verzweigungen für alle c R, in Betracht. (2) Für jede kategorial-nomiale Variable kommen sämtliche Verzweigungen in Betracht.
Entscheidungsbaumverfahren(V) Aufteilung der Eltern- in Tochterknoten (Unreinheitsfunktion) Das Ziel, dem Merkmalsraum in möglichst heterogene Anteile aufzuspalten, läßt sich an einer Distanzfunktion festmachen. Zu vorgegebenen Knoten A soll nun die Verzweigung in die Knoten so festgelegt werden, dass die durch die Distanz maximal wird. Eine Funkion : , die auf dem Simplex definiert ist, heißt Unreinheitsfunktion (Impurity function)., wenn gilt (1) für d. h. insbesondere (2) (3) () ist symmetrisch in .
Entscheidungsbaumverfahren(VI) Beispiele für Unreinheitsfunktionen dieEntropie der Gini-Index
Entscheidungsbaumverfahren(VII) Unreinheit eines Knoten
Entscheidungsbaumverfahren(VIII) Reduktion an Unreinheit in einem Knoten
Entscheidungsbaumverfahren(IX) Unreinheit eines Baumes
Entscheidungsbaumverfahren(X) Reduktion an Unreinheit in einem Baum
Entscheidungsbaumverfahren(XI) Zuordnung von Endknoten
Entscheidungsbaumverfahren(XII) Spezielle Standards:Formulierung der Klassifikationsfunktion • Die Definition der möglichen Klassenzugehörigkeiten der zu analysierenden Objekte muß dargelegt und erläutert werden. • Die Wahl der möglichen Trennvariablen muß erläutert werden. • Die Definition der Unreinheitsfunktion, welche die Ausprägung der Trennkriterien im Entscheidungsbaum bestimmt, muß dargelegt werden. Die Wahl dieser Funktion muß begründet werden. • Die Verwendung von Ersatzsplits bei fehlenden Merkmals-werten der zu klassifizierenden Objekte, d.h. die Verwen-dung anderer Merkmalswerte mit ähnlichem Klassifikations-effekt, ist zulässig, muß aber ausreichend dokumentiert werden.
Entscheidungsbaumverfahren(XIII) Spezielle Standards:Schätzung der Fehlklassifikations- rate und Festlegung der Endknoten • Die Definition des verwendeteten Resubstitutionsschätzers oder eines anderen Schätzers der Fehlklassifikationsrate zur Bestimmung der optimalen Größe des Entscheidungsbaums muß dargelegt werden. Die Wahl dieses Schätzers muß begründet werden. • Das Verfahren der Zuordnung der Endknoten eines Entscheidungs-baumes zu Objektklassen muß dargelegt werden. Insbesondere sollte dargelegt werden, daß der Grad der Fehlklassifikation der Lernstich-probenelemente bei der gewählten Zuordnung optimal ist. • Das Verfahren zur endgültigen Festlegung der Baumgröße unter Verwendung der Fehlklassifikationsrate muß dargelegt werden. Die Fehlklassifikationsrate des festgelegten Entscheidungsbaumes muß anhand eines Teststichprobenverfahrens überprüft und dokumentiert werden. Das Teststichprobenverfahren muß erläutert werden. Lernstichprobe und eine zugehörige Teststichprobe darzulegen.
Credit RiskManagement Teil 4
Clusteranalyse(I) Allgemeine Beschreibung Der Begriff Clusteranalyse wird vielfach als Sammelname für eine Reihe mathematisch-statistischer Verfahren angesehen, mit deren Hilfe eine Menge von Objekten zu homogenen Teilmengen bzw. Klassen oder Cluster gruppiert werden kann. Synonym zum Begriff der Clusteranalyse sind die Begriffe numerische Taxonomie oder multivariate Klassifikationsanalyse. Die Klassenbildung erfolgt dabei so, daß Objekte mit möglichst ähnlichen Eigenschaften zusammengefaßt und "unähnliche" Objekte voneinander separiert, also unterschiedlichen Klassen zugeordnet werden.
Clusteranalyse(II) Allgemeine Beschreibung • Eine Klasse bzw. ein Cluster stellt hierbei das Element einer Partition bzw. einer Zerlegung dar, wobei eine Partition bei klassischen Clusterverfahren durch die nachstehenden Bedingun-gen charakterisiert werden kann: • für alle z, h = 1, ,c ; z h • für alle z = 1, ,c • , wobei E die Grundgesamtheit ist. • Diese Bedingungen stellen sicher, daß die • Cluster paarweise disjunkt, • jedes Cluster mindestens ein Element enthält und • jedes Objekt einem Cluster zugeordnet sein muß.
Clusteranalyse(III) Ablaufschema einer Partition
Clusteranalyse(IV) Ablaufschema einer Partition • Die Qualität der Endpartition hängt in starkem Maße von der Merkmalselektion ab und ist daher sorgfältig durchzuführen. • Weiterhin sollte die Zahl der Merkmale nicht zu groß sein, da sonst davon auszugehen ist, daß einige davon miteinander korreliert sind. • Der Anwender hat dann für jedes Objekt die Ausprägungen der Merkmale zu quantifizieren; sie werden durch mijsymbolisiert. • Datenmatrix
Clusteranalyse(V) Proximitätsmaße • Im nächsten Schritt ist für jedes Objektpaar und ein Ähnlichkeits- oder Distanzwert zu ermitteln, der unter Einbeziehung sämtlicher relevanter Merkmale dessen Ähnlichkeit bzw. Verschiedenheit repräsentiert. • Ähnlichkeits- und Distanzwerte werden mittels reellwertigen Funktionen berechnet, die den Merkmalsausprägungen mkj und mlj der Objekte Ok und Ol eine reelle Zahl zuordnen: • Ähnlichkeitsfunktion • Distanzfunktion • mit • .
Clusteranalyse(VI) Ähnlichkeit Für die Ähnlichkeit zweier Objekte Ok und Ol, symbolisiert durch skl, muß gelten: Während die erste Bedingung die Symmetrie der Ähnlichkeiten zweier Objekte beinhaltet, sichern die beiden anderen Bedingungen die Normierung auf das Intervall [0,1] und drücken aus, daß die Ähnlichkeit eines Objekts zu einem anderen Objekt nicht größer sein kann als zu sich selbst.
Clusteranalyse(VII) Distanzen Bedingungen für Distanzen: Die erste Bedingung sichert die Symmetrie der Distanzen zwischen zwei Objekten. Mit der Dreiecks-Ungleichung erfüllt das Distanzmaß die Eigenschaft einer Metrik.
Clusteranalyse(VIII) Distanzmaße (Proximitätsmaße) Lq-Distanz (Minkowski-Metrik) L1-Distanz (City-Block-Metrik) L2-Distanz (Euklidsche Metrik) L-Distanz (Chebychev Metrik) Bei der Verwendung der Distanzen sind darauf zu achten, dass die Merkmale oft von unterschiedlicher Wichtigkeit sind und verschiedene Maßstäbe aufweisen. Sie sollten daher auf einen einheitliche Skala transformiert und gewichtet werden, z.B.
Clusteranalyse(IX) Mahalanobis-Distanz Da sowohl das Gewichten der Merkmale als auch die Angleichung der unterschiedlichen Maßstäbe nur nach subjektiven Kriterien erfolgen kann, können die Ergebnisse der Clusteranalyse durch die Festlegung der Gewichte vom Anwender manipuliert werden. Auf der anderen Seite ist davon auszugehen, daß ein Nutzer der Clusteranalyse im Regelfall kein Interesse daran haben wird, Ergebnisse bewußt zu verzerren. Da Gewichtungen durch korrelierte Merkmale verstärkt bzw. abge-schwächt werden können und es so zu Verzerrungen der Gruppie-rungsergebnisse kommen kann, empfiehlt sich die Verwendung der Mahalanobis-Distanz wobei die Inverse der Kovarianzmatrix der Variablen ist.
Clusteranalyse(X) Ähnlichkeits oder Distanzmatrix Eine direkte Ermittlung von Proximitäten zwischen Objekten ist grundsätzlich nur bei metrisch skalierten Merkmalen möglich, es existieren aber Hilfskonstruktionen, um auch mit ordinal skalierten oder nominal skalierten Attributen arbeiten zu können. Hat man sich für ein Proximitätsmaß entschieden, so ist die Datenmatrix M in eine Ähnlichkeitsmatrix S oder in eine Distanzmatrix D zu überführen: O1 O1 ... O1 O1 O1 ... O1
Clusteranalyse(XI) Clusterverfahren
Clusteranalyse(XII) Hierarchische Clusterverfahren Ausgangspunkt divisiver Verfahren ist ein Gesamtcluster, das alle Elemente enthält. Im Verlaufe des Verfahrens werden die Elemente dieses Clusters schrittweise in kleinere Cluster zerlegt. Divisive Verfahren führen im Vergleich zu agglomerativen Varianten i.d.R. zu schlechteren Ergebnissen und sind rechenzeit-aufwendiger und daher in der Praxis kaum von Bedeutung. Bei agglomerativen Algorithmen geht man davon aus, daß jedes Objekt anfangs einen Cluster bildet. Diese Anfangspartition wird dann schrittweise modifiziert, indem die Cluster sukzessiv zu größeren Aggregaten zusammengefaßt werden.
Clusteranalyse(XIII) Agglomerative Algorithmen Verfahrensablauf
Clusteranalyse(XIV) WARD-Verfahren Beim Ward-Verfahren werden die zu fusionierenden Cluster durch die Intraclustervarianzen determiniert. Für alle Cluster Pz, z=1,..., c sind daher zunächst die Clustercentroide, also die Vektoren der Mittelwerte aller Merkmalsausprägungen der Clusterelemente zu berechnen: nz symbolisiert hierbei die Anzahl der Objekte des Clusters Pz. Diese Centroide sind imaginäre Objekte, die die entsprechenden Objektklassen repräsentieren. Sie werden zur Ermittlung der Summe der Clustervarianzen aller Klassen benötigt:
Clusteranalyse(XV) WARD-Verfahren Man agglomeriert dann jene Cluster, die zu einem minimalen Anstieg der Gesamtvarianz führen. Der Zuwachs der Gesamt-varianz w, der sich bei der Fusion zweier Cluster Pk und Pl ergibt, läßt sich berechnen als: Im nächsten Iterationszyklus wird wieder die Gesamtvarianz als Summe der Intraclustervarianzen berechnet und jenes Clusterpaar fusioniert, das zum geringsten Zuwachs der Gesamtvarianz führt. Der Iterationszyklus solange durchlaufen, bis alle Cluster zu einer einzigen Klasse fusioniert sind. Die Klassenanzahl ist nachträglich zu fixieren.
Clusteranalyse(XVI) Dendogramm
Clusteranalyse(XVII) Partionierende Verfahren Da bei hierarchisch-agglomerativen Verfahren einmal konstruierte Cluster nicht wieder aufgelöst werden können, muß im Verlaufe des Iterationsprozesses mit Suboptimalitäten gerechnet werden. Deshalb lassen sich die Resultate hierarchisch-agglomerativer Varianten i.d.R. durch partitionierende Verfahren verbessern. Diese Varianten der Clusteranalyse setzen eine Anfangspartition voraus und stellen keine Alternative zu hierarchischen Verfahren dar, sondern sind als Ergänzung bzw. Erweiterung anzusehen. Zu den gebräuchlichsten Varianten zählen die Austausch-Verfahren und die iterativen Minimal-Distanz-Verfahren.
Clusteranalyse(XVIII) Austausch-Verfahren • Nach der Ermittlung einer Anfangspartition mit c Clustern wird ein Element aus einem Cluster entfernt und einem anderen zuge-fügt. Daraufhin ist für die betreffenden Cluster ein benutzerde-finiertes Gütekriterium, z.B. ein Homogenitäts- bzw. Heterogenitätsmaß, neu zu berechnen. • Anschließend wird das Element nach und nach den verbleiben-den c-2 Clustern zugefügt und die Berechnung der jeweiligen Gütekriterien durchgeführt. Schließlich wird jene Partition übernommen, die zur größten Verbesserung führt. • Das Verfahren endet, wenn alle Elemente überprüft sind. Die ermittelte Lösung konvergiert dabei gegen ein lokales Optimum. • Da nur ein Objekt pro Iterationsschritt ausgetauscht wird, stellt dieses jedoch i.d.R. kein globales Optimum dar.