1 / 100

Regresja logistyczna - ćwiczenia

Regresja logistyczna - ćwiczenia. Budowa karty scoringowej. Struktura ćwiczeń 1. Zastosowanie modelu regresji logistycznej w praktyce biznesowej 2. Ocena statystyczna danych 3. Model Regresji Logistycznej- SAS Base 4. Model Regresji Logistycznej- EG 5. Interpretacja wyników

tekli
Download Presentation

Regresja logistyczna - ćwiczenia

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Regresja logistyczna - ćwiczenia Budowa karty scoringowej I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  2. Struktura ćwiczeń • 1. Zastosowanie modelu regresji logistycznej w praktyce biznesowej • 2. Ocena statystyczna danych • 3. Model Regresji Logistycznej- SAS Base • 4. Model Regresji Logistycznej- EG • 5. Interpretacja wyników • 6. Pozostałe zagadnienia • selekcja zmiennych • ocena jakości modelu • dyskryminacja • obserwacje odstające i wpływowe • nieliniowość modelu i interakcje • cross-walidacja I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  3. Zastosowanie modelu regresji logistycznej w praktyce biznesowej • Marketing – do określenia docelowego segmentu/grupy klientów do których powinna być skierowana akcja promocyjna na podstawie historycznego zachowania dotychczasowych odbiorców i ich charakterystyk. • Scoring kredytowy – do określenia decyzji kredytowej, na podstawie dotychczasowego zachowania klientów banku określa się czy nowy klient o danych charakterystykach otrzyma pozytywną decyzję kredytową czy nie. • Wykrywanie fraudów – do określenia próby oszustw na transakcjach typu: karty kredytowe, roszczenia ubezpieczeniowe itp., na podstawie okoliczności i warunków dotyczących historycznych transakcji oraz informacji czy doszło do oszustwa określa się czy nowa transakcja lub roszczenie wymaga szczegółowego przyjrzenia się czy też nie wymaga. I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  4. Budowa aplikacyjnej karty scoringowej • Grupa docelowa: klient indywidualny, osoba fizyczna występująca do Banku o kredyt • Charakterystyki: głównie charakterystyki demograficzne, społeczno-ekonomiczne i finansowe • Główny cel budowy karty: celem jest nadanie oceny scoringowej na podstawie informacji zebranych we wniosku, zazwyczaj jest to podział na ocenę: zaakceptowany lub odrzucony. • Dodatkowa informacja z karty: dodatkowo, w zależności od zastosowanej metody Banki mogą uzyskać informację o prawdopodobieństwie niewywiązania się klienta z zobowiązań (regresja logistyczna). W przypadku np. drzew decyzyjnych, funkcji dyskryminacyjnej lub sieci nuronowych takich informacji nie ma. I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  5. Etapy budowy i monitoringu karty scoringowej Etap I. Zbieranie danych i czyszczenie Etap II. Budowa statystycznej karty scoringowej Etap III. Pre-walidacja i testy użytkowania Etap IV. Wdrożenie karty w Banku Etap V. Cykliczna walidacja W zależności od wyników walidacji: przebudowa karty lub jej dalsze użytkowanie I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  6. Baza danych do budowy karty Do obejrzenia struktury danych wykorzystamy następujące procedury: 1. Skopiowanie pliku w celu uniknięcia jego nadpisania: libname karta 'ścieżka do katalogu'; data karta.Score; set karta.German; run; I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  7. Baza danych do budowy karty Do obejrzenia struktury danych wykorzystamy następujące procedury: 2. Obejrzenie struktury pliku za pomocą procedury: proccontentsdata=karta.Score; run; I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  8. Alphabetic List of Variables and Attributes # Variable Type Len Format Informat Label 1 acc_status Char 3 $3. $3. acc_status 13 age Num 8 age 5 credit_amt Num 8 credit_amt 3 credit_history Char 3 $3. $3. credit_history 10 debtors Char 4 $4. $4. debtors 21 default Num 8 default 2 duration Num 8 duration 7 employment Char 3 $3. $3. employment 20 foreign_worker Char 4 $4. $4. foreign_worker 15 housing Char 4 $4. $4. housing 8 instalment Num 8 instalment 17 job Char 4 $4. $4. job 16 number_of_credit Num 8 number_of_credit 14 other_instalments Char 4 $4. $4. other_instalments 18 people Num 8 people 9 personal_status Char 3 $3. $3. personal_status 4 pourpose Char 4 $4. $4. pourpose 12 property Char 4 $4. $4. property 11 residence Num 8 residence 6 savings Char 3 $3. $3. savings 19 telephone Char 4 $4. $4. telephone I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  9. Ocena statystyczna danych • Wartości minimalne i maksymalne • Błędy • Obserwacje odstające • Braki danych Dla zmiennych numerycznych: ocena za pomocą procedury MEANS Dla zmiennych nominalnych: ocena za pomocą procedury FREQ I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  10. Ocena statystyczna zmiennych numerycznych Dla zmiennych numerycznych ocena może odbyć się za pomocą procedury MEANS: procmeansdata=karta.Score nnmissmeanmin p5 p95max; var age credit_amt default duration instalment number_of_credit people residence; run; * Na wydruku przedstawiono wyniki w zaokrągleniu do 2 miejsc dziesiętnych. I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  11. The MEANS Procedure N Variable Label N Miss Mean Minimum 5th Ptcl 95th Pctl Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ age age 1000 0 35.55 19.00 22.00 60.00 75.00 credit_amt credit_amt 1000 0 3271.26 250.00 708.50 9214.0 18424.00 default default 1000 0 0.30 0 0 1.00 1.00 duration duration 1000 0 20.90 4.00 6.00 48.00 72.00 instalment instalment 1000 0 2.97 1.00 1.00 4.00 4.00 number_of_credit number_of_credit 1000 0 1.41 1.00 1.00 2.00 4.00 people people 1000 0 1.15 1.00 1.00 2.00 2.00 residence residence 1000 0 2.84 1.00 1.00 4.00 4.00 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  12. Z przeprowadzonej analizy wynika: • Nie występują braki danych, zbiór już jest oczyszczony, w przypadku braków danych należałoby obserwacje usunąć lub zastosować techniki imputacji jeśli stanowiłyby zbyt duży odsetek obserwacji. • Dwie zmienne: default oraz people to zmienne binarne. Zmienna default to zmienna celu (zależna) przyjmująca wartość 0 jeśli nie wystąpiło zdarzenie niewykonania zobowiązań lub 1 w przeciwnym przypadku. Odsetek tzw. „defaultów” wynosi 30%. • Z porównania wartości 95 centyla i maximum wynika że zmienna credit_amt jest zmienną o rozkładzie asymetrycznym. • Zmienne instalment, number_of_creditresidence to zmienne numeryczne dyskretne, tylko zmienne agecredit_amtduration to zmienne numeryczne o charakterze ciągłym. I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  13. Ocena statystyczna zmiennych nominalnych Dla zmiennych nominalnych ocena może odbyć się za pomocą procedury FREQ: procfreqdata=karta.Score; tables acc_status credit_history debtors employment foreign_worker housing job other_instalments personal_status pourpose property savings telephone; run; * Na wydruku przedstawiono wyniki w zaokrągleniu do 2 miejsc dziesiętnych. I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  14. The FREQ Procedure acc_status acc_ Cumulative Cumulative status Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ A11 274 27.40 274 27.40 A12 269 26.90 543 54.30 A13 63 6.30 606 60.60 A14 394 39.40 1000 100.00 credit_history credit_ Cumulative Cumulative history Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ A30 40 4.00 40 4.00 A31 49 4.90 89 8.90 A32 530 53.00 619 61.90 A33 88 8.80 707 70.70 A34 293 29.30 1000 100.00 I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  15. debtors Cumulative Cumulative debtors Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ A101 907 90.70 907 90.70 A102 41 4.10 948 94.80 A103 52 5.20 1000 100.00 employment Cumulative Cumulative employment Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ A71 62 6.20 62 6.20 A72 172 17.20 234 23.40 A73 339 33.90 573 57.30 A74 174 17.40 747 74.70 A75 253 25.30 1000 100.00 I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  16. foreign_worker foreign_ Cumulative Cumulative worker Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ A201 963 96.30 963 96.30 A202 37 3.70 1000 100.00 housing Cumulative Cumulative housing Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ A151 179 17.90 179 17.90 A152 713 71.30 892 89.20 A153 108 10.80 1000 100.00 job Cumulative Cumulative job Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ A171 22 2.20 22 2.20 A172 200 20.00 222 22.20 A173 630 63.00 852 85.20 A174 148 14.80 1000 100.00 I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  17. other_instalments other_ Cumulative Cumulative instalments Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ A141 139 13.90 139 13.90 A142 47 4.70 186 18.60 A143 814 81.40 1000 100.00 personal_status personal_ Cumulative Cumulative status Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ A91 50 5.00 50 5.00 A92 310 31.00 360 36.00 A93 548 54.80 908 90.80 A94 92 9.20 1000 100.00 I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  18. pourpose Cumulative Cumulative pourpose Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ A40 234 23.40 234 23.40 A41 103 10.30 337 33.70 A410 12 1.20 349 34.90 A42 181 18.10 530 53.00 A43 280 28.00 810 81.00 A44 12 1.20 822 82.20 A45 22 2.20 844 84.40 A46 50 5.00 894 89.40 A48 9 0.90 903 90.30 A49 97 9.70 1000 100.00 property Cumulative Cumulative property Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ A121 282 28.20 282 28.20 A122 232 23.20 514 51.40 A123 332 33.20 846 84.60 A124 154 15.40 1000 100.00 I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  19. savings Cumulative Cumulative savings Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ A61 603 60.30 603 60.30 A62 103 10.30 706 70.60 A63 63 6.30 769 76.90 A64 48 4.80 817 81.70 A65 183 18.30 1000 100.00 telephone Cumulative Cumulative telephone Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ A191 596 59.60 596 59.60 A192 404 40.40 1000 100.00 I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  20. Z przeprowadzonej analizy wynika: • Zmienne foreign_worker oraz telephone to zmienne binarne. • W zmiennych acc_statuscredit_historydebtorsemploymentforeign_workerjobother_instalmentspersonal_statuspourposesavings występują kategorie z niską liczbą obserwacji (poniżej 10%), należy rozważyć połączenie tych kategorii z innymi o podobnym profilu ryzyka, profil może być oceniony np. przez proporcję obserwacji „default” czyli zmiennej celu. • W przypadku zmiennych z dużą liczbą kategorii, nawet jeśli nie występują kategorie z niską liczbą obserwacji należy pogrupować kategorie w grupy o podobnym profilu np. przez proporcję obserwacji „default”. • Zmienne nominalne (nie porządkowe) mogą być włączone do modelu tylko jako zmienne binarne (z zastosowaniem kodowania zero-jedynkowego). I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  21. Ocena statystyczna zmiennych nominalnych W celu poprawnej kategoryzacji zmiennych nominalnych należy porównać proporcje „default” dla każdej kategorii zmiennych za pomocą procedury FREQ: procfreqdata=karta.Score; tables acc_status*default credit_history*default debtors*default employment*default foreign_worker*default housing*default job*default other_instalments*default personal_status*default pourpose*default property*default savings*default telephone*default/ nocolnopercent; run; tylko udziały w wierszu, bez udziałów kolumnowych i komórkowych * Na wydruku przedstawiono wyniki tylko dla zmiennych wymagających zmian. I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  22. Table of acc_status by default acc_status(acc_status) default(default) Frequency‚ Row Pct ‚ 0‚ 1‚ Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A11 ‚ 139 ‚ 135 ‚ 274 ‚ 50.73 ‚ 49.27 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A12 ‚ 164 ‚ 105 ‚ 269 ‚ 60.97 ‚ 39.03 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A13 ‚ 49 ‚ 14‚ 63 ‚ 77.78 ‚ 22.22 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A14 ‚ 348 ‚ 46 ‚ 394 ‚ 88.32 ‚ 11.68 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 700 300 1000 • Propozycja: • Połączenie kategorii A13 i A12 ze względu na: • Podobieństwo profilu ryzyka • Najbliższe podobieństwo merytoryczne: • A12 : 0 <= ... < 200 DM • A13 : ... >= 200 DM /salary assignments for at least 1 year I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  23. Table of credit_history by default credit_history(credit_history) default(default) Frequency‚ Row Pct ‚ 0‚ 1‚ Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A30 ‚ 15 ‚ 25 ‚ 40 ‚ 37.50 ‚ 62.50 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A31 ‚ 21 ‚ 28 ‚ 49 ‚ 42.86 ‚ 57.14 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A32 ‚ 361 ‚ 169 ‚ 530 ‚ 68.11 ‚ 31.89 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A33 ‚ 60 ‚ 28 ‚ 88 ‚ 68.18 ‚ 31.82 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A34 ‚ 243 ‚ 50 ‚ 293 ‚ 82.94 ‚ 17.06 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 700 300 1000 • Propozycja: • Połączenie kategorii A30 i A31 oraz A32 i A33 ze względu na: • Podobieństwo profilu ryzyka • Najbliższe podobieństwo merytoryczne: • A30 : no credits taken/all credits paid back duly • A31 : all credits at this bank paid back duly • A32 : existing credits paid back duly till now • A33 : delay in paying off in the past I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  24. Table of debtors by default debtors(debtors) default(default) Frequency‚ Row Pct ‚ 0‚ 1‚ Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A101 ‚ 635 ‚ 272 ‚ 907 ‚ 70.01 ‚ 29.99 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A102 ‚ 23 ‚ 18 ‚ 41 ‚ 56.10 ‚ 43.90 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A103 ‚ 42 ‚ 10 ‚ 52 ‚ 80.77 ‚ 19.23 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 700 300 1000 • Propozycja: • Brak możliwości połączenie kategorii ze względu na: • Niskie podobieństwo profilu ryzyka • Brak podobieństwa merytorycznego: • Other debtors / guarantors • A101 : none • A102 : co-applicant • A103 : guarantor • Uwaga: możliwość obciążenia szacowanych estymatorów ze względu na małe liczebności grup! I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  25. Table of employment by default employment(employment) default(default) Frequency‚ Row Pct ‚ 0‚ 1‚ Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A71 ‚ 39 ‚ 23 ‚ 62 ‚ 62.90 ‚ 37.10 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A72 ‚ 102 ‚ 70 ‚ 172 ‚ 59.30 ‚ 40.70 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A73 ‚ 235 ‚ 104 ‚ 339 ‚ 69.32 ‚ 30.68 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A74 ‚ 135 ‚ 39 ‚ 174 ‚ 77.59 ‚ 22.41 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A75 ‚ 189 ‚ 64 ‚ 253 ‚ 74.70 ‚ 25.30 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 700 300 1000 • Propozycja: • Połączenie kategorii A71 i A72 ze względu na: • Podobieństwo profilu ryzyka • Najbliższe podobieństwo merytoryczne: • A71 : unemployed • A72 : ... < 1 year employment I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  26. The FREQ Procedure Table of foreign_worker by default foreign_worker(foreign_worker) default(default) Frequency‚ Row Pct ‚ 0‚ 1‚ Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A201 ‚ 667 ‚ 296 ‚ 963 ‚ 69.26 ‚ 30.74 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A202 ‚ 33 ‚ 4 ‚ 37 ‚ 89.19 ‚ 10.81 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 700 300 1000 • Propozycja: • Brak możliwości połączenie kategorii ze względu na: • Niskie podobieństwo profilu ryzyka • Brak podobieństwa merytorycznego: • foreign worker • A201 : yes • A202 : no • Uwaga: możliwość obciążenia szacowanych estymatorów ze względu na małą liczebność grupy! I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  27. Table of job by default job(job) default(default) Frequency‚ Row Pct ‚ 0‚ 1‚ Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A171 ‚ 15 ‚ 7 ‚ 22 ‚ 68.18 ‚ 31.82 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A172 ‚ 144 ‚ 56 ‚ 200 ‚ 72.00 ‚ 28.00 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A173 ‚ 444 ‚ 186 ‚ 630 ‚ 70.48 ‚ 29.52 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A174 ‚ 97 ‚ 51 ‚ 148 ‚ 65.54 ‚ 34.46 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 700 300 1000 • Propozycja: • Połączenie kategorii A171 i A172 ze względu na: • Podobieństwo profilu ryzyka • Najbliższe podobieństwo merytoryczne: • A171 : unemployed/ unskilled - non-resident • A172 : unskilled - resident I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  28. Table of other_instalments by default other_instalments(other_instalments) default(default) Frequency‚ Row Pct ‚ 0‚ 1‚ Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A141 ‚ 82 ‚ 57 ‚ 139 ‚ 58.99 ‚ 41.01 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A142 ‚ 28 ‚ 19 ‚ 47 ‚ 59.57 ‚ 40.43 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A143 ‚ 590 ‚ 224 ‚ 814 ‚ 72.48 ‚ 27.52 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 700 300 1000 • Propozycja: • Połączenie kategorii A141 i A142 ze względu na: • Podobieństwo profilu ryzyka • Najbliższe podobieństwo merytoryczne: • Other installment plans A141 : bank • A142 : stores I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  29. Table of personal_status by default personal_status(personal_status) default(default) Frequency‚ Row Pct ‚ 0‚ 1‚ Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A91 ‚ 30 ‚ 20 ‚ 50 ‚ 60.00 ‚ 40.00 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A92 ‚ 201 ‚ 109 ‚ 310 ‚ 64.84 ‚ 35.16 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A93 ‚ 402 ‚ 146 ‚ 548 ‚ 73.36 ‚ 26.64 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A94 ‚ 67 ‚ 25 ‚ 92 ‚ 72.83 ‚ 27.17 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 700 300 1000 • Propozycja: • Połączenie kategorii A91, A93 i A94 ze względu na: • Częściowe podobieństwo profilu ryzyka ale znacznie bardziej: • Najbliższe podobieństwo merytoryczne: • A91:male:divorced/separated • A92:female:divorced/separated/married • A93:male : single • A94:male : married/widowed • A95 : female : single I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  30. Table of pourpose by default pourpose(pourpose) default(default) Frequency‚ Row Pct ‚ 0‚ 1‚ Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A40 ‚ 145 ‚ 89 ‚ 234 ‚ 61.97 ‚ 38.03 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A41 ‚ 86 ‚ 17 ‚ 103 ‚ 83.50 ‚ 16.50 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A410 ‚ 7 ‚ 5 ‚ 12 ‚ 58.33 ‚ 41.67 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A42 ‚ 123 ‚ 58 ‚ 181 ‚ 67.96 ‚ 32.04 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A43 ‚ 218 ‚ 62 ‚ 280 ‚ 77.86 ‚ 22.14 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A44 ‚ 8 ‚ 4 ‚ 12 ‚ 66.67 ‚ 33.33 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A45 ‚ 14 ‚ 8 ‚ 22 ‚ 63.64 ‚ 36.36 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A46 ‚ 28 ‚ 22 ‚ 50 ‚ 56.00 ‚ 44.00 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A48 ‚ 8 ‚ 1 ‚ 9 ‚ 88.89 ‚ 11.11 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A49 ‚ 63 ‚ 34 ‚ 97 ‚ 64.95 ‚ 35.05 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 700 300 1000 • Propozycja: • Połączenie kategorii A46, A410 i A48 oraz A44 i A45 oraz ze względu na podobieństwo profilu ryzyka oraz podobieństwo merytoryczne: • Purpose • A40 : car (new) • A41 : car (used) • A42 : furniture/equipment • A43 : radio/television • A44 : domestic appliances • A45 : repairs • A46 : education • A47 : vacation • A48 : retraining • A49 : business • A410 : others I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  31. Table of savings by default savings(savings) default(default) Frequency‚ Row Pct ‚ 0‚ 1‚ Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A61 ‚ 386 ‚ 217 ‚ 603 ‚ 64.01 ‚ 35.99 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A62 ‚ 69 ‚ 34 ‚ 103 ‚ 66.99 ‚ 33.01 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A63 ‚ 52 ‚ 11 ‚ 63 ‚ 82.54 ‚ 17.46 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A64 ‚ 42 ‚ 6 ‚ 48 ‚ 87.50 ‚ 12.50 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ A65 ‚ 151 ‚ 32 ‚ 183 ‚ 82.51 ‚ 17.49 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 700 300 1000 • Propozycja: • Połączenie kategorii A63 i A64 ze względu na: • Podobieństwo profilu ryzyka • Najbliższe podobieństwo merytoryczne: • Savings account/bonds A63 : 500 <= ... < 1000 DM • A64 : .. >= 1000 DM I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  32. Za pomocą prostego DATA Stepu dokonamy transformacji (grupowania kategorii) zmiennych aby uzyskać dane umożliwiające poprawną estymację modelu: data karta.Score; set karta.Score; if acc_status="A13"then acc_status="A12"; if credit_history="A31"then credit_history="A30"; if credit_history="A33"then credit_history="A32"; if employment="A72"then employment="A71"; if job="A172"then job="A171"; if other_instalments="A142"then other_instalments="A141"; if personal_status="A93" or personal_status="A94” then personal_status="A91"; if pourpose="A410" or pourpose="A48"then pourpose="A46"; if pourpose="A45"then pourpose="A44"; if savings="A64"then savings="A63"; run; I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  33. Wykorzystanie analizy skupień • Innym sposobem łączenia kategorii zmiennej jest przeprowadzenie analizy skupień. • Jest to przydatna metoda w sytuacji kiedy zmienna posiada kilkanaście lub więcej kategorii np. województwo i nie można zastosować kryterium innego niż np. stopy default, odległość itp. brak podstaw merytorycznych dołączenia kategorii. • W naszym przykładzie można zastosować tą metodę tylko do zmienne pourpose i porównać wyniki z zaproponowanym eksperckim grupowaniem. • Należy wyznaczyć średnie stopy default dla danej kategorii a następnie przyjąć te wartości jako charakterystyki będące podstawą grupowania. I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  34. Wykorzystanie analizy skupień • Analiza obejmuje w takiej sytuacji dwa kroki: • Zastosowanie procedury PROC MEANS do wyznaczenia proporcji defaultów dla danej kategorii zmiennej pourpose: • procmeansdata=karta.Score noprintnway; • class pourpose; var default; • outputout=Cluster mean=proporcja; • run; • 2. Zastosowanie procedury PROC CLUSTER do wyznaczenia skupień: • procclusterdata=Cluster method=ward; • freq _freq_; • var proporcja; • id pourpose; • run; I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  35. The CLUSTER Procedure Ward's Minimum Variance Cluster Analysis Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion Cumulative 1 0.00701187 1.0000 1.0000 Root-Mean-Square Total-Sample Standard Deviation = 0.083737 Root-Mean-Square Distance Between Observations = 0.118422 Cluster History T i NCL --Clusters Joined--- FREQ SPRSQ RSQ e 9 A42 A44 193 0.0003 1.00 8 A45 A49 119 0.0004 .999 7 A410 A46 62 0.0008 .999 6 A41 A48 112 0.0034 .995 5 A40 CL8 353 0.0085 .987 4 CL5 CL7 415 0.0312 .955 3 CL6 A43 392 0.0421 .913 2 CL4 CL9 608 0.0665 .847 1 CL2 CL3 1000 0.8468 .000 I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  36. Podsumowując wyniki analizy skupień: • Duże rozbieżności pomiędzy wynikami grupowania z analizy skupień – tylko kryterium ilościowe tzn stopa default a grupowaniem eksperckim • Grupowanie eksperckie uwzględnia również podział merytoryczny • Postępowanie w takich przypadkach powinno obejmować zarówno ocenę ilościową (analiza skupień) jak i jakościową (grupowanie eksperckie – merytoryczne). I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  37. Regresja logistyczna w systemie SAS • Do estymacji modelu regresji logistycznej w systemie SAS z zastosowaniem metody największej wiarygodności można wykorzystać następujące procedury: • PROC LOGISTIC • PROC GENMOD • PROC CATMOD • PROC DMREG (Enterprise Miner) I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  38. PROC LOGISTIC – opcje procedury • PROC LOGISTIC < options >; • BY variables ; • CLASS variable <(v-options)> <variable <(v-options)>... > < / v-options >; • CONTRAST 'label'   effect values <,... effect values>< /options >; • EXACT < 'label' >< Intercept >< effects >< / options > ; • FREQ variable ; • MODEL events/trials = < effects > < / options >; • OUTPUT < OUT=SAS-data-set > <keyword=name...keyword=name> / <option>; • SCORE < options >; • STRATA effects < / options >; • < label: >TEST equation1 < , ... , < equationk >> < /option >; • UNITS independent1 = list1 < ... independentk = listk > < /option > ; • WEIGHT variable </ option >; • Wskazanie zbioru danych, opcje ogólne • Przeprowadzenie analizy w podgrupach (zbiór musi być wcześniej posortowany) • Wskazanie zmiennych jakościowych i określenie ich kodowania • Przeprowadzenie testu liniowych ograniczeń, przy czym w testowanym równaniu nie może występować stała • Dokładne testy istotności parametrów • Wskazanie zmiennej określającej częstości obserwacji (dane pogrupowane) • Określenie postaci modelu i opcji, np: wyliczenie dodatkowych miar • Zapisanie pewnych informacji do zbioru SAS • Obliczenie score (prawdopodobieństw) z gotowego modelu na nowych danych • Przeprowadzenie stratyfikowanej regresji logistycznej • Przeprowadzenie testów liniowych ograniczeń • Zadanie dla jakich zmian wartości zmiennych ciągłych mają być obliczone ilorazy szans • Wskazanie zmiennej zawierającej wagi obserwacji I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  39. Model karty scoringowej Input: zmienna objaśniająca tzw. zmienna celu to zmienna zero-jedynkowa: default: 1 oznacza że klient w ciągu roku od uzyskania kredytu przestał regulować swoje zobowiązania wobec Banku tzw. klient „zły”, 0 oznacza klienta tzw. „dobrego” czyli klienta który w ciągu roku po otrzymaniu kredytu regularnie wywiązywał się ze swoich zobowiązań wobec Banku. Zmienne objaśniające, charakterystyki opisujące klienta w momencie aplikacji czyli w momencie wniosku o kredyt: acc_status credit_history debtors employment foreign_worker housing job other_instalments personal_status pourpose property savings telephone age credit_amt default duration instalment number_of_credit people residence I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  40. Zastosowanie modelu regresji logistycznej • Estymacja modelu regresji logistycznej do budowy karty scoringowej będzie obejmowała następujące kroki: • Budowa prostego modelu włączającego wszystkie zmienne w EG oraz w 4GL (nie wszystkie opcje PROC LOGISTIC są dostępne w EG) • Zastosowanie różnych metod selekcji zmiennych oraz porównanie otrzymanych wyników • Ocena statystyczna modelu – oszacowanie podstawowych charakterystyk, wykresy ROC i obserwacji wpływowych • Walidacja modelu na próbce testowe tzw. cross-walidacja • Interpretacja przydatności otrzymanego modelu w praktyce, możliwości prognozy na bazie modelu. I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  41. Estymacja modelu w EG – wczytanie zmiennych order descending I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  42. Estymacja modelu w EG – wczytanie zmiennych Reference I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  43. Estymacja modelu w EG – tylko efekty główne I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  44. Estymacja modelu w EG – wszystkie zmienne bez selekcji I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  45. Estymacja modelu w EG – bez opcji dodatkowych I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  46. Kod 4GL wygenerowany przez EG • PROCLOGISTICDATA=Score; • CLASS acc_status (PARAM=REF)credit_history (PARAM=REF) pourpose (PARAM=REF)savings (PARAM=REF) employment (PARAM=REF) personal_status (PARAM=REF)debtors (PARAM=REF)property (PARAM=REF) other_instalments (PARAM=REF) housing (PARAM=REF) job (PARAM=REF) telephone (PARAM=REF) foreign_worker (PARAM=REF); • MODEL default=age credit_amt duration instalment number_of_credit people residence acc_status credit_history debtors employment foreign_worker housing job other_instalments personal_status pourpose property savings telephone/SELECTION=NONE LINK=LOGIT; • RUN; • QUIT; Wady: brak możliwości ustawienia kategorii referencyjnej; brak możliwości zmiany jednostki w ODDS ratios I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  47. Interpretacja wyników z EG Ogólne informacje o danych wykorzystanych do modelowania: Zmienna zależna: default, Kolejność: malejąca Liczebność „1”=300 „0”=700 razem 1000 I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  48. Kategoria referencyjna I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  49. Inny sposób kodowania: „Effects”. Trudność: nieintuicyjna interpretacja I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

  50. Kryterium AIC oraz SC do porównywania modeli Testowanie hipotezy H0, że wszystkie współczynniki regresji wynoszą 0 z wyjątkiem wyrazu wolnego Kryterium zbieżności modelu zostało osiągnięte I. Edycja Studium Podyplomowego pod patronatem SAS Institute Polska. 1.III.2008 -28.II.2009.

More Related