1 / 21

Uma abordagem de Mineração de Dados na Concessão de Crédito

Uma abordagem de Mineração de Dados na Concessão de Crédito. David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática – UFPE. Recife, 01 de julho de 2009. Sumário. Introdução Problema Mineração de Dados Modelagem Experimentos e Resultados Conclusões.

maren
Download Presentation

Uma abordagem de Mineração de Dados na Concessão de Crédito

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Uma abordagem de Mineração de Dados na Concessão de Crédito David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática – UFPE Recife, 01 de julho de 2009

  2. Sumário David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) Introdução Problema Mineração de Dados Modelagem Experimentos e Resultados Conclusões

  3. Introdução David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) • PAKDD 2009 • Conferência líder nas áreas de mineração de dados e descoberta de conhecimento • Robustez contra a degradação causada ao longo de alguns anos de operação comercial • Conjuntos de dados provêm do cartão de crédito (2003-2008)

  4. Problema David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) • Avaliação de risco de crédito • Grande rede de lojas brasileiras • 8 anos de operação • Taxa de aceitação de 50% para 75% neste período • Clientes maus • Atraso maior que 60 dias

  5. Problema David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 31 variáveis afetadas pelas imperfeições típicas dos problemas reais, como o ruído, a falta de dados, outliers 9 variáveis numéricas e 22 categóricas

  6. Objetivo David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) Extrair conhecimento dos dados de modelagem para obter o melhor desempenho

  7. Objetivo Leaderboard Prediction David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

  8. Mineração de Dados David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) Entendimento dos Dados

  9. Mineração de Dados David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) • Eliminação de variáveis • 10 variáveis eliminadas • MissingValues • 2 variáveis transformada para flag • Moda ou mediana

  10. Mineração de Dados David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) • Outliers • 99º Percentil

  11. Mineração de Dados David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) • Importância das variáveis • KS e ROC

  12. Mineração de Dados David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) • Importância das variáveis • Ganho de informação

  13. Mineração de Dados David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) Correlação de Pearson

  14. Classificador David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) • Rede Neural MLP • Backpropagation • Sigmóide Logística • Taxa de aprendizagem 0.001 • Momento 0.2

  15. Experimentos David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) Monte Carlo com 10 iterações 4-FoldCrossValidation Área sob a curva ROC

  16. Resultados David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) Iteração 1

  17. Resultados Desempenho médio 0.666 e desvio padrão 0.0063 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

  18. Teste t H0 : µ <= 0.651 H1 : µ > 0.651 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) A significanciado teste foi estipulada em 1% 10 iterações resultando em nove graus de liberdade t0 = 2.821 t = 7.529 Logo, com 99% de confiança rejeitamos H0

  19. Conclusões David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) Resultados satisfatórios Pouco tempo para um trabalho mais detalhado permitindo a criação de novas variáveis Avaliar desempenho sobre o Leaderboard Outros classificadores e a combinação entre eles

  20. Referências David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) PAKDD 2009 http://itpe.siit.tu.ac.th/papervue/front/ C. Shearer, "The CRISP-DM model: the new blueprint for data mining“ F. Tom, “An introduction to ROC analysis” M.H. DeGroot, Probability and Statistics. Addison-Wesley, 1980 W.J. Conover, Practical Nonparametric Statistics. John Wiley & Sons,1998.

  21. Uma abordagem de Mineração de Dados na Concessão de Crédito David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática – UFPE Recife, 01 de julho de 2009

More Related