1 / 29

Regressão Logística e Aplicações em Software Estatísticos

Regressão Logística e Aplicações em Software Estatísticos. Orientando : Alexandro Vieira Lopes Orientadora : Profª. Drª.Vilma Mayumi Tachibana Co-Orientador : Prof. Dr. Fernando Antônio Moala. 1/ 29. INTRODUÇÃO. Modelagem Regressão Logística Simples

tameka
Download Presentation

Regressão Logística e Aplicações em Software Estatísticos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Regressão Logística e Aplicações em Software Estatísticos Orientando : Alexandro Vieira Lopes Orientadora : Profª. Drª.Vilma Mayumi Tachibana Co-Orientador : Prof. Dr. Fernando Antônio Moala 1/ 29

  2. INTRODUÇÃO • Modelagem • Regressão Logística Simples • Regressão Logística Múltipla • Seleção de Variáveis STEPWISE • Avaliação do ajuste do modelo • Noções sobre Regressão Logística Multinomial 2/ 29

  3. MODELAGEM • OBJETIVO: Refletir sobre uma porção da realidade, na tentativa de explicá-la, de entendê-la. • O processo é selecionar no sistema, argumentos ou parâmetros considerados essenciais e formalizá-los : o modelo. (representação do sistema). • Quanto mais complexo for o modelo, mais difícil será mostrar sua validade, isto é, que ele descreve a realidade. 3/ 29

  4. MODELAGEM • Etapas da Modelagem • 1 Experimentação: obtenção os dados. • 2 Abstração: procedimento formulação dos modelos matemáticos, procura-se estabelecer: • Seleção de variáveis: • variáveis de estado que descrevem a evolução do sistema • variáveis de controle que agem sobre o sistema. • -Formulação de hipóteses: observação dos fatos, comparação com outros estudos, dedução lógica,etc. 4/ 29

  5. MODELAGEM 3 Resolução: A Formulação as vezes só pode ser viabilizada através de métodos computacionais, dando uma solução numérica aproximada. 4 Validação: é o processo de aceitação ou não do modelo proposto. Teste dos dados empíricos, comparando suas soluções e previsões com os valores obtidos no sistema real. 5/ 29

  6. MODELAGEM • 5 Modificação: alguns fatores ligados ao problema original podem provocar a rejeição ou aceitação dos modelos. • Alguma hipótese : falsa ou não suficientemente próxima da verdade, ou seja, os pressupostos de partida são incorretos; • Alguns dados ou informações podem ter sido obtidos de maneira incorreta; • Existem outras variáveis envolvidas na situação real que não foram utilizadas. 6/ 29

  7. MODELAGEM • Escolha de temas • Buscar informações relacionadas com o assunto. • Uma das formas é a coleta de dados qualitativos ou numéricos que pode ser executada de várias formas: • Entrevistas & pesquisas executadas com métodos de amostragem aleatória. • Pesquisabibliográfica, utilizando dados já obtidos e catalogados em livros e revistas especializadas. 7/ 29

  8. MODELAGEM A natureza dos dados orienta a formulação matemática dos modelos. A relação funcional entre duas variáveis é expressa por uma fórmula matemática: y = f (x) x variável independente y variável dependente 8/ 29

  9. REGRESSÃO LOGÍSTICA SIMPLES • P(Y = 1) relacionada com X1, X2, ..., Xp. • p assume valores no intervalo ]0,1[, não é possível admitir uma relação linear da forma p(x) = 0 + 1x1 + ... + pxp, • Contornar este problema transformação g, • g(p(x)) pertença ao intervalo ]- , +[ • modelada pela função linear 0 + 1x1 + ... + pxp. • Contexto de modelos lineares generalizados, a função g é denominada função de ligação. 9/ 29

  10. REGRESSÃO LOGÍSTICA SIMPLES Função de Ligação , g(xi) = 0 + 1xi 10/29

  11. REGRESSÃO LOGÍSTICA SIMPLES Transformação Logito Logito g(xi) = 0 + 1xi x varia de - a +, g(xi) apresenta a mesma variação. 11/29

  12. REGRESSÃO LOGÍSTICA SIMPLES Estimar 0e1por Método da Máxima Verossimilhança f (xi) é a função que expressa a probabilidade dos dados observados como uma função de parâmetros desconhecidos, seus estimadores maximizam esta função e se aproximam mais dos dados observados. Função de Verossimilhança L() = ln L() = [ yi ln (xi)+ (1-yi)ln(1-(xi)) ] 12/ 29

  13. REGRESSÃO LOGÍSTICA SIMPLES Equações de Verossimilhança & • Não é possível igualar as expressões das derivadas parciais a zero para obter os estimadores, pois estas expressões em Regressão Logística não são lineares em 0 e 1 e assim requerem métodos especiais para suas soluções. • Estes métodos são de natureza iterativa e têm sido programados em software disponíveis de Regressão Logística. 13/ 29

  14. REGRESSÃO LOGÍSTICA MÚLTIPLA Regressão Logística Simples umavariável independente Regressão Logística Múltipla diferentes escalas e várias variáveis independentes. Probabilidade Sucesso :P ( Y = 1| x) =  (x) em que x’ = (x1, x2, ..., xp) Logito Regressão Logística Múltipla : g(x) = 0 + 1x1 + 2x2 + ...+ p xp Modelo da Regressão Logística : 14/ 29

  15. SELEÇÃO DE VARIÁVEIS STEPWISE • Etapa (0): Supondo p variáveis independentes: • ajuste do modelo apenas com o intercepto e seja L0 o log da verossimilhança. • ajuste de cada um dos p possíveis modelos univariados de regressão logística e os log de verossimilhança são comparados. • As variáveis mais importantes são aquelas com menor p-valor. Usa-se p-valor de entrada = 0,25. 15/ 29

  16. menor p valor SELEÇÃO DE VARIÁVEIS STEPWISE Etapa (0): Exemplo Hipotético y x1 x2 x3 x4 Modelo com Intercepto: y = 0 y = 0 + 1x1 y = 0 + 1x2 y = 0 + 1x3 y = 0 + 1x4 16/ 29

  17. menor p valor SELEÇÃO DE VARIÁVEIS STEPWISE Etapa (1): Ajuste do modelo de Regressão Logística contendo X3. log da verossimilhança deste modelo. y = 0 + 1x3 + 2x1 y = 0 + 1x3 + 2x2 y = 0 + 1x3 + 2x4 Comparação do log verossimilhança Razão de Verossimilhanças (G) p-valor < pENTRADA 17/ 29

  18. SELEÇÃO DE VARIÁVEIS STEPWISE Etapa (2): devido a entrada de X2, a variável X3, não seja mais importante. Seleção Backward. Para decidir se X3 deve ser removido comparação com um segundo nível “alfa” pREMOÇÃO escolhido anteriormente. Comparação de log de verossimilhanças p-valor > pREMOÇÃO. pR > pE para que o algoritmo não introduza e remova a mesma variável nas etapas sucessivas. Na fase de Seleção Forward, cada um dos p – 2 modelos de Regressão Logística são ajustados. 18/ 29

  19. SELEÇÃO DE VARIÁVEIS STEPWISE • Etapa (3): O algoritmo representa uma verificação na eliminação backward seguida por uma seleção forward continuando desta maneira até última etapa (S). • Etapa (S): A etapa (S) ocorre se: • todas as p variáveis que entraram no modeloOU • todas as variáveis no modelo que têm p-valores para sair menores que pR, e as variáveis não incluídas no modelo têm p-valores para entrar maiores que pE. y = 0 + 2x2 + 3x3 19/ 29

  20. VERIFICAÇÃO DO AJUSTE: TABELA DE CLASSIFICAÇÃO Resume os resultados do ajuste do modelo de Regressão Logística. Classificação cruzada da variável resposta y com os valores dicotômicos derivados da probabilidade estimada logística. Ponto de corte c comparado com a probabilidade estimada de c. Se a probabilidade exceder c, então a variável derivada é igual a 1, senão é igual a 0. O valor comum para c = 0,5. 20/ 29

  21. ESPECIFICIDADE SENSITIVIDADE VERIFICAÇÃO DO AJUSTE: TABELA DE CLASSIFICAÇÃO • A razão geral da Classificação correta é estimada como: 100 [(16 + 417) /575]% = 75,3 % de acerto do modelo. 21/ 29

  22. VERIFICAÇÃO DO AJUSTE DO MODELO: OUTROS TESTES Estatística Pearson Qui-Quadrado e Deviance Teste de Homer-Lemeshow Área abaixo da Curva ROC (curva Característica do Recebimento de Operação ou Receiver Operating Characteristic). Estatística R2 22/ 29

  23. REGRESSÃO LOGÍSTICA MULTINOMIAL • Variável resposta qualquer número de níveis. • Exemplo: Estudo da escolha de um plano de saúde. A variável resposta indica o tipo de plano: A, B ou C com as covariáveis: idade, tamanho da família, renda, etc. • ARegressão Logística Multinomial também pode ser chamada Regressão Logística Politômica. 23/ 29

  24. REGRESSÃO LOGÍSTICA MULTINOMIAL Exemplo: 3 categorias da variável resposta Modelo necessita de 2 funções logito. Comparação de Categorias: Y = 0 como referência e comparar com Y =1 e Y = 2. 24/ 29

  25. RELATÓRIO FINAL Comparação entre Software Estatísticos Diagnóstico em Regressão Logística Regressão Logística Ordinal 25/ 29

  26. REFERÊNCIAS BASSANEZI, R. C. Ensino-aprendizagem com modelagem matemática. São Paulo: Contexto, 2004. 389 p. BUSSAB, W. de O.; MORETIN, P. A. Estatística básica. 5. ed. São Paulo: Saraiva, 2002. 526 p. COLLETT, D. Modelling binary data. London: Chapman & Hall, 1991. 369 p. FARHAT, C. A. V. Análise de diagnóstico em regressão logística. 2003. 113 f. Dissertação (Mestrado em Estatística) – Instituto de Matemática e Estatística, Universidade de São Paulo, São Paulo. 26/ 29

  27. REFERÊNCIAS HOSMER, D. W.; LEMESHOW, S. Applied logistic regression. 2nd ed. New York: Wiley, 2000. 375 p. ISHIKAWA, N. I. Uso de transformações em modelos de regressão logística. 2007. 92 f. Dissertação (Mestrado em Ciências) – Instituto de Matemática e Estatística, Universidade de São Paulo, São Paulo. KUBRUSLY, R. S. O tamanho do infinito. Projeto novas tecnologias de ensino. Rio de Janeiro, 2004. Disponível em: <http://www.dmm.im.ufrj.br/projeto/diversos/tamanho.html>. Acesso em: 1 jan. 2008. SOUZA, E. C. Análise de influência local no modelo de regressão logística. 2006. 101 f. Dissertação (Mestrado em Agronomia) – Escola Superior de Agricultura “Luiz de Queiroz”, Universidade de São Paulo, Piracicaba. Disponível em: <http://www.teses.usp.br/teses/disponiveis/11/11134/tde-12042006-143935/>. Acesso em: 19 mar. 2008. 27/ 29

  28. BIBLIOGRAFIA BUSSAB, W. de O. Análise de variância e de regressão. São Paulo: Atual, 1986. 147 p. HAIR Jr, J. F. et al. Análise multivariada de dados. Tradução de Adonai Schlup Sant’ana , Anselmo Chaves Neto. Bookman, 2005. 593 p. MOOD, A. M.; GRAYBILL, A. F.; BOES, C. D. Introduction to the theory of statistics. 3rd ed. New York: McGraw-Hill, 1974. 564 p. SOUZA, A. D. P. Métodos aproximados em modelos hierárquicos dinâmicos bayesianos. 1999. 142 f. Tese (Doutorado em Ciências em Engenharia de Produção) – COPPE, Universidade Federal do Rio de Janeiro, Rio de Janeiro. TACHIBANA, V. M. Métodos aproximados em modelos bayesianos de resposta aleatorizada e regressão logística. 1995. 133 f. Tese (Doutorado em Ciências em Engenharia de Produção) – COPPE, Universidade Federal do Rio de Janeiro, Rio de Janeiro. 28/ 29

  29. Regressão Logística e Aplicações em Software Estatísticos Alexandro Vieira Lopes Contato: alexandro2x@hotmail.com 4º ANO ESTATÍSTICA PRESIDENTE PRUDENTE 2008 29/ 29

More Related