310 likes | 580 Views
Regressão Logística e Aplicações em Software Estatísticos. Orientando : Alexandro Vieira Lopes Orientadora : Profª. Drª.Vilma Mayumi Tachibana Co-Orientador : Prof. Dr. Fernando Antônio Moala. 1/ 29. INTRODUÇÃO. Modelagem Regressão Logística Simples
E N D
Regressão Logística e Aplicações em Software Estatísticos Orientando : Alexandro Vieira Lopes Orientadora : Profª. Drª.Vilma Mayumi Tachibana Co-Orientador : Prof. Dr. Fernando Antônio Moala 1/ 29
INTRODUÇÃO • Modelagem • Regressão Logística Simples • Regressão Logística Múltipla • Seleção de Variáveis STEPWISE • Avaliação do ajuste do modelo • Noções sobre Regressão Logística Multinomial 2/ 29
MODELAGEM • OBJETIVO: Refletir sobre uma porção da realidade, na tentativa de explicá-la, de entendê-la. • O processo é selecionar no sistema, argumentos ou parâmetros considerados essenciais e formalizá-los : o modelo. (representação do sistema). • Quanto mais complexo for o modelo, mais difícil será mostrar sua validade, isto é, que ele descreve a realidade. 3/ 29
MODELAGEM • Etapas da Modelagem • 1 Experimentação: obtenção os dados. • 2 Abstração: procedimento formulação dos modelos matemáticos, procura-se estabelecer: • Seleção de variáveis: • variáveis de estado que descrevem a evolução do sistema • variáveis de controle que agem sobre o sistema. • -Formulação de hipóteses: observação dos fatos, comparação com outros estudos, dedução lógica,etc. 4/ 29
MODELAGEM 3 Resolução: A Formulação as vezes só pode ser viabilizada através de métodos computacionais, dando uma solução numérica aproximada. 4 Validação: é o processo de aceitação ou não do modelo proposto. Teste dos dados empíricos, comparando suas soluções e previsões com os valores obtidos no sistema real. 5/ 29
MODELAGEM • 5 Modificação: alguns fatores ligados ao problema original podem provocar a rejeição ou aceitação dos modelos. • Alguma hipótese : falsa ou não suficientemente próxima da verdade, ou seja, os pressupostos de partida são incorretos; • Alguns dados ou informações podem ter sido obtidos de maneira incorreta; • Existem outras variáveis envolvidas na situação real que não foram utilizadas. 6/ 29
MODELAGEM • Escolha de temas • Buscar informações relacionadas com o assunto. • Uma das formas é a coleta de dados qualitativos ou numéricos que pode ser executada de várias formas: • Entrevistas & pesquisas executadas com métodos de amostragem aleatória. • Pesquisabibliográfica, utilizando dados já obtidos e catalogados em livros e revistas especializadas. 7/ 29
MODELAGEM A natureza dos dados orienta a formulação matemática dos modelos. A relação funcional entre duas variáveis é expressa por uma fórmula matemática: y = f (x) x variável independente y variável dependente 8/ 29
REGRESSÃO LOGÍSTICA SIMPLES • P(Y = 1) relacionada com X1, X2, ..., Xp. • p assume valores no intervalo ]0,1[, não é possível admitir uma relação linear da forma p(x) = 0 + 1x1 + ... + pxp, • Contornar este problema transformação g, • g(p(x)) pertença ao intervalo ]- , +[ • modelada pela função linear 0 + 1x1 + ... + pxp. • Contexto de modelos lineares generalizados, a função g é denominada função de ligação. 9/ 29
REGRESSÃO LOGÍSTICA SIMPLES Função de Ligação , g(xi) = 0 + 1xi 10/29
REGRESSÃO LOGÍSTICA SIMPLES Transformação Logito Logito g(xi) = 0 + 1xi x varia de - a +, g(xi) apresenta a mesma variação. 11/29
REGRESSÃO LOGÍSTICA SIMPLES Estimar 0e1por Método da Máxima Verossimilhança f (xi) é a função que expressa a probabilidade dos dados observados como uma função de parâmetros desconhecidos, seus estimadores maximizam esta função e se aproximam mais dos dados observados. Função de Verossimilhança L() = ln L() = [ yi ln (xi)+ (1-yi)ln(1-(xi)) ] 12/ 29
REGRESSÃO LOGÍSTICA SIMPLES Equações de Verossimilhança & • Não é possível igualar as expressões das derivadas parciais a zero para obter os estimadores, pois estas expressões em Regressão Logística não são lineares em 0 e 1 e assim requerem métodos especiais para suas soluções. • Estes métodos são de natureza iterativa e têm sido programados em software disponíveis de Regressão Logística. 13/ 29
REGRESSÃO LOGÍSTICA MÚLTIPLA Regressão Logística Simples umavariável independente Regressão Logística Múltipla diferentes escalas e várias variáveis independentes. Probabilidade Sucesso :P ( Y = 1| x) = (x) em que x’ = (x1, x2, ..., xp) Logito Regressão Logística Múltipla : g(x) = 0 + 1x1 + 2x2 + ...+ p xp Modelo da Regressão Logística : 14/ 29
SELEÇÃO DE VARIÁVEIS STEPWISE • Etapa (0): Supondo p variáveis independentes: • ajuste do modelo apenas com o intercepto e seja L0 o log da verossimilhança. • ajuste de cada um dos p possíveis modelos univariados de regressão logística e os log de verossimilhança são comparados. • As variáveis mais importantes são aquelas com menor p-valor. Usa-se p-valor de entrada = 0,25. 15/ 29
menor p valor SELEÇÃO DE VARIÁVEIS STEPWISE Etapa (0): Exemplo Hipotético y x1 x2 x3 x4 Modelo com Intercepto: y = 0 y = 0 + 1x1 y = 0 + 1x2 y = 0 + 1x3 y = 0 + 1x4 16/ 29
menor p valor SELEÇÃO DE VARIÁVEIS STEPWISE Etapa (1): Ajuste do modelo de Regressão Logística contendo X3. log da verossimilhança deste modelo. y = 0 + 1x3 + 2x1 y = 0 + 1x3 + 2x2 y = 0 + 1x3 + 2x4 Comparação do log verossimilhança Razão de Verossimilhanças (G) p-valor < pENTRADA 17/ 29
SELEÇÃO DE VARIÁVEIS STEPWISE Etapa (2): devido a entrada de X2, a variável X3, não seja mais importante. Seleção Backward. Para decidir se X3 deve ser removido comparação com um segundo nível “alfa” pREMOÇÃO escolhido anteriormente. Comparação de log de verossimilhanças p-valor > pREMOÇÃO. pR > pE para que o algoritmo não introduza e remova a mesma variável nas etapas sucessivas. Na fase de Seleção Forward, cada um dos p – 2 modelos de Regressão Logística são ajustados. 18/ 29
SELEÇÃO DE VARIÁVEIS STEPWISE • Etapa (3): O algoritmo representa uma verificação na eliminação backward seguida por uma seleção forward continuando desta maneira até última etapa (S). • Etapa (S): A etapa (S) ocorre se: • todas as p variáveis que entraram no modeloOU • todas as variáveis no modelo que têm p-valores para sair menores que pR, e as variáveis não incluídas no modelo têm p-valores para entrar maiores que pE. y = 0 + 2x2 + 3x3 19/ 29
VERIFICAÇÃO DO AJUSTE: TABELA DE CLASSIFICAÇÃO Resume os resultados do ajuste do modelo de Regressão Logística. Classificação cruzada da variável resposta y com os valores dicotômicos derivados da probabilidade estimada logística. Ponto de corte c comparado com a probabilidade estimada de c. Se a probabilidade exceder c, então a variável derivada é igual a 1, senão é igual a 0. O valor comum para c = 0,5. 20/ 29
ESPECIFICIDADE SENSITIVIDADE VERIFICAÇÃO DO AJUSTE: TABELA DE CLASSIFICAÇÃO • A razão geral da Classificação correta é estimada como: 100 [(16 + 417) /575]% = 75,3 % de acerto do modelo. 21/ 29
VERIFICAÇÃO DO AJUSTE DO MODELO: OUTROS TESTES Estatística Pearson Qui-Quadrado e Deviance Teste de Homer-Lemeshow Área abaixo da Curva ROC (curva Característica do Recebimento de Operação ou Receiver Operating Characteristic). Estatística R2 22/ 29
REGRESSÃO LOGÍSTICA MULTINOMIAL • Variável resposta qualquer número de níveis. • Exemplo: Estudo da escolha de um plano de saúde. A variável resposta indica o tipo de plano: A, B ou C com as covariáveis: idade, tamanho da família, renda, etc. • ARegressão Logística Multinomial também pode ser chamada Regressão Logística Politômica. 23/ 29
REGRESSÃO LOGÍSTICA MULTINOMIAL Exemplo: 3 categorias da variável resposta Modelo necessita de 2 funções logito. Comparação de Categorias: Y = 0 como referência e comparar com Y =1 e Y = 2. 24/ 29
RELATÓRIO FINAL Comparação entre Software Estatísticos Diagnóstico em Regressão Logística Regressão Logística Ordinal 25/ 29
REFERÊNCIAS BASSANEZI, R. C. Ensino-aprendizagem com modelagem matemática. São Paulo: Contexto, 2004. 389 p. BUSSAB, W. de O.; MORETIN, P. A. Estatística básica. 5. ed. São Paulo: Saraiva, 2002. 526 p. COLLETT, D. Modelling binary data. London: Chapman & Hall, 1991. 369 p. FARHAT, C. A. V. Análise de diagnóstico em regressão logística. 2003. 113 f. Dissertação (Mestrado em Estatística) – Instituto de Matemática e Estatística, Universidade de São Paulo, São Paulo. 26/ 29
REFERÊNCIAS HOSMER, D. W.; LEMESHOW, S. Applied logistic regression. 2nd ed. New York: Wiley, 2000. 375 p. ISHIKAWA, N. I. Uso de transformações em modelos de regressão logística. 2007. 92 f. Dissertação (Mestrado em Ciências) – Instituto de Matemática e Estatística, Universidade de São Paulo, São Paulo. KUBRUSLY, R. S. O tamanho do infinito. Projeto novas tecnologias de ensino. Rio de Janeiro, 2004. Disponível em: <http://www.dmm.im.ufrj.br/projeto/diversos/tamanho.html>. Acesso em: 1 jan. 2008. SOUZA, E. C. Análise de influência local no modelo de regressão logística. 2006. 101 f. Dissertação (Mestrado em Agronomia) – Escola Superior de Agricultura “Luiz de Queiroz”, Universidade de São Paulo, Piracicaba. Disponível em: <http://www.teses.usp.br/teses/disponiveis/11/11134/tde-12042006-143935/>. Acesso em: 19 mar. 2008. 27/ 29
BIBLIOGRAFIA BUSSAB, W. de O. Análise de variância e de regressão. São Paulo: Atual, 1986. 147 p. HAIR Jr, J. F. et al. Análise multivariada de dados. Tradução de Adonai Schlup Sant’ana , Anselmo Chaves Neto. Bookman, 2005. 593 p. MOOD, A. M.; GRAYBILL, A. F.; BOES, C. D. Introduction to the theory of statistics. 3rd ed. New York: McGraw-Hill, 1974. 564 p. SOUZA, A. D. P. Métodos aproximados em modelos hierárquicos dinâmicos bayesianos. 1999. 142 f. Tese (Doutorado em Ciências em Engenharia de Produção) – COPPE, Universidade Federal do Rio de Janeiro, Rio de Janeiro. TACHIBANA, V. M. Métodos aproximados em modelos bayesianos de resposta aleatorizada e regressão logística. 1995. 133 f. Tese (Doutorado em Ciências em Engenharia de Produção) – COPPE, Universidade Federal do Rio de Janeiro, Rio de Janeiro. 28/ 29
Regressão Logística e Aplicações em Software Estatísticos Alexandro Vieira Lopes Contato: alexandro2x@hotmail.com 4º ANO ESTATÍSTICA PRESIDENTE PRUDENTE 2008 29/ 29