1 / 28

Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138

2. Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751. A dengue é uma doença infecciosa aguda de curta duração, que possui gravidade variável, podendo inclusive, em alguns casos, levar à morte.

sage-morris
Download Presentation

Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 2 Alunos: Marcelo Marinho DRE: 103109228 Mariana Belmar DRE: 103118138 Thiego Batalha DRE: 104034751

  2. A dengue é uma doença infecciosa aguda de curta duração, que possui gravidade variável, podendo inclusive, em alguns casos, levar à morte. Ela é transmitida pelo mosquito Aedes aegypti infectado, encontrado em áreas tropicais e subtropicais do mundo, inclusive no Brasil, pois as condições do meio ambiente favorecem o seu desenvolvimento e proliferação. Introdução

  3. Descrição do problema • Com base no banco de dados disponível, referente aos anos de 2001 e 2002, verificar a possibilidade de predizer se o indivíduo possui ou não dengue através dos dados clínicos. Caracterização da categoria • Para o problema acima descrito, será utilizada uma predição.

  4. Fonte dos dados • Sistema de Informação de Agravos de Notificação (SINAN) do Ministério da Saúde.

  5. A princípio, foram mantidas as variáveis: Dados clínicos (todas); Antecedentes epidemiológicos (DENGUE, ANO, VACINADO e DT_DOSE); Dados de perfil (NU_IDADE, CS_SEXO, CS_RACA, CS_ESCOLAR e CS_ZONA); e Conclusão (ID_DG_NOT). Dados excluídos

  6. Dados errados • Observamos erros significativos baseados em cruzamentos simples de informações entre duas variáveis correlacionadas. • Em alguns casos, tivemos observações com valores absurdos entre variáveis correlacionadas, que foram corrigidas ou excluídas da amostra, de acordo com o caso.

  7. Transformação das variáveis Dados faltantes (missings) • Na maioria das variáveis mantidas no banco de dados, foi observado um imenso número de dados faltantes (missings). Em alguns casos, esse problema pôde ser contornado através de variáveis correlacionadas presentes no banco. Nos demais casos, foram considerados “9” (ignorado) os dados faltantes. • Nos casos de variáveis de data, foi deixado para a análise do banco apenas o ano referente, por questões de praticidade. • Foram padronizadas também as datas que apresentavam diferenças entre si e também as informações fornecidas nos três campos referentes à especificação do caso “outros”.

  8. Significância das variáveis • As variáveis mantiveram um padrão semelhante ao da distribuição da variável utilizada como parâmetro.

  9. Frequências da variável resposta ID_DG_NOT

  10. Evidências de falta de significância • Informações presentes em outros campos subseqüentes, o que torna redundante a informação; e Falta de informação para a análise, pois a maioria das observações disponíveis eram missings.

  11. Banco de Dados • Após as análises e tratamentos apresentados, nosso banco de dados final ficou com 20 variáveis, além da variável resposta ID_DG_NOT. São elas:

  12. Utilizou-se o procedimento hierárquico chamado árvore de classificação, para melhor visualização e entendimento do modelo; e Dentro deste procedimento foi aplicado o método CART (Classification Regression Tree). Seleção do método

  13. Ajuste do modelo • Tentativas de bondade de ajuste: medida Gini e Qui-quadrado; • Em ambas as tentativas foi utilizada a poda por erro de classificação e a poda por “deviance”; • Assumiu-se probabilidades a priori estimadas para os resultados da variável resposta; e • Utilização de uma amostra de 8985 casos extraídos do banco de dados com os casos de dengue do ano de 2001.

  14. Matriz de confusão

  15. Gráficos de alavancagem do ajuste obtido com o banco de dados de 2001

  16. Gráficos de alavancagem obtido usando uma amostra do banco de 2002

  17. Resultados da validação Percentuais Banco de dados de 2002 Resposta Total Valores preditos 1 6935 2 0 Valores observados 1 2 3 4 5 3 41 4 0 1 99,97 0 0 0,03 0 5 251 2 0 0 0 0 0 Total 7227 3 100 0 0 0 0 4 0 0 0 0 0 5 100 0 0 0 0

  18. Implementação • Preparação do modelo para sua utilização; • Modelo ajustado através do método de Árvore de classificação; • Parâmetros da árvore ajustada: • Teste de bondade de ajuste: qui-quadrado; • Poda: erro de classificação; e • Probabilidades a priori para a variável resposta ID_DG_NOT: estimada.

  19. Variáveis de entrada Variável de saída EXANTEMA ID_DG_NOT LACO PROSTACAO VACINADO ANO DOR ARTRALGIA Implementação • Utilização da amostra de validação com os casos de dengue do ano de 2002 (7227 casos); • Exclusão de variáveis desnecessárias. • Utilizando o modelo de árvore de classificação escolhido, será feita a predição se o indivíduo possui dengue ou não, onde o resultado da predição será apresentado na variável de saída.

  20. Árvore de Classificação escolhida

  21. Retorno do Investimento (ROI) • Avaliação do impacto financeiro do projeto; • ROI: neste caso, o retorno seria uma redução nos custos da realização de exame de sangue para confirmação do diagnóstico de dengue; • Cálculo do ROI será baseado utilizando o custo de fazer exame de sangue para confirmação da doença; • Custo do exame de sangue: R$ 20,00; • Foram calculados três ROI´s: • Considerando a amostra de treinamento do banco de dados com os casos de dengue do ano de 2001 (7147 casos); • Considerando a amostra de validação do banco de dados com os casos de dengue do ano de 2001 (1838 casos); e • Considerando a amostra de validação do banco de dados com os casos de dengue do ano de 2002 (7227 casos).

  22. Amostra de treinamento Observado 1 2 3 4 5 ROI considerando amostra de treinamento do banco de 2001 Predito 1 5306 3 10 1 1822 Custo sem o modelo: R$ 142.940,00 2 1 1 Custo com o modelo: R$ 142.880,00 3 Redução: 0,0420% 4 5 3 Retorno do Investimento (ROI) Amostra de treinamento do banco de dados de 2001:

  23. Retorno do Investimento (ROI) Amostra de treinamento do banco de dados de 2001: • Custo sem o modelo: R$ 20,00 x 7147 = R$ 142.940,00 • Custo com o modelo: R$ 20,00 x 7144 = R$ 142.880,00 • ROI: (R$ 142.940,00 – R$ 142.880,00) / R$ 142.940,00 = 0,0420 %

  24. Amostra de validação banco de 2001 Observado 1 2 3 4 5 ROI considerando amostra de validação do banco de 2001 Predito 1 1346 5 487 Custo sem o modelo: R$ 36.760,00 Custo com o modelo: R$ 36.760,00 2 Redução: 0% 3 4 5 Retorno do Investimento (ROI) Amostra de validação do banco de dados de 2001:

  25. Retorno do Investimento (ROI) • Amostra de validação do banco de dados de 2001: • Custo sem o modelo: • R$ 20,00 x 1838 = R$ 36.760,00 • Custo com o modelo: • R$ 20,00 x 1838 = R$ 36.760,00 • ROI: (R$ 36.760,00 – R$ 36.760,00) / R$ 36.760,00 = 0 %

  26. Amostra de validação banco de 2002 Observado ROI considerando amostra de validação do banco de 2002 1 2 3 4 5 Custo sem o modelo: R$ 144.540,00 Custo com o modelo: R$ 144.540,00 Predito 1 6933 41 251 Redução: 0% 2 3 4 2 5 Retorno do Investimento (ROI) Amostra de validação do banco de dados de 2002:

  27. Retorno do Investimento (ROI) • Amostra de validação do banco de dados de 2002: • Custo sem o modelo: • R$ 20,00 x 7227 = R$ 144.540,00 • Custo com o modelo: • R$ 20,00 x 7227 = R$ 144.540,00 • ROI: (R$ 144.540,00 – R$ 144.540,00) / R$ 144.540,00 = 0 %

More Related