120 likes | 319 Views
MINERAÇÃO DE DADOS APLICADA AOS DADOS DA EPIDEMIA DE DENGUE 2001-2002. Marcelo Marinho Lacerda Andrade (Sem Bolsa) Mariana Belmar da Costa B. de Mello (Sem Bolsa) Thiego Batalha Nunes (Sem Bolsa) XXX Jornada de Iniciação Científica Orientadores:. Luis Paulo Vieira Braga
E N D
MINERAÇÃO DE DADOS APLICADA AOS DADOS DA EPIDEMIA DE DENGUE 2001-2002 Marcelo Marinho Lacerda Andrade (Sem Bolsa) Mariana Belmar da Costa B. de Mello (Sem Bolsa) Thiego Batalha Nunes (Sem Bolsa) XXX Jornada de Iniciação Científica Orientadores: Luis Paulo Vieira Braga Instituto de Matemática Departamento de Métodos Estatísticos Fernando Portela Instituto de Microbiologia Departamento de Virologia
Introdução • A Dengue é um problema abordado em termos ambientais e populacionais; • Não há uma abordagem do problema em termos dos perfis ou padrões de atributos clínicos de pacientes expostos ao vírus da dengue. • Dificuldade na predição, a partir de um conjunto de atributos clínicos, de qual ou quais indivíduos serão alvos para a infecção pelo vírus da dengue, se expostos ao mesmo. Consequência
Objetivos • Ajustar um modelo preditivo para o diagnóstico de dengue; • Usar o modelo ajustado para diagnosticar novos casos a partir somente dos dados clínicos; • Reduzir os custos com exame de sangue para diagnóstico positivo ou negativo de dengue.
Tratamento dos dados • Antes do cálculo do modelo, foi necessário tratar os dados fornecidos pelo Sistema de Informação de Agravos de Notificação (SINAN) do Ministério da Saúde. Etapas do tratamento: • Exclusão de variáveis; • Dados errados; • Dados faltantes (missings); • Significância das variáveis. • Após o tratamento, houve redução na quantidade de variáveis de 75,86% nos casos de 2001 e 2002 (redução de 87 para 21 variáveis).
Variáveis dos bancos de dados 2001-2002 após o tratamento Variável resposta: ID_DG_NOT (Diagnóstico Dengue) Variáveis preditivas (dados clínicos): PLEURAL ABDOMINAL HEPATO CHOQUE ASCITE DOR DENGUE ANO VACINADO FEBRE LAÇO CEFALEIA EXANTEMA PROSTRAÇÃO MIALGIA NAUSEAS ARTRALGIA EPISTAXE PETEQUIAS GENGIVO
Metodologia • Modelo criado através da Mineração de Dados (Data Mining) usando o banco de dados de 2001; • Aplicação do método da Árvore de Classificação; • Criação de 2 árvores de classificação a partir dos dados clínicos; • 1ª árvore: predizer se o indivíduo possui dengue ou não; • 2ª árvore: dado que diagnosticou-se dengue, qual tipo ele possui; • Validação do modelo através de amostras dos bancos de dados dos anos de 2001 e 2002, pois conhece-se a real situação do paciente.
Visualização parcial da 1ª árvore de classificação (possui dengue ou não) Nó 1 N=7590 Respostas: 1 – Sim 2 – Não 3 – Não Realizada 9 - Ignorado Exantema Nó 2 N=4326 Resposta: 2 Diagnóstico: em aberto Nó 3 N=3264 Resposta: 1 ou 9 Diagnóstico: tem dengue Laço Nó 4 N=1544 Resposta: 9 Diagnóstico: em aberto Nó 5 N=2782 Resposta: 1, 2 ou 3 Diagnóstico: em aberto Prostração Choque Nó 6 N=947 Resposta: 2 Diagnóstico: em aberto Nó 7 N=597 Resposta: 1 ou 9 Diagnóstico: em aberto Nó 532 N=227 Resposta: 9 Diagnóstico: em aberto Nó 533 N=2555 Resposta: 1 ou 2 Diagnóstico: em aberto Vacinado Dor Abdominal Febre
Resultados do modelo • Cálculo do modelo foi prejudicado pelo alto índice de missings existentes; • A maioria dos casos de dengue foram preditos corretamente; • A diferença entre os padrões de epidemia nos anos de 2001 e 2002 prejudicou a previsão dos resultados em 2002; • Por esse motivo, e pelo fato da amostra de treinamento utilizada ser do banco de dados de 2001, optou-se pela validação do modelo com os dados do mesmo ano.
Resultados do modelo Predito Observado Predito Observado 1ª árvore: Possui dengue ou não 2ª árvore: Tipo de dengue 1 – Dengue clássica 2 – Dengue com complicações 3 – Febre hemorrágica do dengue 1 - Descartado 0 - Dengue
Resultados do modelo 1ª árvore: Possui dengue ou não 2ª árvore: Tipo de dengue
Análise de custo (1ª árvore) • Redução do custo com exame de sangue. • Valor do exame de sangue estimado em R$ 20,00. • Custo sem o modelo para a amostra: R$ 20,00 x 1378 = R$ 27.560,00 • Custo com o modelo para a amostra: R$ 20,00 x 1328 = R$ 26.560,00 • Redução de 3,63% nos custos com exame de sangue. Considerando os casos de 2001 (65.533 notificações), haveria uma redução de custos de R$ 47.576,96.
Conclusão • Modelo consegue diagnosticar boa parte dos casos de dengue; • Falta qualidade na coleta dos dados clínicos; • O fator epidemia varia ano após ano, o que dificulta a predição de um modelo para se usar pelos anos seguintes. • Estudar a mudança do padrão de epidemia a cada ano; • Criar um modelo preditivo que possa ser aplicado não só ao ano corrente, mas também aos subsequentes. Trabalhos futuros