340 likes | 457 Views
Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros. Mineração de Dados Cleiton Lima ( cleiton.marcio@gmail.com ) Eric Ferreira ( efo@cin.ufpe.br ) Rossini Bezerra ( rambezerra@gmail.com ). Roteiro. Motivação Introdução e Caracterização do Problema Objetivo
E N D
Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima (cleiton.marcio@gmail.com) Eric Ferreira (efo@cin.ufpe.br) Rossini Bezerra (rambezerra@gmail.com)
Roteiro • Motivação • Introdução e Caracterização do Problema • Objetivo • Parametrização do Problema • Dados Disponíveis • Pré-processamento dos Dados • Modelagem • Resultados • Conclusões • Referências
1. Motivação • A Tuberculose (TB) é um problema de saúde tão grave hoje quanto no início do século passado. • Suas taxas de incidência permaneceram altas nas duas últimas décadas • Estima-se a existência de mais de 42 milhões de infectados no Brasil • 112.000 óbitos no período
3. Introdução e Caracterização do Problema (Mercado) • A Tuberculose é uma doença que estar diretamente relacionada com fator sócio-econômico. • A prevenção, tratamento e erradicação da Tuberculose não tem sido alvo das grandes Transnacionais da Área de Saúde
5. Introdução e Caracterização do Problema (PNCT) • Diante do cenário atual de Tuberculose, o Ministério da Saúde elaborou o Plano Nacional de Controle da Tuberculose (PNCT). • As principais metas são: • Integrar ações de controle em 100% do território brasileiro • Diagnosticar (até 2001) 90% dos casos de Tuberculose • Curar 85% dos casos já diagnosticados • Reduzir (até 2007) a Incidência de Tuberculose em no mínimo 50%. • Reduzir (até 2007) em 66%, a Taxa de Mortalidade
6. Introdução e Caracterização do Problema (PNCT) • Não existem, na atualidade, Mecanismos de Monitoramento das Ações e de Verificação da Eficácia das Metas aos Determinantes do Problema. • O Problema do Controle de Tuberculose no Brasil demanda Ações de Pesquisa, Monitoramento e Controle Coordenados.
7. Objetivo do Trabalho • Integrar Ação de Pesquisa de Tuberculose (Instituto Ageu Magalhães - Prof Wayner Souza) com Pesquisadores do Grupo de Inteligência Computacional (CIN-UFPE) • Parametrizar o Problema da Tuberculose • Propor um Modelo para Estimar o Risco de Epidemia da Tuberculose em Áreas Urbanas (Municípios) no Brasil
8. Objetivo do Trabalho • Extração de Regras para Avaliação das Variáveis de Impacto no Risco da Tuberculose • Estudo inicial de uma Ferramenta de Suporte às Instituições e Gestores de Saúde na Investigação e Controle de Tuberculose
9. Parametrização do Problema • Na Parametrização dos Fatores de Risco de Epidemia da Tuberculose, selecionaram-se como determinantes: • Fatores Populacionais e Sócio-econômicos • e Fatores de Saúde • Os Dados foram selecionados para os 5.564 Municípios Brasileiros. • Vetor de 42 Características ou Variáveis (inicial)
10. Dados Disponíveis – Descrição e Fontes • Dados Populacionais e Sócio-econômicos: • Extraídos do Censo Demográfico do ano de 2000 do IBGE, compreendendo População e caracterização Sócio-econômica. • Para períodos superiores utilizou-se Método de Projeção do próprio IBGE. • Dados de Saúde: • Os dados da Tuberculose, BCG (Vacinas) e Desnutrição foram extraídos no Sistema de Informações sobre Agravos de Notificação - SINAN, para o cálculo dos coeficientes anuais de (detecção de casos)/(setor censitário), entre 2000 a 2006.
10. Dados Disponíveis – Descrição e Fontes • A Ferramenta TabWin: • Foi utilizada para concatenar as duas bases de dados em uma única base • A ferramenta TabWin é disponibilizada no próprio site do DATASUS); • Após concatenar as duas bases de dados do DATASUS e IBGE foi criado uma única base de dados • No formato de planilha eletrônica( Excel) • A massa de dados é correspondente aos anos de 2001-2006
12. Pré-Processamento dos Dados (Novo Conjunto de Variáveis) • Normalização das variáveis numéricas: • Para as variáveis numéricas, a normalização foi realizada tendo como referência a variável População, ou seja: = (Variável / População) • Por Exemplo, utilizando a variável BCG2001, o valor normalizado desta variável irá informar a porcentagem da população da cidade que foram vacinadas (BCG) no ano de 2001.
12. Pré-Processamento dos Dados (Novo Conjunto de Variáveis) • Definição da variável Alvo • A = Média de Casos confirmados de Tuberculose nos anos 2004,2005 e 2006. • B = Média da População nos anos de 2004, 2005 e 2006 • Índice-Real nos anos de 2004, 2005 e 2006 (A/B) • Índice Brasileiro – Índice do PNCT: meta de redução de 50% da média nacional: (25 casos)/ (100.000 habitantes). • Alvo ou Classe (Binária): • 1 (S) : Se Índice Município > Índice do PNCT • 0 (N): Se Índice Município <= Índice do PNCT
13. Modelagem – Classificador Bayesiano • Para o Problema proposto de Estimar o Risco de Epidemia da Tuberculose nos Municípios Brasileiros propomos um Classificador Binário baseado em Redes Bayesianas. • Como Ferramenta de Simulação utilizamos o Weka para obtenção da Melhor Configuração para Rede Bayesiana. • Critério de Desempenho da Rede: Poder de Generalização ou Menor Erro na Fase de Teste.
13. Dados Disponíveis – Variáveis selecionadas para modelo da rede • Municipio, • TamanhoMunicipio, • PIB-00, PIB-01, PIB-02, • pib_pcap-00, pib_pcap-01, pib_pcap-02, • InstalSanitarias- 2000, • Óbitos2001, Óbitos2002, Óbitos2003, Óbitos2004, Óbitos2005, • Lixo, • BCG2001, BCG2002, BCG2003, BCG2004, BCG2005, BCG2006, • AbastAgua, • Alvo
14. Modelagem - Classificador • Estratégia de Treinamento: Estratificado • Treinamento (50%), • Validação (25%) e • Testes (25%). • Normalização dos Parâmetros: • Realizada pelo Weka e Normalizaçãodas variáveis numéricas (citada anteriormente) • Avaliação de Desempenho do Classificador: • Curvas ROC e • KS.
15. Modelagem – Extração de Regras • Foram realizados dezenas de Experimentos para Extração do Conhecimento do Domínio do Problema • Para Extração de Regras • Foi utilizada a ferramenta Weka • Algoritmo PART • Configuração padrão
16. Resultados - Classificador • Foram realizados dezenas de experimentos utilizando a ferramenta Weka para encontrar: • O Melhor classificador • Os parâmetros ótimos do classificador • Conjunto de regras • Entre as dezenas de configurações, a rede neural que obteve a maior taxa de acerto (66%) foi: • BayesNet • Estimador: SimpleEstimator – A 0.5 • SearchAlgoritm: K2 – P 1-s Bayes
16. Resultados - Classificador • Total de Instâncias: 1391 • S=Alto Risco com 690 Municípios • N=Baixo Risco com 701municípios) • Instâncias Classificadas Corretamente : • 918 – 66.00% • S = 456 (32,78%) • N = 462 (33,22%) • Instâncias Classificadas Incorretamente : • 473 – 34.00% • S = 239 (17,18%) • N = 234 (16,82%)
16. Resultados - Classificador • Matriz Confusão:
16. Resultados - Regras • Modelo do Classificador do conjunto de treinamento • Lista de Decisão PART • Número de regras obtidas: • 25 regras condicionais, do tipo: • Se Condicão i and Condição j ... • Então Alvo := (S/N)
16. Resultados – Regras (exemplo) • Regra 1 SE BCG2006 > 0.020375 AND Óbitos2004 > 0.000016 AND Óbitos2003 > 0.000276 AND Óbitos2004 > 0.000135 Então S (20.0) • Apesar de 2% da população está vacinada, se os óbitos por desnutrição excederem 0,02% da mesma, temos alto risco de incidência de tuberculose.
16. Resultados – Regras (exemplo) • Regra 2 SE BCG2006 <= 0.02258 AND Óbitos2003 <= 0.000297 ANDÓbitos2005 <= 0.000238 ANDInstalSanitarias-2000 > 0.874822 ANDBCG2006 <= 0.017122 Então N (742.0/231.0) • Se menos de 2% da população foi vacinada, mas os óbitos por desnutrição no período não excedem 0,02% e 87,4% possuir algum tipo de instalação sanitária, temos baixo risco deincidência de tuberculose
16. Resultados – Regras (exemplo) • Regra 3 SE TamanhoMunicipio <= 6771 ANDÓbitos2003 <= 0.000074 ANDÓbitos2002 <= 0.000074 Então N (737.0/318.0) • Para municípios com menos de 6771 habitantes e óbitos por desnutrição menor que 0,0074% da população, temos baixo risco de tuberculose.
16. Resultados – Regras (exemplo) • Regra 4 SE Óbitos2004 > 0.000268 ANDÓbitos2003 <= 0.00038 ANDBCG2006 > 0.018103 Então N (9.0) • Se a quantidade de óbitos por desnutrição em um município excede 0,026% da população em 2004 e for menor que 0,0038% em 2003 e ter mais de 1,8% da população vacinada, temos baixa probabilidade de incidência de tuberculose.
17. Conclusões • Utilizando a Metodologia de Mineração de Dados em conjunto com Conhecimento do Negócio foi possível obter uma Ferramenta de Suporte a Decisão no Diagnóstico de TB em Municípios. • Utilização de Extração de Conhecimento usando Regras permitiu interpretar o Impacto das Variáveis no Risco de TB. • Constatamos através da Extração das Regras, que as Variáveis Sócio-econômicas estão diretamente relacionadas ao Risco de TB.
18. Referências • Referências Bibliográficas • [1] Ministério da Saúde. Guia para tratamento da tuberculose para o Programa de Saúde da Família. Brasília (DF); 2002. • [2] Ximenes RA de A , Martelli CMT, Souza W V de, Lapa TM, Albuquerque M de FM de, Andrade ALSS de et al. Vigilância de doenças endêmicas em áreas urbanas: a interface entre mapas digitais censitários e indicadores epidemiológicos. Cad Saúde Pública 1999;15:53-61. • [3] Instituto Brasileiro de Geografia e Estatística [IBGE]. Censos demográficos. Disponível em: <URL:http:// www.ibge.gov.br/ censos> • [4] Ministério da Saúde. Sistema de Informações sobre Mortalidade. Disponível em: <URL: http://www.datasus.gov.br> • [5]Ximenes RA de A , Martelli CMT, Souza W V de, Lapa TM, Albuquerque M de FM de, Andrade ALSS de et al. Tuberculosis in Brazil: construction of a territorially based surveillance system • Rev Saúde Pública 2005;39(1):82-9 • [6] S. Haykin, “Neural Networks a Compreensive Foundation”, 2end ed, Tom Robbins, Ed. USA, New Jersey: Prentice-Hall, Inc, 1999.