210 likes | 278 Views
Projeto Linguagem R Heart Disease. Grupo: Alberto de Oliveira Martins Igor Ryan Bernardo Santos João Carlos Procópio Florêncio Maria Marcela Soares de Meira Lins. Introdução.
E N D
Projeto Linguagem RHeartDisease Grupo: Alberto de Oliveira Martins Igor Ryan Bernardo Santos João Carlos Procópio Florêncio Maria Marcela Soares de Meira Lins
Introdução Dados da Organização Mundial de Saúde (OMS) estima 17,5 milhões de mortes por ano devido a problemas cardiovasculares Doenças como infarto se propagam de modo assintomático Impacto pode ser visualizado através de Estatística Descritiva
Dados de estudo Dados de pacientes internados nos hospitais de Cleveland, Ohio, USA Uso de fatores de risco para estudo: • Taxa de Colesterol (em mg/dl) • Pressão Sanguínea em Repouso • Freqüência cardíaca máxima do paciente quando submetido a esforço físico • Pico da depressão ST induzida pelo exercício • Idade do paciente
Histogramas Gráficos usados para estimativas Obtenção de classes usa métodos conceituais, porém não são precisos: • Fórmula de Sturges: K = 1 + 3.22 log n • Fórmula de Freedman-Diaconis(Fórmula de FD) • IQR é o intervalo entre o 1º quartil e o 3º quartil • n é o tamanho da amostra.
Histogramas – Descrição das variáveis CHOL: Colesterol mg/dl Considerado o fator de risco mais devastador das doenças cardiovasculares Atinge cada vez mais pessoas mais jovens, mesmo crianças Fator ocasiona cerca de 4,4 milhões de mortes por ano Média: 246.6931 Desvio Padrão: 51.77692 Mediana: 241 Moda: 197, 204, 234
Histogramas – Descrição das variáveis Método de Sturges Mostra gráfico mais normalizado Positivamente desviado Método de Freedman-Diaconis (FD) Gráfico ligeiramente menos normalizado que o anterior Possui mais classes, trazendo mais detalhes
Histogramas – Descrição das variáveis TRESTBPS: Pressão Sanguínea em Repouso Pressão exercida pelo sangue nos vasos sanguíneos Taxas elevadas de pressão podem danificar ou romper os vasos Variável aleatória contínua Média: 131.6898 Desvio Padrão: 17.59975 Mediana: 130 Moda: 120
Histogramas – Descrição das variáveis Método de Sturges Mostra gráfico mais normalizado Positivamente desviado Método de Freedman-Diaconis (FD) Apresenta diversos picos no gráfico Histograma não recomendado se critérios de normalidade gráfica forem recomendados
Histogramas – Descrição das variáveis OLDPEAK: Depressão ST Se refere a depressões anormais encontradas no eletrocardiograma É frequente sinal de isquemia no miocárdio Variável aleatória contínua Média: 1.039604 Desvio Padrão: 1.161075 Mediana: 0,8 Moda: 0,0
Histogramas – Descrição das variáveis Método de Sturges Mostra gráfico mais normalizado Positivamente desviado Método de Freedman-Diaconis (FD) Apresenta diversos picos no gráfico Histograma não recomendado se critérios de normalidade gráfica forem recomendados
Histogramas – Descrição das variáveis THALACH: Frequência cardíaca máxima alcançada Frequência cardíaca máxima alcançada durante esforço físico Pessoas com que atingem maior frequênciacadíaca durante esforço físico indica sedentarismo Variável aleatória contínua Média: 149.6073 Desvio Padrão: 22.87500 Mediana: 153 Moda: 162
Histogramas – Descrição das variáveis Método de Sturges Mostra gráfico mais normalizado Positivamente desviado Método de Freedman-Diaconis (FD) Apresenta diversos picos no gráfico Histograma não recomendado se critérios de normalidade gráfica forem recomendados
Histogramas – Descrição das variáveis AGE: Idade Idade do paciente no momento da pesquisa Pessoas com idade mais avançadas tem maior risco de ter problemas do coração Variável aleatória discreta Média: 54.43894 Desvio Padrão: 9.038662 Mediana: 56 Moda: 58
Histogramas – Descrição das variáveis Método de Sturges Mostra gráfico mais normalizado Positivamente desviado Método de Freedman-Diaconis (FD) Apresenta diversos picos no gráfico Histograma não recomendado se critérios de normalidade gráfica forem recomendados
Testes de Hipótese • Sabe-se que homens costumam ter maior probabilidade infarto do que as mulheres. Acredita-se, então, que a probabilidade dos infartos nos homens esteja ligado a pressão alta em repouso. Prove por teste de hipótese com nível de significância de 95% e 99% que homens têm pressão sanguínea maior que o das mulheres.
Testes de Hipótese • Dados: • N: 33 indivíduos tanto para a amostra de homens quanto para a de mulheres. • Hipótese Nula: Homens possuem pressão sanguínea mais elevada que mulheres.
Testes de Hipótese • Os dados gerados em R para nível de significância = .05: • Welch Two Sample t-test • data: pre and premu • t = -2.7073, df = 63.241, p-value = 0.008712 • alternative hypothesis: true difference in means is not equal to 4.727273 • 95 percent confidence interval: • -11.705394 2.250849 • sample estimates: • mean of x mean of y • 132.2727 137.0000
Testes de Hipótese • Para nível de significância = .01 • WelchTwoSamplet-test • data: pre and premu • t = -2.7073, df = 63.241, p-value = 0.008712 • alternative hypothesis: true difference in means is not equal to 4.727273 • 99 percent confidence interval: • -14.002011 4.547466 • sample estimates: • mean of x mean of y • 132.2727 137.0000
Testes de Hipótese • Estima-se que a média de nível de colesterol da população mundial é de 235mg/dL com desvio padrão de 40mg/dL. Teste a hipótese de que esta é uma amostra representativa da população mundial com nível de significância de 95%.
Testes de Hipótese • Dados: • μ = 235,0 mg/dL • x = 245.3824 mg/dL • N = 34 indivíduos • Hipótese Nula: A média de colesterol dos individuas da amostra é igual a média dos indivíduos da população.
Testes de Hipótese • data: c • t = 1.3729, df = 33, p-value = 0.1790 • alternative hypothesis: true mean is not equal to 235 • 95 percent confidence interval: • 229.9967 260.7680 • sample estimates: • mean of x • 245.3824