190 likes | 312 Views
Utilizando o R . Amostragem aleatória . Amostragem aleatória sample (1:40,5) Jogando moedas com reposição sample (c(“H”,”T”),10,replace=T) Calculando a probabilidade de uma dada apostra sem reposição =1/(40*39*38*37*36) 1/prod(40:36). Densidades . Densidade da distribuição normal
E N D
Amostragem aleatória • Amostragem aleatória • sample (1:40,5) • Jogando moedas com reposição • sample (c(“H”,”T”),10,replace=T) • Calculando a probabilidade de uma dada apostra sem reposição =1/(40*39*38*37*36) • 1/prod(40:36) Técnicas para Predição de Dados
Densidades • Densidade da distribuição normal • x = seq(-4,4,0.1) • plot (x,dnorm(x), type=“l”) • Ou ainda • curve (dnomr(x), from=-4, to 4) • Gráfico com a distribuição binomial • (pin diagram) • X=0:50 • plot (x,dbinom(x,size=50,prob=.33),type="h") Técnicas para Predição de Dados
Estatísticas descritivas • x=rnomr(50) • mean(x) # média • sd(x) # desvio padrão • var(x) # variância • median(x) # mediana • quantile(x) Técnicas para Predição de Dados
Estatísticas descritivas • library (ISwr) # carrega pacote • data (juul) # carrega dados hospitalares • attach(jull) # disponibiliza os dados • mean(igf1) # gera um erro • mean(igf1, na.rm=T) • length(ifg1) # conta todos os valores • opção • sum(!is.na(igf1)) # TRUE = 1 e FALSE = 0 Técnicas para Predição de Dados
Estatísticas descritivas • summary (igf1) • n=length (x) • plot(sort(x),(1:n)/n,type="s",ylim=c(0,1)) • Onde: • “s” = step function • (1:n)/n divide o intervalo 1:n em n valores Técnicas para Predição de Dados
Testes para uma amostra • t-teste – uma amostra • (n<30 e σ desconhecido) • suposições • dados vem de uma distribuição normal • X~N(µ,σ2) • Deseja-se testar a hipótese nula • h0: µ = µ0 • Pode-se estimar os parâmetros µ e σ pela média empirica e pelo desvio padrão amostral s. Técnicas para Predição de Dados
Testes para uma amostra • t-teste – uma amostra • onde SEM = standard error of the mean • Se o experimento for repetido (x) vezes e forem tiradas (x) médias, então essas médias seguirão a distribuição que gerou a amostra Técnicas para Predição de Dados
Testes para uma amostra • Para dados normalmente distribuídos há 95% de chance de µ ± 2σ • Espera-se que se µ0 for a verdadeira média, então deveria estar a 2 SEM dela. Técnicas para Predição de Dados
Testes para uma amostra • formalmente • ou • para ver se t está no limite da região de aceitação, cujo nível de significância é 5% • Se t está fora da região de aceitação, então devemos rejeitar a hipótese nula para aquele nível de significância. • A região de aceitação está próximo de -2 e 2 Técnicas para Predição de Dados
Testes para uma amostra • A região de aceitação está próximo de -2 e 2 Técnicas para Predição de Dados
Testes para uma amostra • Pode-se também calcular o p-value que é a probabilidade de se obter um valor tão grande ou maior que o valor t observado. • Não se deve rejeitar h0 se o p-value está próximo do nível de significância α • Rejeita-se h0 se o p-value é muito pequeno em relação ao nível de significância α Técnicas para Predição de Dados
Testes para uma amostra • daily.intake = c(5260,5470,5640,6180,6390,6515,6805,7515,7515,8230,8770) • # energia ingerida em kJ por 11 mulheres • mean(daily.intake) • sd(daily.intake) • quantile(daily.intake) • Os dados amostrais (com média = 6753,639 kJ) constituem evidência suficiente para rejeitar a afirmação de que as mulheres ingerem 7725kJ em média? Técnicas para Predição de Dados
Testes para uma amostra • Supondo que os dados vieram de uma distribuição normal, o objetivo é testar se essa distribuição pode ter média µ = 7725 • t.test (daily.intake, mu=7725) Técnicas para Predição de Dados
Testes para uma amostra • t.test (daily.intake, mu=7725) One Sample t-test data: daily.intake t = -2.8208, df = 10, p-value = 0.01814 alternative hypothesis: true mean is not equal to 7725 95 percent confidence interval: 5986.348 7520.925 # sample estimates: mean of x 6753.636 Técnicas para Predição de Dados
Testes t para dados emparelhados • Usado para duas medidas no mesmo experimento • Trata as diferenças entre as medidas, reduzindo o problema para teste t – uma amostra • Deseja-se investigar o grau de ingestão de calorias por mulheres antes e depois da menstruação Técnicas para Predição de Dados
Testes t para dados emparelhados • data(intake) • attach(intake) • intake • post – pre # diferença antes e depois h0: (post - pre) = 0 h1: (post - pre) ≠ 0 • Todos os valores na amostra foram negativos, dando indícios que as mulheres têm baixa ingestão de calorias depois da menstruação. Técnicas para Predição de Dados
Testes t para dados emparelhados • t.test(pre,post, paired=T) Paired t-test data: pre and post t = 11.9414, df = 10, p-value = 3.059e-07 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 1074.072 1566.838 sample estimates: mean of the differences 1320.455 Técnicas para Predição de Dados