280 likes | 390 Views
Verificação da Normalidade. Para verificarmos se um conjunto de dados, uma amostra, possui distrib. NORMAL, realizamos um teste de hipótese que cujas hipóteses são:. H0: A distribuição dos dados (a variável) pode ser considerada como tendo distribuição Normal;
E N D
Verificação da Normalidade Para verificarmos se um conjunto de dados, uma amostra, possui distrib. NORMAL, realizamos um teste de hipótese que cujas hipóteses são: H0: A distribuição dos dados (a variável) pode ser considerada como tendo distribuição Normal; X H1:A distribuição dos dados (a variável) NÃO pode ser considerada como tendo distribuição Normal. Vários testes foram desenvolvidos para verificar a hipótese acima, teste do Qui-Quadrado para Normalidade, teste de Kolmogorov-Smirnov, teste de Shapiro-Wilkin (indicado quando a amostra for ≤ 20)dentre outros. Verificaremos a seguir como realizar um testes de normalidade no MINITAB.
Em Basics Statistics vamos em Normality Test..., Na tela nova selecionamos a var. que desejamos testar (via Select) e optamos por um dos 3 testes disponíveis. Kolmogorov-Smirnov é o mais conhecido, porém realizaremos o teste Shapiro-Wilk, por estar sendo mais requisitado atualmente. Então seleciono a var. dpeso e vou testar se ela possui ou não dist. Normal. OK
O resultado é um gráfico cujos pontos em devem estar bastante próximos da reta em vermelho. MAS acredite mesmo no p-value fornecido pelo teste. Neste caso um p = 0.64 nos leva a não rejeitar H0, logo assumimos que a var. possui distribuição Normal. Vc irá verificar normalidade de vars. numéricas contínuas ou discretas e vars. categóricas ordinais, jamais de vars. categóricas nominais. Exemplo em que rejeitamos a norma- lidade da variável, p < 0.05.
INTERVALOS DE CONFIANÇA Estimativas como média, mediana, desvio padrão,..., são conhecidas co- mo estimativas pontuais, pois através de um único valor desejamos expres- sar as características de nossa variável. Veremos agora como expressar nossas variáveis através de um conjunto de valores, ou seja, um intervalo com limite inferior e superior que conte- nha nosso parâmetro e no qual se possa depositar um grau de confiança de que o verdadeiro valor (desconhecido) esteja nele contido. Este tipo de estimação é chamada de estimação por intervalos e estes são conhecidos como INTERVALOS DE CONFIANÇA. Os IC têm sempre a seguinte forma : Estimativa pontual Valor crítico da distrib.*Erro padrão est. • É na escolha do valor crítico da distribuição que definimos o grau de • confiança (1 - )que iremos associar ao nosso intervalo. Com um • = 0.05 temos um intervalo de confiança de 95%, de = 0.01, a confiança é 99%
Calcularemos um IC de 95% (grau de confiança) para a média como exemplo, todos os demais IC’s seguem a mesma lógica, obviamente cada um utilizará o valor crítico da distribuição que for pertinente. Desejamos construir um intervalo de confiança de 95% para uma média (Xm).Vimos na aula de testes de hipóteses que se uma população tem dis tribuição Normal com média µ e dp , então a distr. de Xm em amostras de tamanho N será Normal com média µ e dp = /rqN = Erro padrão Então, para a dist. de Xm, podem-se estabelecer os valores de z1 e z2 da distribuição Normal reduzida , tais que a probabilidade de µ - z1*erro padrão < Xm < µ + z2*erro padrão = 95% , então se (1 - ) = 95% , = 0.05, que na tabela da Normal reduzida equi- vale ao valor 1.96. Substituindo µ e pelas estimativas fornecidas pelos meus dados tenho a fórmula para o cálculo do meu IC (95%): Xm - 1.96*s/rqN < Xm < Xm + 1.96*s/rqN ou Xm 1.96*Erro padrão
Exemplo: Em uma amostra de tamanho 10 de neonatos aidéticos o peso médio foi de 700 g. com dp = 100g. Estabeleça um IC (95%) para o peso dos neonatos aidéticos. 700 1.96* 100/rq10 = 700 61.98 = IC (95%) = (638.01 ; 761.98) Se calculamos um IC de (99%), então = 0.01 corresponde a 2.58 na Nor mal reduzida temos 700 2.58*100/rq10= 700 81.59 = (618.4 ; 781.5) Observe que o intervalo de 95% tem uma amplitude menor que o de 99%, logo quanto mais confiança desejo na estimativa, maior será o intervalo. Se ao invés de N = 10 minha amostra fosse de N = 30 o intervalo seria de 700 1.96*100/rq30= 700 35.78 = (664.2 ; 735.8) Observe que o intervalo de N = 30 tem uma amplitude menor que o de N =10, logo quanto maior a minha amostra menor será meu intervalo, mais preciso.
Interpretação comum do IC (95%): Se coleto apenas uma e somente uma amostra, posso afirmar que tenho 95% de chance que o parâmetro está contido no intervalo estimado. Note que isto não significa que posso, ou devo, afirmar que tenho 95% de chance que o parâmetro de outra amostra esteja contido no intervalo anterior. Interpretação correta: Se realizar 100 procedimentos iguais a este , no mí- nimo em 95 deles a média obtida estará dentro do intervalo estimado. São calculados IC para praticamente todos os parâmetros estimados na Estatística: média, variância, mediana, coeficiente de correlação, diferen- ças de médias, proporções, odds ratio, sensibilidade, especificidade, coefi cientes de regressão, quartis, diferença de proporções, médias pareadas,... Os IC’s para a diferença entre médias (independentes ou pareadas) são particularmente úteis, pois a sua construção (observação) dispensa até a realização do teste estatístico. Se o IC das diferenças contém o valor 0, quer dizer que existe uma boa chance de uma média ser equivalente à outra. X - Y = 0 ; X = Y.
Se o IC das diferenças não contém o valor 0, quer dizer que existe uma boa chance de uma média ser diferente da outra. X - Y 0 ; X Y. Testes estatísticos que envolvem inferências a respeito de uma ou duas médias – Família dos testes “t”
OBJETIVO : Comparar a média de uma amostra com a média conhecida de uma população. Variável envolvida: 1-A variável da qual será obtida a média amostral que deve ser numérica (contínua ou discreta). Há grande controvérsia quanto às ordinais, teoricamente não, mas no mundo real utiliza-se bastante também as ordinais. Exemplos:- A média da pressão arterial dos policiais é equivalente à média da população em geral? -O no. de crises epilépticas dos pac.com cisticercose é equivalente ao no. de crises da pop. em geral ? -O nível educacional dos pais de formandos da universidade pública é equivalente ao nível da pop. em geral. SUPOSIÇÕES:1 A variável precisa ter distribuição normal, é necessário realizar um teste de normalidade antes, c.c, a eficácia do teste é bastante questionável. 2 As observações (xi) são independentes uma das outras.
Tese de hipótese associado H0: = µ X H1: µ ou H0: A média amostral é equivalente à média da população X H1: Não é equivalente (Bicaudal) Teste estatístico: Se além da média da população também for conhecido o dp é o teste z para uma amostra (raríssimo). Quando estimamos o dp da nossa amostra será o teste t para uma amostra. Procedimento: a estatística tem distribuição t com n-1 graus de liberdade. Então acho o valor da est. e comparo com o valor da distribuição t com n-1 g.l. e nível de significância adotado. Normalmente (99.9%) = 0.05. OU (mais comum) verifico qual a probabilidade do valor da est. numa distr. t com n-1 g.l. e comparo com = 0.05. Se for menor rejeito HO
Exemplo: Foram coletadas amostras de sangue de 18 pacientes com câncer e medida uma substância X, onde obtivemos média = 3.2 e dp = 1.1. Sabe que na população o valor médio desta substância é 2.5. Há diferença desta substância entre os pac. com câncer e a pop. em geral ? Substituindo na fórmula temos: (3.2 - 2.5)/(1.1/rq18) = 2.69. O valor de 2.69 numa distr. T com 17 g.l. equivale a uma ‘p value’ de 0.0146, menor que 0.05, portanto rejeito H0. Como meu teste era bicaudal eu concluo que os pac. com câncer têm média superior desta substância que a pop. em geral. Graus de liberdade: Conceito ligado ao número de dados disponíveis (livres) para o cálculo da estatística; número de componentes indepen- dentes menos o número de parâmetros estimados.
Sabe-se que o peso médio das jogadoras russas de voley é de 65 kq. A CBV quer saber se as jogadoras brasileiras possuem peso médio equivalente ou não a das russas, para tanto coletou uma amostra de jogadoras e pesou-as, obtendo os valores ao lado. Percorrendo o nosso velho caminho ‘Stats’, ‘Basic Statistics’, vamos em ‘1- Sample t’. Na nova janela colocamos a var. e o valor que queremos com parar (65) com a nossa média.Ok
No output temos: o teste de hipótese explicitado, as estatísticas da var. um intervalo de confiança da média da var., o valor da estatística e proba bilidade a ele associado. Logo se meu p-value < 0.001 eu rejeito H0 (0.001 < 0.05), como a média das brasileiras é inferior à das russas, concluo que as brasileiras possuem média significativamente inferior à das russa. Clicando em ‘Options’, na tela seguinte controlamos se o teste será bicaudal ou monocaudal.
OBJETIVO : Comparar as médias de duas amostras independentes. Salientando que comparar as médias significa verificar se há ou não diferença entre os valores de cada amostra, realizamos uma extrapolação a partir do resultado. Amostras independentes: As unidades amostrais, os elementos da amostra, são diferentes em cada amostra, não há relação, não há vínculo entre eles, são unidades amostrais diferentes em cada amostra. Variáveis envolvidas: 1-A var. referente aos grupos que serão comparados, que pode ser cat. nominal (Com/Sem), cat. ordinal ou quantitativas contínuas ou não, desde que categorizadas em 2 categorias (Acima de x/Abaixo de x) 2 - A var. que será propriamente comparada, que deve ser numérica (contínua ou discreta). Há grande controvérsia quanto às ordinais, teoricamente não, mas no mundo real utiliza-se bastante também as ordinais.
Exemplos: - A média da taxa de iodo entre os sexos é equivalente. -A renda média das famílias com filhos é semelhante à renda média das famílias sem filhos. - O valor de ansiedade (IDATE) de pessoas com mais de 1,70 de altura é equivalente ao valor das pessoas com menos de 1,70 SUPOSIÇÃO :1 A variável que será comparada (2) precisa ter distribuição normal, é necessário realizar um teste de normalidade antes, c.c, a eficácia do teste é bastante questionável. O procedimento correto é testar a normalidade para cada nível da var. categorizada 2 As observações (xi) de cada grupo são independentes uma das outras.
Graficamente Tese de hipótese associado H0: Média da amostra 1 = Média da amostra 2; X H1: Média da amostra Média da amostra 2 (Bicaudal) Teste estatístico: Verificada e não rejeitada a hipótese de normalidade é o teste t para amostras independentes.
Procedimento: a estatística onde tem distribuição t (n1+ n2 - 2) graus de liberdade. Então acho o valor da est. e comparo com o valor da distribuição t com (n1+n2 -2) g.l. e nível de significância adotado. Normalmente = 0.05. OU (mais comum) verifico qual a probabilidade do valor da est. numa distr. t com (n1+n2-2) g.l. e comparo com = 0.05. Se for menor rejeito HO Observe que temos duas médias e dois desvios padrões estimados (um de cada amostra), se os 2 desvios padrões não forem equivalentes,há uma modificação na fórmula (não apresentaremos) e no número de graus de liberdade. Portanto é necessário testar se os dps são ou não equivalentes. Teste da homogeneidade das variâncias.
Exemplo: Duas amostras de 8 pgs foram coletadas. Uma das amostras ingeriu uma caneca de café com uma concentração x de cafeína e a ou- tra ingeriu uma caneca sem cafeína. Após ambos os grupos foram assistir a aula de estatística e contou-se o no. de bocejos de cada aluno. Será que a cafeína influi no grau de atenção ? Calculo as médias e dps de cada grupo: Calculo a parte inferior da fórmula desvio padrão conjugado Calculo a fórmula toda Então meu teste forneceu o valor de 2.81. O valor de = 0.05 numa dist. t com 14 g.l. é 2,15, como 2.81 > 2.15 Rejeito HO . De outro modo, o valor 2,81 corresponde a uma p-value de 0.015, logo 0.015 < 0.05 Rej.H0
Uma pesquisa do CRM quer verificar se os oftalmologistas recebem mais por hora de plantão que os ortopedistas. Temos uma coluna com a var. real_ hora(contínua) e uma com a variável Med, onde 1 = Ort. e 2 = Oft. Vamos em ‘Stat’, ‘Basic Stat..,e em 2-Sample t. Lembre-se que seria necessário antes testar a normalidade Aviso que as amostras estão em uma coluna; Coloco a var. real_h em’Samples’ e os grupos em‘Subs- cripts’. Observe que ao não marcar o campo ‘Assume equal variances’ estou assumindo que as variâncias NÃO são equivalentes. E OK
Two-sample T for real_hora med N Mean StDev 1 125 32,1 15,3 2 65 34,8 24,9 Difference = mu (1) - mu (2) Estimate for difference: -2,77 T-Test of difference = 0 (vs not =): T-Value = -0,82 P-Value = 0,414 DF = 89 Temos o tamanho de cada grupo com suas médias e dps, uma estimativa da diferença, o teste de hipótese,o valor do teste, o valor de p-value e o no. de graus de liberdade. Repare que o no. de g.l. = 89 é diferente de (n1+ n2 - 2) pois assumi que as variâncias não eram equivalentes, mas como sei isto? Testando. Vamos... em ‘2 Variances’ e na tela resultante preenchemos Samples e Subscri- pts como anteriormene e OK
Temos um I.C, as estimativas do dp,o Teste F e o de Levene que comparam se dois desvios padrões são ou não equivalentes. O p-value < 0.001 indica que rejeitamos a hipótese H0 de igualdade entre as variância. Portanto quando rejeito a hipótese de igualdade dos dps.eu não assinalo o quadrado de “Assume equal variances”; se não rejeito a igualdade das variâncias eu assinalo o quadrado. Se clicarmos botão ‘Options’ da tela do teste t para 2 amostras teremos a tela ao lado, onde podemos controlar se deseja mos um teste bicaudal (not equal) ou monocaudal (less than ou greater than) Portanto antes de realizar o teste t para amostras independentes é necessário testar a normalidade e se as variâncias são homogêneas.
OBJETIVO: Comparar as médias de duas amostras pareadas, correlacionadas, ou seja, não independentes. Amostras pareadas são aquelas em as medidas são realizadas na mesma unidade amostral, o sujeito é controle dele mesmo. A situação mais comum ocorre quando realizamos uma medida antes de algum procedimento, evento, e depois realizamos a mesma medida após o procedimento, evento, na mesma amostra. Entretanto há outras situações, como duas medidas comparáveis em uma unidade amostral, p. ex., comparar o lado direito contra o esquerdo na mesma unidade amostral, ou comparar duas técnicas realizadas na mesma unidade amostral. Variáveis envolvidas: 1 - A var. que será propriamente comparada, que deve ser numérica (contínua ou discreta). Há grande controvérsia quanto às ordinais, teoricamente não, mas no mundo real utiliza-se bastante também as ordinais. Tenha atenção, pois na planilha os valores referentes à 1a. medida devem estar numa coluna e os valores referentes à 2a. medida em outra coluna, e, obviamente, as medidas do mesmo unidade amostral na mesma linha.
Motivos para usarmos este teste e não o teste t para amostras independentes: 1 - O fato da mesma unidade amostral ser utilizada duas vezes introduz uma correlação, a medida do “depois” pode depender, até certo ponto, da medida do “antes”. Exemplo das dietas. 2 - Este teste é mais poderoso que o teste para amostras independentes, uma das maiores fontes de variabilidade é a variabilidade entre os sujeitos, repetindo as medidas nos mesmos sujeitos a variabilidade entre sujeitos é menor (o sujeito é controle dele mesmo), e portanto uma real di- ferença entre as medidas é mais fácil de ser detectada. Amostras menores. Teste de hipótese associado H0: A diferença entre as médias = 0; X H1: A diferença entre as médias 0 Observe que este teste é semelhante ao teste t para uma amostra, teremos uma nova “variável” que é a diferença = Antes - Depois, e testaremos se a sua média difere ou não significativamente de 0 Teste estatístico: Teste t para amostras pareadas ou correlacionadas.
Procedimento: Exemplificando para facilitar: Temos duas medidas realizadas nos mesmos sujeitos Suj Antes Depois Antes - Depois O passo inicial é computarmos as 1 420 380 40 diferenças e calcularmos a média 2 235 230 5 das diferenças. Repare que a média 3 280 300 -20 das diferenças é igual a diferença 4 360 260 100 das médias. Depois calculo o des 5 305 295 10 vio padrão da diferença = 34.4 6 215 190 25 7 200 200 00 De posse da média e do dp da di- 8 460 410 50 ferença vou realizar um teste t pa- 9 345 330 15 ra uma amostra, comparando a mé 10 375 380 -5 dia da diferença amostral com a mé- Média 319.5 297.5 22 dia conhecida 0 Portanto utilizamos a estatística do teste t para uma amostra: (Média - )/(s/rqn), onde sempre substituiremos por zero, e já sabemos que esta estatística tem uma distribuição t com número de pares -1 graus de liberdade. A conclusão do teste é sempre a mesma:
Se o t estimado for maior que o t tabelado Rejeito H0, ou se o ‘p-value’ for menor que o nível de significância adotado (0.05) Rejeito H0. Terminando o exemplo temos (22 - 0)/(34.4/rq10) = 22/10.9 = 2.02 Este valor corresponde a uma probabilidade na tabela t com 9 g.l. (no.de pares -1) igual a 0.074. Rejeito ou não H0, qual a conclusão? SUPOSIÇÃO :1 A variável ‘DIFERENÇA’ precisa ter distribuição normal, é necessário realizar um teste de normalidade antes, c.c, a eficácia do teste é bastante questionável. Portanto teste a normalidade da variável Diferença e não a normalidade das variáveis originais. 2 As diferenças (di) são independentes uma das outras.
Um grupo de 56 crianças obesas foi submetido a uma dieta, teste se 3 meses após houve redução significativa do peso. Stats, Basic Statistics, e vamos em ‘Paired t’. Na nova tela coloco o peso antes em ‘First sample’ e o peso depois em ‘Second sample’ Qual tipo de teste posso realizar nesta situação, mono ou bicaudal ?
Paired T-Test and CI: pesoant; pesodep Paired T for pesoant - pesodep N Mean StDev SE Mean pesoant 56 69,98 9,58 1,28 pesodep 56 64,98 11,34 1,51 Difference 5 -5,000 2,355 0,315 95% CI for mean difference: (-8.00;- 2.00) T-Test of mean difference = 0 (vs > 0): T-Value = -15,95 P-Value = 0,000 Portanto aplicando um teste monocaudal (fui em Options e clicei em Greater Than) temos as estatísticas descritivas, o I.C. de 95% para a diferença da média, o teste de hipótese (monocaudal), o valor de T estimado e o p-value relativo a ele. Rejeitamos H0, há queda significativa
1)Comparar uma média amostral Se dp desconhecido com uma média conhecida, se dp (estimado a partir da conhecido: Teste Z amostra) : Teste t para uma amostra Verificar a normalidade 2)Comparar duas médias amostrais Teste t para amostras independentes (unidades amostrais independentes distintas) - Verificar normalidade da amostra em cada grupo - Verificar homogeneidade das variâncias (teste F) 3)Comparar duas médias amostrais Teste t para amostras pareadas ou correlacionadas pareadas (mesma unidade amostral) - Verificar normalidade da “variável diferença”