600 likes | 710 Views
LES0407 Estatística Aplicada II. Prof. Dr. Vitor Ozaki. Medidas de Posição. Vimos que os gráficos resumem muita mais informação do que apenas a tabela de dados brutos;
E N D
LES0407 Estatística Aplicada II Prof. Dr. Vitor Ozaki
Medidas de Posição • Vimos que os gráficos resumemmuitamaisinformação do que apenas a tabela de dados brutos; • Porém, frequentemente, queremos resumir aindamais os dados brutos usando umoualguns valores representativos de toda a série; • Para isso usamos as seguintesmedidas de posição central:
Medidas de Posição • Veremos três tipos de medidas de posição central: • Mediana; • Moda; • Média;
Mediana • É a realização que ocupa a posição central da série de observações, quandoestão ordenadas emordemcrescente; • P.ex. se as cinco observações de umavariávelforem: 3, 4, 7, 8, 8
Mediana • A mediana será o valor 7, correspondente a terceiraobservação; • Considere agora: 3, 4, 4 , 7, 8, 8 • Qual será a mediana correspondente a essavariável?
Mediana • Nesse caso, a mediana será a média aritmética das duasobservaçõescentrais: 5,5 Número de observações ÍMPAR Observação central Média aritmética das duasobserv. centrais Número de observações PAR
Moda • É a realizaçãomaisfrequente do conjunto de valores observados; • Para exemplificar, considere a variávelFilhos no exemplo da Tab. 1.1 de Magalhães e Lima (2005); • Nota: pode-se encontrar mais de uma moda, ouseja, a distribuição dos valores pode ser bimodal, trimodal, etc.
Moda Tabela de frequencia para a variável Filhos
Moda • Emnossoexemplo, a moda é igual a realizaçãocommaiorfrequência: 1 • A média aritmética é facilmente calculada: é a soma das observações dividida pelo número delas;
Média • No exemplo anterior, a média da variávelFilhos será igual a: (28x1 + 14x2 + 6x3 + 1x4 + 0x5 + 0x6 + 1x7)/50 • Resultando emumamédia aritmética igual a: 1,7
Medidas de Posição • A mediana para esse conjunto de dados será igual a: 1 • Resumindo: medidas de posição central para a variávelFilhos: • Moda: 1,0 • Mediana: 1,0 • Média: 1,7
Medidas de Posição • Vamos formalizar os conceitos vistos até agora: • Notação: letra das variáveisemmaiúsculo e letras dos valores observados em minúsculo; • Se x1, x2, …, xnsão os n valores (distintos ounão) da variávelX, a média de X será descrita por:
Medidas de Posição • Agora, se n1observaçõessãoiguais a x1, n2iguais a x2, e assim por diante, teremos:
Medidas de Posição • Se fi = ni/n representar a frequência relativa da observaçãoxi, então:
Medidas de Posição • Considere, agora, as observações ordenadas emordemcrescente; • Notação: x(1) será a menor observação, depoisx(2) e, assim por diante. Desta forma:
Medidas de Posição • As observações ordenadas recebem o nome de estatística de ordem; • P.ex. sejam as seguinteobservações: 4, -7, 10, 3, 5 • Ordenando as observações, temos que: x(1) = -7; x(2) = 3; x(3) = 4; x(4) = 5; x(5) = 10;
Medidas de Posição • Comessanotação, a mediana será definida por:
Medidas de Posição • Nota: a média aritmética é uma das medidas mais utilizadas para se resumir um conjunto de observações; • Entretanto, a presença de valores atípicos poderáconduzir a erros de interpretação; • P.ex. se no exemplo da tabela 1.1 (Magalhães e Lima), variávelFilhos, houvesseum valor igual a 17, aumentaria o valor da média;
Medidas de Posição • Nesse contexto, a mediana é uma medida maisadequada; • Nota: para calcular a moda de umavariável precisamos apenas da distribuição de frequências (contagem); • Para a mediana precisamos ordenar as realizações da variável;
Medidas de Posição • A médiasó pode ser calculada para variáveisquantitativas; • Este fato limita o uso de medidas-resumo para as variáveisqualitativas; • Para as variáveisqualitativasnominais podemos trabalharsomentecom a moda; • Para as variáveisqualitativasordinais, além da moda podemos usar também a mediana;
Medidas de Posição • Calcule a média, mediana e moda do seguinte conjunto de dados:
Medidas de Posição Média: 17,5 Mediana: 17,0 Moda: 17,0
Medidas de Posição • Recalcule a média, mediana e moda do conjunto de dados anterior:
Medidas de Posição Média: 38,3 Mediana: 17,0 Moda: 17,0
Medidas de Dispersão Resumir um conjunto de dados por meio de uma única medida de posição central “esconde” informações a respeito da variabilidade do conjunto de dados; P.ex. suponha que um teste tenha sido aplicado para cinco grupos de alunos; Os resultados são:
Medidas de Dispersão Grupo A: (variável X) Grupo B: (variável Y) Grupo C: (variável Z) Grupo D: (variável W) Grupo E: (variável V)
Medidas de Dispersão Pode se verificar que: Nota-se que a média nada diz à respeito da variabilidade das séries; Para verificar a variabilidade das observaçõesdoiscritériossãocomumente usados:
Medidas de Dispersão • Desviomédio; • Variância; • Ambos os critériosmostram a dispersão dos dados em torno de suamédia; • P.ex. os desvios do grupo A emrelação a média:
Medidas de Dispersão Serãoiguais a: -2, -1, 0, 1, 2 Nota: para qualquer conjunto de dados a soma dos desvios será igual a zero. Nessecontexto, a soma dos desvios dado por:
Medidas de Dispersão • Não é uma boa medida de dispersão para o conjunto A; • Medidas alternativas: • Total dos desviosem valor absoluto; • Total dos quadrados dos desvios;
Medidas de Dispersão • Total dos desviosem valor absoluto: • Total dos quadrados dos desvios:
Medidas de Dispersão Quando comparamos conjunto de dados com números distintos de observaçõesessescritériosnãorevelamnenhumainformação (relativa); P.ex. os conjuntos A e D; Aoinvés de valores totais é conveniente calcular os valores médios;
Medidas de Dispersão Assimteremos: Desviosmédios (dm); Variância (var);
Medidas de Dispersão Para o grupo A teremos: dm(X) = 6/5 = 1,2 var(X) = 10/5 = 2,0 Para o grupo D: dm(X) = 4/4 = 1,0 var(X) = 8/4 = 2,0
Medidas de Dispersão • Comparando os resultados dos 2 grupos: • Comrelaçãoaodm, o grupo D é maishomogêneo que o A; • Comrelação a var, os dois grupos são igualmente homogêneos;
Medidas de Dispersão Nota: como a var é igual aoquadrado da dimensão dos dados, pode causar problemas de interpretação: dados em R$ varem (R$)2 ? Pode-se usar o desviopadrão (dp):
Medidas de Dispersão • Outras medidas de dispersão: • Amplitude: é a diferença entre os valores máximos e mínimos; • Coeficiente de variação (CV): mede a dispersãos dos elementos de umaamostraemrelação a média (medida adimensional);
Medidas de Dispersão • Assimetria; • É o grau de desvio ou afastamento da simetria de uma distribuição; • Ela é positiva para as distribuições assimétricas à direita e negativa para aquelas assimétricas à esquerda;
Medidas de Dispersão • Medidas • Assimetria1 = (média-moda)/s • Assimetria2 = 3(média-mediana)/s
Medidas de Dispersão As medidas de dispersãodm e dpindicamemmédiaqual será o erro (desvio) ao tentar substituir cada observação pela medida resumo (p.ex. a média); Tanto a médiaquanto o desviopadrãopodemnão ser medidas adequadasnapresença de valores discrepantes;
Quantis Nessasituaçãooutra medida pode ser bastante útil: De forma geral, podemos definir uma medida chamada quantil de ordempoup-quantil, indicada por q(p); Em que p é umaproporçãoqualquer 0 < p < 1, tal que 100xp% das observaçõessejam menores do que q(p);
Quantis • Comrelaçãoaosquartis: dividem a amostraem 4 partes iguais (atenção: existem 3 quartis!) • Sejaum conjunto de dados comnobservações; • O 1º quartilq(0,25) será o elemento de ordemn/4; • O 2º quartilq(0,50) será o elemento de ordem 2n/4; • O 3º quartilq(0,75) será o elemento de ordem 3n/4;
Quantis De forma geral, o p-quantil é definido por:
Quantis Ex.: suponha os seguintes valores da variávelX: 15, 5, 3, 8, 10, 2, 7, 11, 12 Ordenando os valores: 2 < 3 < 5 < 7 < 8 < 10 < 11 < 12 < 15
Quantis Usando a definição de mediana temos que: md = q(0,5) = x(5) = 8 Fácil! Suponha que agoradeseja-se calcular q(20), ouseja, o valor que deixa 20% das observações à suaesquerda;
Quantis Lembrando a ordenação dos dados: 2 < 3 < 5 < 7 < 8 < 10 < 11 < 12 < 15 Qual valor devemos tomar? Seria 3, que é a segunda observação, ou 5, que é a terceiraobservação, ouum valor intermediário?
Quantis • Vamos calcular inicialmente pi (da 2º e 3º observação): • p2 = (2 – 0,5)/9 = 0,167; • p3 = (3 – 0,5)/9 = 0,278; • Nota-se que p = 0,20 está entre p2 e p3;
Quantis Pela definição, quandopi < p < pi+1, então: q(p) = (1 – fi)q(pi) + fiq(pi+1) Lembrando que fi = (p – pi)/(pi+1 – pi); Assimdevemos calcular f2;
Quantis f2 = [0,20 – (1,5/9)]/[(2,5/9) – (1,5/9)] f2 = [0,20 – 0,167]/[0,278 – 0,167] f2 = 0,30 (1 - f2) = 0,70 Desta forma, podemos calcular q(0,2):
Quantis q(0,2) = (1 – 0,3)q(p2) + 0,3q(p3) q(0,2) = (0,7)(3) + (0,3)(5); q(0,2) = 3,6 Calculemagoraq(0,75). R. q(0,75) = 11,25!