270 likes | 360 Views
As quatro etapas da análise exploratória dos dados. Planejamen t o do estudo. Coleta de dad os. Organização dos dados. Tabelas (x) Gráficos(x) Resumos numéricos. Apresentação dos resultados. Resumo Numérico ou Resumo Estatístico. Medidas de tendência central. Medidas descritivas.
E N D
As quatro etapas da análise exploratória dos dados Planejamento do estudo Coleta de dados Organização dos dados • Tabelas (x) • Gráficos(x) • Resumos numéricos Apresentação dos resultados
Resumo Numérico ou Resumo Estatístico Medidas de tendência central Medidas descritivas Medidas de Variabilidade Estatísticas – dados provenientes de amostras (letras minúsculas do alfabeto) Parâmetros – dados provenientes da população (letras do alfabeto grego)
As principais medidas estatísticas • As medidas extremas e a amplitude total • A média aritmética, a variância e o desvio padrão • O Z-escore (ou escore padronizado) – 2º semestre • A mediana, os quartis e o resumo dos cinco números • A moda
A média aritmética e o desvio padrão Média da população - μ • N é o tamanho da população • xi são as medidas da variável X Média da amostra - • n é o tamanho da amostra • xi são as medidas da variável X No Excel: comando media em fx
Exemplo: histograma relativo à distribuição dos rendimentos salariais de uma indústria metalúrgica. Neste histograma localizamos a média (em torno de R$ 613,00) O rendimento individual médio igual a R$ 613,00 Dados discrepantes
Medidas de variabilidade Exemplo 1: Três alunos realizaram uma prova e todos obtiveram nota 5. Então, • Média aritmética = 5 • Maior nota = 5, menor nota = 5 e Maior - menor = 0. • Não há variabilidade entre as notas Exemplo 2: Três outros alunos realizaram a prova e obtiveram notas iguais a 2, 4 e 9, respectivamente. Então, • Média aritmética = (2 + 4 + 9)/3 = 15/3 = 5 • Entretanto maior nota = 9, menor nota = 2 e Maior – menor = 7. • Há agora uma grande variabilidade entre as três notas
Exemplo 3: Em um hospital e em uma determinada situação clínica é preciso avaliar a pulsação de cada paciente três vezes por dia. Paciente A : 72, 76 e 74 (pulsações por minuto) Paciente B: 72, 91 e 59 (pulsações por minuto) Média (A) = (72 + 76 + 74)/3 = 74 Média (B) = (72 + 91 + 59)/3 = 74 Variabilidade total do paciente A é = 4 (menor medida = 72 e Maior medida = 76) Variabilidade total do paciente B é = 32 (menor media = 59 e Maior medida = 91)
Com relação a variável Idade: No Excel: em fx: • Comandos Mínimo e Máximo 17 53 36
Para medir a dispersão dos dados em torno da média usa-se, então, a variância, que leva em consideração o número de dados e é a média da soma dos quadrados dos desvios desses dados em relação à média. • Para dados amostrais • Para dados populacionais
Desvio Padrão – tomado como padrão para se avaliar a dispersão em relação à média. Desvio padrão para dados populacionais Desvio padrão para dados amostrais
No Excel - em fx: • Desvio padrão • Na amostra: Estatística + DESVPAD • Na população: Estatística + DESVPADP • Variância • Na amostra: Estatística + VAR • Na população: Estatística + VARP
Em geral: • Grande dispersão total grande variabilidade • entre os dados • grande desvio padrão grande variabilidade • dos dados em • relação a média 2. Em uma distribuição aproximadamente simétrica, entre: • - e + encontram-se cerca de 68% das observações • - 2 e + 2 encontram-se cerca de 95% das observações • -3 e + 3 encontram-se cerca de 99,7% das observações
A média aritmética e o desvio padrão das idades dos alunos na pesquisa DP = 5,88 300 respondentes (Cerca de 85%)
A mediana e os quartis • No exemplo anterior sobre os rendimentos salariais • Eliminamos alguns valores extremos (superiores e inferiores) • Encontramos: • Média = R$ 531,40 • D, Padrão = R$ 328,60 • Antes tínhamos: • Média = R$ 612,72 • D. Padrão = R$ 549,84
E comparando os histogramas ... Média = R$ 612,72 Média = R$ 531,40 Com a eliminação de dados extremos Com todos os dados
Seja, agora, a média e o desvio padrão de uma amostra com 9 salários mínimos • Excluindo um extremo de cada lado obtemos novos valores para a média e para o desvio padrão: • Considerando o SM que ocupa a posição central, obtemos uma nova medida, chamada mediana (Med) • Com todos os SM (5ª posição) Med = 2 • Sem os SM extremos (4ª posição) Med = 2
Obtendo a Mediana: Sejam x1, x2 , ... xn n valores relativos à uma variável X. Após a ordenação desses valores, a mediana é: • O elemento que ocupa a posição central, se n é impar. • A média aritmética entre os dois elementos centrais, se n é par.
Exemplo: Encontrar a mediana do conjunto de dados que representam o peso, em gramas, de 12 ratos machos com 30 dias de idade: 50, 62, 70, 86, 60, 64, 66, 77, 58, 55, 82, 74. Solução: O primeiro passo é a ordenação dos dados: 50, 55, 58, 60, 62, 64, 66, 70, 74, 77, 82 e 86. Como nesta amostra o número de dados é par (n=12), a mediana é a média aritmética dos dois valores que ocupam as duas posições centrais (6ª e 7ª posições) Assim, Med = ( 64+66)/2 = 65.
No Exemplo relacionado com os salários da indústria metalúrgica, temos: Com todos os dados: Med = R$ 477,50 Eliminando extremos: Med = R$ 450,00 (pouca variação) Mediana = R$ 450,00 Mediana = R$ 477,50 Com a eliminação de dados extremos Com todos os dados
A mediana das idades dos alunos na pesquisa Mediana → Med = 20 Média →
A mediana e os quartis 50% dos dados 50% dos dados m Med M A mediana dos 50% menores valores é o primeiro quartil – Q1 A mediana dos 50% maiores valores é o terceiro quartil – Q3 25% dos dados 25% dos dados 25% dos dados 25% dos dados M m Q1 Q3 Med Q2
Seja a uma amostra com 9 salários mínimos Vimos que a mediana ocupa a 5ª posição – Med = 2 O primeiro quartil é a mediana dos 4 menores valores. Assim: Q1 está entre a 2ª e 3ª posição, ou seja Q1 = (1 + 1)/2 Q1 = 1 Q3 está entre a 7ª e 8ª posição, ou seja Q3 = (2 + 3)/2 Q1 = 2,5
Exemplo: Sejao conjunto de dados que representam o peso, em gramas, de 12 ratos machos com 30 dias de idade: 50, 62, 70, 86, 60, 64, 66, 77, 58, 55, 82, 74. Encontrar o primeiro e o terceiro quartil. Solução: O primeiro passo é a ordenação dos dados: 50, 55, 58, 60, 62, 64, 66, 70, 74, 77, 82 e 86. Vimos que a mediana está entre a 6ª e 7ª posições, ou seja: Med = Q2 = (64+66)/2 = 65. Q1 é a mediana dos 50% menores pesos, ou seja, Q1 está entre a terceira e a quarta posição. Assim, Q1 = (58 + 60)/2 = 59 Q1 é a mediana dos 50% maiores pesos, ou seja, Q3 está entre a nona e a décima posição. Assim, Q3 = (74 + 77)/2 = 75,5
Em relação às notas obtidas por 21 alunos em Estatística os quartis e a mediana estão destacados abaixo: Q1 Med = Q2 Q3 O resumo dos cinco números (comando quarto) Q0 = menor valor (m), Q1 = primeiro quartil, Q2 = mediana (Med), Q3 = terceiro quartil e Q4 = maior valor (M),
Em relação às notas obtidas pelos 21 alunos em Estatística os quartis e a mediana estão destacados abaixo: Q1 Med = Q2 Q3 O resumo dos cinco números (comando quarto) Q0 = 3,5, Q1 = 4,5, Q2 = mediana (Med) = 6,0, Q3 = 7,5 Q4 = 9,0
Resumindo: • Média e desvio padrão Cerca de 68% dos dados m M Média - DP Média Média + DP • O resumo dos cinco números 25% dos dados 25% dos dados 25% dos dados 25% dos dados Med M m Q1 Q3 25% dos dados centrais