1 / 27

Planejamen t o do estudo

As quatro etapas da análise exploratória dos dados. Planejamen t o do estudo. Coleta de dad os. Organização dos dados. Tabelas (x) Gráficos(x) Resumos numéricos. Apresentação dos resultados. Resumo Numérico ou Resumo Estatístico. Medidas de tendência central. Medidas descritivas.

Download Presentation

Planejamen t o do estudo

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. As quatro etapas da análise exploratória dos dados Planejamento do estudo Coleta de dados Organização dos dados • Tabelas (x) • Gráficos(x) • Resumos numéricos Apresentação dos resultados

  2. Resumo Numérico ou Resumo Estatístico Medidas de tendência central Medidas descritivas Medidas de Variabilidade Estatísticas – dados provenientes de amostras (letras minúsculas do alfabeto) Parâmetros – dados provenientes da população (letras do alfabeto grego)

  3. As principais medidas estatísticas • As medidas extremas e a amplitude total • A média aritmética, a variância e o desvio padrão • O Z-escore (ou escore padronizado) – 2º semestre • A mediana, os quartis e o resumo dos cinco números • A moda

  4. A média aritmética e o desvio padrão Média da população - μ • N é o tamanho da população • xi são as medidas da variável X Média da amostra - • n é o tamanho da amostra • xi são as medidas da variável X No Excel: comando media em fx

  5. Exemplo: histograma relativo à distribuição dos rendimentos salariais de uma indústria metalúrgica. Neste histograma localizamos a média (em torno de R$ 613,00) O rendimento individual médio igual a R$ 613,00 Dados discrepantes

  6. A média aritmética das idades dos alunos na pesquisa

  7. Medidas de variabilidade Exemplo 1: Três alunos realizaram uma prova e todos obtiveram nota 5. Então, • Média aritmética = 5 • Maior nota = 5, menor nota = 5 e Maior - menor = 0. • Não há variabilidade entre as notas Exemplo 2: Três outros alunos realizaram a prova e obtiveram notas iguais a 2, 4 e 9, respectivamente. Então, • Média aritmética = (2 + 4 + 9)/3 = 15/3 = 5 • Entretanto maior nota = 9, menor nota = 2 e Maior – menor = 7. • Há agora uma grande variabilidade entre as três notas

  8. Exemplo 3: Em um hospital e em uma determinada situação clínica é preciso avaliar a pulsação de cada paciente três vezes por dia. Paciente A : 72, 76 e 74 (pulsações por minuto) Paciente B: 72, 91 e 59 (pulsações por minuto) Média (A) = (72 + 76 + 74)/3 = 74 Média (B) = (72 + 91 + 59)/3 = 74 Variabilidade total do paciente A é = 4 (menor medida = 72 e Maior medida = 76) Variabilidade total do paciente B é = 32 (menor media = 59 e Maior medida = 91)

  9. Com relação a variável Idade: No Excel: em fx: • Comandos Mínimo e Máximo 17 53 36

  10. Para medir a dispersão dos dados em torno da média usa-se, então, a variância, que leva em consideração o número de dados e é a média da soma dos quadrados dos desvios desses dados em relação à média. • Para dados amostrais • Para dados populacionais

  11. Desvio Padrão – tomado como padrão para se avaliar a dispersão em relação à média. Desvio padrão para dados populacionais Desvio padrão para dados amostrais

  12. No Excel - em fx: • Desvio padrão • Na amostra: Estatística + DESVPAD • Na população: Estatística + DESVPADP • Variância • Na amostra: Estatística + VAR • Na população: Estatística + VARP

  13. Em geral: • Grande dispersão total grande variabilidade • entre os dados • grande desvio padrão grande variabilidade • dos dados em • relação a média 2. Em uma distribuição aproximadamente simétrica, entre: • -  e  +  encontram-se cerca de 68% das observações • - 2 e  + 2 encontram-se cerca de 95% das observações • -3 e  + 3 encontram-se cerca de 99,7% das observações

  14. A média aritmética e o desvio padrão das idades dos alunos na pesquisa DP = 5,88 300 respondentes (Cerca de 85%)

  15. A mediana e os quartis • No exemplo anterior sobre os rendimentos salariais • Eliminamos alguns valores extremos (superiores e inferiores) • Encontramos: • Média = R$ 531,40 • D, Padrão = R$ 328,60 • Antes tínhamos: • Média = R$ 612,72 • D. Padrão = R$ 549,84

  16. E comparando os histogramas ... Média = R$ 612,72 Média = R$ 531,40 Com a eliminação de dados extremos Com todos os dados

  17. Seja, agora, a média e o desvio padrão de uma amostra com 9 salários mínimos • Excluindo um extremo de cada lado obtemos novos valores para a média e para o desvio padrão: • Considerando o SM que ocupa a posição central, obtemos uma nova medida, chamada mediana (Med) • Com todos os SM (5ª posição) Med = 2 • Sem os SM extremos (4ª posição) Med = 2

  18. Obtendo a Mediana: Sejam x1, x2 , ... xn n valores relativos à uma variável X. Após a ordenação desses valores, a mediana é: • O elemento que ocupa a posição central, se n é impar. • A média aritmética entre os dois elementos centrais, se n é par.

  19. Exemplo: Encontrar a mediana do conjunto de dados que representam o peso, em gramas, de 12 ratos machos com 30 dias de idade: 50, 62, 70, 86, 60, 64, 66, 77, 58, 55, 82, 74. Solução: O primeiro passo é a ordenação dos dados: 50, 55, 58, 60, 62, 64, 66, 70, 74, 77, 82 e 86. Como nesta amostra o número de dados é par (n=12), a mediana é a média aritmética dos dois valores que ocupam as duas posições centrais (6ª e 7ª posições) Assim, Med = ( 64+66)/2 = 65.

  20. No Exemplo relacionado com os salários da indústria metalúrgica, temos: Com todos os dados: Med = R$ 477,50 Eliminando extremos: Med = R$ 450,00 (pouca variação) Mediana = R$ 450,00 Mediana = R$ 477,50 Com a eliminação de dados extremos Com todos os dados

  21. A mediana das idades dos alunos na pesquisa Mediana → Med = 20 Média →

  22. A mediana e os quartis 50% dos dados 50% dos dados m Med M A mediana dos 50% menores valores é o primeiro quartil – Q1 A mediana dos 50% maiores valores é o terceiro quartil – Q3 25% dos dados 25% dos dados 25% dos dados 25% dos dados M m Q1 Q3 Med Q2

  23. Seja a uma amostra com 9 salários mínimos Vimos que a mediana ocupa a 5ª posição – Med = 2 O primeiro quartil é a mediana dos 4 menores valores. Assim: Q1 está entre a 2ª e 3ª posição, ou seja Q1 = (1 + 1)/2 Q1 = 1 Q3 está entre a 7ª e 8ª posição, ou seja Q3 = (2 + 3)/2 Q1 = 2,5

  24. Exemplo: Sejao conjunto de dados que representam o peso, em gramas, de 12 ratos machos com 30 dias de idade: 50, 62, 70, 86, 60, 64, 66, 77, 58, 55, 82, 74. Encontrar o primeiro e o terceiro quartil. Solução: O primeiro passo é a ordenação dos dados: 50, 55, 58, 60, 62, 64, 66, 70, 74, 77, 82 e 86. Vimos que a mediana está entre a 6ª e 7ª posições, ou seja: Med = Q2 = (64+66)/2 = 65. Q1 é a mediana dos 50% menores pesos, ou seja, Q1 está entre a terceira e a quarta posição. Assim, Q1 = (58 + 60)/2 = 59 Q1 é a mediana dos 50% maiores pesos, ou seja, Q3 está entre a nona e a décima posição. Assim, Q3 = (74 + 77)/2 = 75,5

  25. Em relação às notas obtidas por 21 alunos em Estatística os quartis e a mediana estão destacados abaixo: Q1 Med = Q2 Q3 O resumo dos cinco números (comando quarto) Q0 = menor valor (m), Q1 = primeiro quartil, Q2 = mediana (Med), Q3 = terceiro quartil e Q4 = maior valor (M),

  26. Em relação às notas obtidas pelos 21 alunos em Estatística os quartis e a mediana estão destacados abaixo: Q1 Med = Q2 Q3 O resumo dos cinco números (comando quarto) Q0 = 3,5, Q1 = 4,5, Q2 = mediana (Med) = 6,0, Q3 = 7,5 Q4 = 9,0

  27. Resumindo: • Média e desvio padrão Cerca de 68% dos dados m M Média - DP Média Média + DP • O resumo dos cinco números 25% dos dados 25% dos dados 25% dos dados 25% dos dados Med M m Q1 Q3 25% dos dados centrais

More Related