1 / 90

Capítulo 7 Conhecendo os Dados

Capítulo 7 Conhecendo os Dados. Técnicas para extrair informações e gerar conhecimento de conjuntos de dados.

dewei
Download Presentation

Capítulo 7 Conhecendo os Dados

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Capítulo 7Conhecendo os Dados

  2. Técnicas para extrair informações e gerar conhecimento de conjuntos de dados

  3. Conhecendo os DadosO objetivo da análise exploratória de dados é examinar a estrutura subjacente dos dados e aprender sobre os relacionamentos sistemáticos entre muitas variáveis.A análise exploratória de dados inclui um conjunto de ferramentas gráficas e descritivas, para explorar os dados, como pré-requisito para uma análise de dados mais formal (Predição e Testes de Hipóteses), e como parte integral formal da construção de modelos.

  4. A AEA facilita a descoberta de conhecimentos não esperados, como também ajuda a confirmar o esperado.Como uma importante etapa em Data Mining, a AED emprega técnicas estatísticas descritivas e gráficas para estudar um conjunto de dados, detectando outliers e anomalias, e testando as suposições do modelo.A AED é um importante pré-requisito para se alcançar o sucesso em qualquer projeto de data mining.

  5. Distribuições de Freqüências • organização dos dados de acordo com as ocorrências dos diferentes resultados observados. • Pode ser apresentada: em tabela ou em gráfico; • com freqüências absolutas, relativas ou porcentagens.

  6. Códigos: 1 - nenhum grau de instrução compl e to, 2 - primeiro grau completo e 3 - segundo grau co m pleto. Resultados observados em cada fam í lia: 3 3 2 2 3 1 3 3 3 2 2 1 2 2 3 2 3 3 3 3 3 3 3 2 2 3 1 3 2 3 3 2 3 1 1 1 3 3 3 3 Exemplo (com variável qualitativa)

  7. Distribuição de Freqüências Grau de instrução (Conj. Resid. Monte Verde). Grau de In s tru ção Fr e qüên cia Percent a gem n e nhum 6 15,0 pr i meiro grau 11 27,5 segu n do grau 23 57,5 Total 40 100,0

  8. 0 4 8 12 16 20 24 Gráfico de Barras Grau de Instrução do Chefe da Casa segundo grau primeiro grau nenhum número de famílias

  9. Gráfico de Barras Grau de Instrução do Chefe da Casa segundo grau primeiro grau nenhum 4 8 12 16 20 24 número de famílias

  10. Gráfico em colunas

  11. Gráfico de Setores(Proporções) Grau de Instrução do Chefe da Casa nenhum (15,0 %) segundo grau (57,5 %) primeiro grau (27,5 %)

  12. Gráfico de Setores Multivariado

  13. Gráfico de Barras Multivariado

  14. Exemplo (com variável discreta) • Numa rede de computadores, a quantidade de máquinas que costumam estar ligadas, por dia 20 26 21 21 20 21 23 22 24 22 22 22 23 23 23 22 23 22 24 21

  15. Distribuição de Freqüências Proporção (%) 0,10 (10%) 0,20 (20%) 0,30 (30%) 0,25 (25%) 0,10 (10%) 0,00 (0,0%) 0,05 ( 5%) 1,00 (100%) Máquinas em uso 20 21 22 23 24 25 26 Total Freqüência (absoluta) 2 4 6 5 2 0 1 20

  16. Gráfico de colunas

  17. Exemplo (com variável contínua) Tempo (em segundos) para carga de um aplicativo num sistema compartilhado (50 observações): 5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7 6,3 5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7 8,2 7,1 4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1 6,0 4,7 18,1 5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9 6,5 5,9

  18. DADOS: 5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7 6,3 5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7 8,2 7,1 4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1 6,0 4,718,1 5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9 6,5 5,9 4,7 18,1 4 5 6 7 ... 19

  19. Histograma do tempo (em segundos) para carga de um aplicativo num sistema compartilhado (50 observações).

  20. Conjunto de dados: são 92 observações relativas à preços de automóveis.

  21. Verificar a variabilidade • outliers OUTLIERS: OU

  22. Conjunto de dados: preços de fechamento de ações da telebrás

  23. Série temporal

  24. Medidas Descritivas • Existem medidas quantitativas que servem para descrever, resumidamente, características das distribuições. • As mais utilizadas são a média e o desvio padrão.

  25. Média (X) X X = n • A média aritmética simples ( X ) é a soma dos valores dividida pelo número de observações.

  26. Exemplo • Deseja-se estudar o número de falhas no envio de mensagens, considerando três algoritmos diferentes para o envio dos pacotes: Algoritmo A (8 observações) Algoritmo B (8 observações) Algoritmo C (7 observações)

  27. Exemplo • Número de falhas a cada 10.000 mensagens enviadas. A: 20 21 21 22 22 23 23 24 B: 16 18 20 22 22 24 26 28 C: 15 22 23 23 23 24 24

  28. Comparação dos três algoritmos pela média falhas algoritmo média 20 21 21 22 22 23 23 24 A 22 16 18 20 22 22 24 26 28 B 22 15 22 23 23 23 24 24 C 22

  29. A B C 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Número de falhas Diagramas de Pontos Algoritmo

  30. Média Geométrica A média geométrica é apropriada para médias de taxas ou números índices. Por exemplo: 1) estimar a taxa média de retorno após três anos de investimento, sendo 10% no primeiro, 50% no segundo e 30% no terceiro ano;

  31. Exemplo Média de relações: Relação média entre capital e dívida é:

  32. Exemplo Média de taxas de variação: Um investidor aplicou em 2001, R$ 500,00. Após um ano o saldo é de R$ 550,00. Reaplicou esta quantia e, ao final de mais um ano, o montante era de R$ 590,00. Qual a taxa média de aumento?

  33. Medidas Robustas de Locação • Média “Winsorized”: a média “winsorized” compensa a presença de valores extremos no cálculo da média, atribuindo a estes, o valor de um determinado percentil da distribuição. Por exemplo: estimando a média “winsorized” de 95%, os 2,5% dos valores menores corresponderão ao 2,5 percentil da distribuição, enquanto os 2,5% dos valores maiores receberão o valor do 97,5 percentil da distribuição. • Média aparada (Trimmed): a média aparada é calculada excluindo-se uma dada percentagem dos valores mais baixos e mais altos e, então, fazer a média com os valores restantes. Por exemplo, excluindo os 2,5% dos valores inferiores e superiores e usando os dados remanescentes, temos a média aparada de 5%. A média aparada não é afetada por valores discrepantes (outliers) como a média aritmética. A média aparada é usada, por exemplo, em classificação em esportes para minimizar as classificações extremas, possivelmente causadas por julgamentos tendenciosos.

  34. Exemplo Medidas da variável IDADE de funcionários de um empresa: Média “winzored:” Média aparada:

  35. Como medir a dispersão? Exemplo: A ( 20 21 21 22 22 23 23 24 ) 20 21 22 23 24 distância (desvio) em relação à média

  36. Desvios Valores X 20 21 21 22 22 23 23 24 Média X 22 Desvios (X - X) -2 -1 -1 0 0 1 1 2

  37. 20 21 22 23 24 -2 -1 0 1 2 Desvios: Desvios Soma = 0

  38. Desvios Quadráticos Soma Valores X 20 21 21 22 22 23 23 24 176 Média X 22 - Desvios X - X -2 -1 -1 0 0 1 1 2 0 2 Desvios (X-X) 4 1 1 0 0 1 1 4 12 quadráticos

  39. Variância (S2) • A variância (S2) é uma média dos desvios quadráticos. Por conveniência, usa-se (n-1) no denominador ao invés de n.

  40. 12 = 1,71 S2 = 7 Exemplo • No exemplo apresentado (algoritmo A), a variância é:

  41. S = S2 Desvio Padrão (S) • O desvio padrão (S) é a raiz quadrada da variância.

  42. S = 1,71 = 1,31 Exemplo • No exemplo apresentado (algoritmo A), o desvio padrão é:

  43. Comparação dos três algoritmos pela média e desvio padrão falhas Algoritmo X S A 20 21 21 22 22 23 23 24 22 1,31 B 16 18 20 22 22 24 26 28 22 4,00 C 15 22 23 23 23 24 24 22 3,16

  44. Diagramas de pontos e valores de S Algoritmo A (S = 1,31) Algoritmo B (S = 4,00) Algoritmo C (S = 3,16) 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Número de falhas

  45. TABELA Medidas descritivas das notas finais dos alunos de três turmas Turma Número de Média Desvio alunos padrão A 20 6,0 3,3 B 40 8,0 1,5 C 30 9,0 2,6

  46. Medida relativade dispersão • Coeficiente de variação: desvio padrão média

  47. X1: 1 2 3 X2: 100 101 102 X3: 100 200 300 média = 2 desvio padrão = 1 coeficiente de variação = 0,5 média = 101 desvio padrão = 1 coeficiente de variação = 0,01 média = 200 desvio padrão = 100 coeficiente de variação = 0,5 Medida relativade dispersão -- Exemplo

  48. 25% 25% 25% 25% Q Q M I d S Quartil inferior mediana Quartil superior Medidas baseadas na ordenação dos dados

  49. 0 1 2 3 4 5 6 7 8 9 Md = 4,5 Cálculo da mediana Dados: {2, 0, 5, 7, 9, 1, 3, 4, 6, 8} n = 10; (n + 1) / 2 = 5,5

  50. 0 1 2 3 4 5 6 7 8 9 Ei = 0 Md = 4,5 Es = 9 Qi = 2 Qs = 7 Cálculo dos quartis

More Related