880 likes | 1.17k Views
ESTATÍSTICA I. Estat í stica I. Defini ç ão. Antonio A. Crespo define Estatística como :
E N D
Estatística I Definição Antonio A. Crespo define Estatística como : Estatística é uma parte da matemática aplicada que fornece métodos para a coleta, a organização, a descrição, a análise e a interpretação de dados quantitativos e qualitativos, e a utilização desses dados para a tomada de decisão.
Análise Exploratória de Dados Introdução AES
Análise Exploratória de Dados Utilidade da Estatística na Gestão A Estatística permite: • Resolver problemas mediante a coleta de dados de boa qualidade • Argumentar utilizando dados • Analisar e interpretar dados • Detectar situações fora de controle e outras fontes de dificuldades que requerem atenção e medidas corretivas • Coletar evidências para fins legais •Determinar ociosidade de recursos e eficiência na utilização dos mesmos •Determinar custos de atividades, de produtos, de unidades organizacionais etc •Melhorar a qualidade de dados, desempenhos, decisões, ações, produtos, processos e serviços
Análise Exploratória de Dados Algumas Dificuldades com a Estatística • Culturais / Rejeição às "matemáticas" / Contato prematuro inadequado • “Invisibilidade” da Estatística • Armadilha da atividade
Método Estatístico O método estatístico, diante da impossibilidade de manter as causas constantes, admite todas as causas presentes variando-as, registrando essas variações e procurando determinar, no resultado final, que influências cabem a cada uma delas.
MÉTODO ESTATÍSTICO • As fases são : • Coletas de dados : é a obtenção, reunião e registro sistemático de dados, com um objetivo determinado. • Direta : quando é obtida diretamente da fonte e pode ser : • - Contínua : Obtida ininterruptamente - Registro de nascimentos, etc. • - Periódica : em períodos curtos • Censos • - Ocasional : esporadicamente • - Surto epidêmico • Indireta : Quando é inferida ( deduzida ) a partir dos elementos • conseguidos pela coleta direta • - Mortalidade infantil
MÉTODO ESTATÍSTICO Crítica dos dados : devem ser criticados à procura de erros grosseiros ou de certos vultos, que possam influir sensivelmente nos resultados como: - Externa : Informante - Interna : dados da coleta Apuração dos dados : é a soma e o processamento dos dados obtidos e a disposição mediante critérios de classificação. AES
MÉTODO ESTATÍSTICO Exposição dos dados : devem ser apresentados sob forma de tabelas ou gráficos tornando mais fácil e compreensão do objeto de tratamento estatístico Análise dos resultados : É o estudo dos resultados com o objetivo de tirar conclusões sobre o todo (população), a partir de informações fornecidas por parte representativa do todo ( amostra). AES
População e Amostra População : é o conjunto de entes portadores de , pelo menos, uma característica comum Amostra : é um subconjunto finito de uma população
POPULAÇÃO E AMOSTRA Devido a quantidade excessivamente grande de elementos que constantemente fazem parte da população, trabalhamos com uma amostra. O aspecto comum dentre todas as técnicas existentes é a aleatoriedade, isto é, a igual chance que cada elemento da população deve ter de ser escolhido, as principais: a) Casual Simples - sorteio b) Sistemática - Os elementos já se encontram ordenados e então, sorteamos um número e sistematicamente os outros ficam determinados c) Estratificada - Quando a população esta dividida em estratos de acordo com o fato em estudo
Variável Variável - é convencionalmente, o conjunto de resultados possíveis de um fenômeno. Tipos de variáveis:
Variável Tipo 1 Número de dependentes Quantitativa, discreta 2 Idade Quantitativa, contínua 3 Local de nascimento Qualitativa, nominal 4 Nível educacional Qualitativa, ordinal 5 6 7 8 Variável Exemplo ( Variáveis em uma ficha cadastral PF ) AES
Variável DISCRETA - É uma representação tabular de um conjunto de valores em que colocamos na primeira coluna em ordem crescente apenas os valores distintos de série e na segunda coluna colocamos os valores das freqüências simples correspondentes. Devemos optar por uma variável discreta na representação de uma série de valores quando o número de elementos distintos da série for pequeno
Variável CONTÍNUA - É uma representação tabular de um conjunto de valores em que colocamos na primeira coluna faixa de valores agrupados em ordem crescente da série e na segunda coluna coloca os valores das freqüências simples correspondentes. Devemos optar por uma variável contínua na representação de uma série de valores quando o número de elementos distintos da série for grande. AES
Conceitos a serem aplicados - Amplitude total de uma seqüência = é a diferença entre o Limite superior e o Limite inferior de uma seqüência. At = Ls – Li - Intervalo de Classe = é qualquer subdivisão da amplitude total de uma série estatística. 2 /------ 4 - Limite de Classe = cada intervalo de classe fica caracterizado por dois números reais. O menor valor chamado de Limite inferior (Li) da classe e o maior valor chamado de Limite superior (Ls) da classe. 2 = Li e 4 = Ls - Amplitude do intervalo de classe = é a diferença entre o Ls e o Li do intervalo de classe. A = Ls – Li 4-2 = 2 A = 2 - Freqüência simples ou absoluta de uma classe (fi) = é o número de elementos da seqüência que são maiores ou iguais ao Li desta classe e menores que o Ls desta classe.
Distribuição de Freqüências Freqüência Relativa (fir%) = é a divisão da freqüência simples deste elemento pelo número total de elementos da série: fir = fi / n onde n ou somatória de fi, é o número total de elementos da série. Ex: fir = 4 / 30 = 0,1333 ou 13,33%
Distribuição de Freqüências Freqüência Acumulada direta (fad) = é a soma de fi simples deste elemento com as fi dos elementos que o antecedem. fad = fi1 + fi2 + fi3 ...fin Freqüência acumulada relativa (fr) ou percentual = é a divisão da freqüência acumulada deste elemento pelo número total de elementos da série. AES
xi fi fi % fad Fad % 0 1 3,33 1 3,33 1 5 16,67 6 20,00 2 6 20,00 12 40,00 3 10 33,34 22 73,34 4 4 13,33 26 86,67 5 4 13,33 30 100 Total 30 100 Distribuição de Freqüências AES
xi fi fir% fiac firac% 2 /------ 4 4 13,33 4 13,33 4 /------ 6 12 40,00 16 53,33 6 /------ 8 10 33,34 26 86,67 8 /------ 10 4 13,33 30 100 Total 30 100 Distribuição de Freqüências
Representação Gráfica - Histograma Histograma Área = 1.00 ( ou 100% ) Área ~ freqüência ( f ou p ) Classes de mesma amplitude : altura ~ freqüência ( f ou p ) Notas : Histograma é a representação gráfica adequada para o caso de variáveis contínuas Pode ser utilizada para variáveis discretas agrupadas em classes
Representação Gráfica Polígono de % acumulada Mostra a porcentagem de empresas cujo recolhimento de tributos é menor ou igual a um dado valor Podemos ter também: Polígono de freqüências acumuladas Polígono de proporções acumuladas
Medidas de Tendência Central • Tendência Central de um conjunto de dados é a tendência das medidas destes dados em se acumular em torno de certos valores numéricos.
Medidas de Tendência Central • É a soma das medidas dividida pelo número de elementos do conjunto de dados. • Vantagens – reflete cada valor e possui propriedades matemáticas atraentes. • Limitações – é influenciada por valores extremos.
Medidas de Tendência Central Exemplo : • Calcule a média dos seguintes grupos de dados: 1, 2, 3, 4, 5 e 2, 3, 3, 3, 4
Medidas de Tendência Central Mediana - Para números aleatórios • É o valor intermediário de um conjunto de medidas colocadas em ordem crescente (ou decrescente). Vantagens - muito interessante para grande massa de dados - divide a área do histograma em partes iguais. • menos suscetível a valores extremos. Limitações – difícil de determinar para grande quantidade de dados.
Média Mediana Medidas de Tendência Central Média e Mediana Sua comparação indica a assimetria da distribuição.
Medidas de Tendência Central Moda - Para números aleatórios • É a medida que ocorre com maior freqüência no conjunto de dados. • Exemplo: notas de degustadores de vinho: 8, 7, 9, 6, 8, 10, 9, 9, 5, 7. Moda: 9
Medidas de Tendência Central Moda • Vantagens - indica onde os dados tendem a se concentrar. - útil para dados qualitativos (Ex. notas de jurados). • pode haver mais de uma ou não ter sentido (Ex. pesquisa de lazer). • Limitações • não se presta a análise matemática; - pode não ser moda para certos conjuntos de dados.
Medidas de Tendência Central Exemplo: • Preferência do produto A (em %) colhida em diversas regiões do Brasil por meio de uma pesquisa de mercado. 56, 63, 64, 65, 66, 69, 71, 57, 64, 66, 64, 65, 66, 66, 68 e 72. N = 16 x = 1042 Média = 65,125 Mediana = 65,5 Moda =66
Medidas de Tendência Central Média Para variáveis discretas • Se os dados estão apresentados na forma de uma variável discreta, utilizamos a média ponderada, considerando as freqüências (fi) como sendo as ponderações dos elementos (xi) correspondentes. Média = 47 / 22 = 2,14 filhos
Medidas de Tendência Central Mediana para variáveis discretas • Para encontrarmos a mediana, dividimos por dois o total das freqüências absolutas ( 22 / 2 = 11) e calculamos a Freqüência acumulada (fiac) • Procuramos qual xi que conta o número (11) na Fi xi = 2 Mediana = 2 filhos
Medidas de Tendência Central Moda para variáveis discretas • Para encontrarmos a moda, basta verificar o elemento xi de maior freqüência (fi). Moda = 3 filhos
Medidas de Tendência Central Média para variáveis contínuas Se os dados estão apresentados na forma de uma variável contínua,utilizaremos a média aritmética ponderada, considerando as freqüências (fi) de cada classe ponderando com o ponto médio destas classe. PM = ((Li + LS) / 2) Média = Somatória de PM*fi / somatória de fi 178 / 30 = 5,93 filhos
Medidas de Tendência Central • Mediana para variáveis contínuas • Para encontrarmos a mediana, dividimos por dois o total das freqüências absolutas ( 30 / 2 = 15) e calculamos a Freqüência acumulada (fiac) • Procuramos qual xi que conta o número (15) na fiac xi = 4 /---6 • Este será o intervalo que usaremos como base para resolvermos a fórmula da mediana.
Medidas de Tendência Central • Mediana para variáveis contínuas • Fórmula da Mediana para variáveis contínuas Onde : Li = Limite inferior do intervalo de classe 4 n = Total de fi 30 fiacant = freqüência acumulada anterior ao intervalo de classe 4 fi = freqüência do intervalo de classe 12 h = amplitude da classe = Ls – Li 6 – 4 = 2
Medidas de Tendência Central • Mediana para variáveis contínuas • Então : Obs: o valor obtido pela fórmula é um valor aproximado
Medidas de Tendência Central • Moda para variáveis contínuas • Fórmula da Moda para variáveis contínuas Onde : Li = Limite inferior do intervalo de classe 4 fipost = freqüência absoluta posterior ao intervalo de classe 10 fiant = freqüência absoluta anterior ao intervalo de classe 4 h = amplitude da classe = Ls – Li 6 – 4 = 2
Medidas de Tendência Central Moda para variáveis contínuas Então:
Exercícios de aplicação • A média mínima para aprovação de determinado produto é 5,0 ppm de Ni. Se um analista, obtem os resultados 7,5; 8,0; 3,5; 6,0; 2,5; 2,0; 5,5 e 4,0 nas análises de diversas amostras em questão, pergunta‑se: pode ele aprovar o produto? • Calcule a mediana da seguinte distribuição de freqüência: • custos($)450├─550├─650├─750├─850├─950├─1050├─ 1150 • fi 8 10 11 16 13 5 1
Medidas de Dispersão • São medidas estatísticas utilizadas para avaliar o grau de variabilidade ou dispersão, dos valores em torno da média. Servem para medir a representatividade da média. • Desvio Médio • Variância • Desvio-Padrão • Coeficiente de variação
Medidas de Dispersão • Desvio Médio = é a média dos desvios dos valores a contar de média. Ignorando-se o sinal de diferença .fi