980 likes | 1.76k Views
Estatística Básica. Prof.: Daniel Almeida. 1. Introdução. A Estatística talvez seja a parte da Matemática que mais se preocupa com o comportamento social, visto que tal conteúdo é repleto de coletas de dados, para que se possa então fazer a análise deles.
E N D
Estatística Básica Prof.: Daniel Almeida
1. Introdução A Estatística talvez seja a parte da Matemática que mais se preocupa com o comportamento social, visto que tal conteúdo é repleto de coletas de dados, para que se possa então fazer a análise deles. A Estatística envolve um conjunto de métodos desenvolvidos para a coleta, classificação, apresentação, análise e interpretação de dados quantitativos(ou qualitativos) e a utilização desses dados para a tomada de decisões.
Por exemplo, podemos pensar no caso de duas turmas que, em um determinado teste de matemática, tenham ambas obtido média aritmética 6 nas notas, pois é possível que, em uma turma, todos tenham tirado notas muito próximas de 6 e na outra turma a variação de notas tenha sido muito discrepante, daí a importância da Estatística, pois através dela traçaremos parâmetros para que possamos diferenciar e personalizar as coletas analisadas.
Didaticamente temos: • - Estatística Descritiva (ou Dedutiva): • Cuida da coleta, apuração, apresentação, análise e interpretação de dados. • - Inferência Estatística (Estatística Indutiva): • Consiste em tirar conclusões sobre a população com base nos resultados da amostra.
POPULAÇÃO E AMOSTRA População é um conjunto de elementos que têm pelo menos uma característica (variável) comum objeto de estudo. População Finita: Limitada em tamanho População Infinita: Ilimitada em tamanho. Consiste num processo que gera itens.
Nomenclatura Básica • Tipos de variáveis • Variável quantitativa • Quando as variáveis de uma pesquisa são, por exemplo, altura, peso, idade em anos e número de irmãos, dizemos que elas são quantitativas, pois seus possíveis valores são números. • As variáveis quantitativas podem ser discretas, quando se trata de contagem (números inteiros), ou contínuas, quando se trata de medida (números reais). Veja: • • “Número de irmãos” é uma variável quantitativa discreta, pois podemos contar (0, 1, 2 etc.).
• “Altura” é uma variável quantitativa contínua, uma vez que pode ser medida (l,55 m, l,80 m, l,73 m etc.). • • “A idade em anos exatos” pode ser considerada variável quantitativa discreta (8, 10, 17 etc.). • b) Variável qualitativa • São aquelas variáveis que procuram passar uma certa característica do dado que está sendo analisado, como, por exemplo: cor do cabelo, cor da pele, feio ou bonito, alegre ou triste e assim por diante. • Obs.: Essas variáveis podem ser de dois tipos: • Qualitativas Nominais (atributos) • Qualitativas Ordinais (ordem)
Freqüências • Freqüência absoluta: • É aquela que indica o número de elementos coletados da variável analisada. • b) Freqüência relativa: • É aquela que representa a proporção entre a variável analisada e o todo, e que, por isso, pode ser representada por uma fração, por uma porcentagem ou por uma dízima.
Tabela de frequências Tabela sem intervalo de classe: A tabela abaixo relaciona a preferência pelo time de futebol em relação a 560 pessoas entrevistadas, em que, para cada time, podemos utilizar a proporção entre a freqüência relativa e o setor do gráfico.
Tabela com intervalo de classe: OBS.: As classes são intervalos fechados no início e abertos no final.
Medidas de Centralidade A medida de centralidade é um número que está representando todo o conjunto de dados; nas pesquisas tal número é conhecido como medida de tendência central, que pode ser encontrado a partir da média aritmética, da moda ou da mediana, e o uso de cada uma delas é mais conveniente de acordo com o nível de mensuração, o aspecto ou forma da distribuição de dados e o objetivo da pesquisa.
Média aritmética (X) É a medida de centralidade mais comum, porém deve ser usada em dados representados por intervalos, pois não haveria sentido utilizá-la em uma distribuição em que a variável fosse, por exemplo, time de futebol ou sexo. A média representa, ainda, o ponto de distribuição no qual se equilibram os desvios (diferenças) positivas e negativas de cada dado, ou seja, os desvios positivos somados se anulam com os negativos somados.
Dados Agrupados sem intervalo de Classe Consideremos a distribuição relativa a 34 famílias de quatro filhos, tomando para variável o número de filhos do sexo masculino. Calcularemos a quantidade média de meninos por família:
Como as freqüências são números indicadores da intensidade de cada valor da variável, elas funcionam como fatores de ponderação, o que nos leva a calcular a média aritmética ponderada, dada pela fórmula:
Dados agrupados com intervalo de Classe Neste caso, convencionamos que todos os valores incluídos em um determinado intervalo de classe coincidem com o seu ponto médio, e determinamos a média aritmética ponderada por meio da fórmula: onde Xi é o ponto médio da classe.
Ex: Calcular a estatura média de bebês conforme a tabela abaixo.
Moda A moda é o elemento da seqüência de dados que possui a maior freqüência, em que ela será localizada. Para ficar mais fácil de você lembrar, associe o fato de que aquilo que está na moda é o que as pessoas mais usam. Por exemplo, o salário modal dos empregados de uma fábrica é o salário mais comum, isto é, o salário recebido pelo maior número de empregados dessa fábrica.
Moda quando os dados não estão agrupados A moda é facilmente reconhecida: basta, de acordo com definição, procurar o valor que mais se repete. Ex: Na série { 7 , 8 , 9 , 10 , 10 , 10 , 11 , 12 } a moda é igual a 10. Há séries nas quais não exista valor modal, isto é, nas quais nenhum valor apareça mais vezes que outros. Ex: { 3 , 5 , 8 , 10 , 12 } não apresenta moda. A série é amodal.
.Em outros casos, pode haver dois ou mais valores de concentração. Dizemos, então, que a série tem dois ou mais valores modais. Ex: { 2 , 3 , 4 , 4 , 4 , 5 , 6 , 7 , 7 , 7 , 8 , 9 } apresenta duas modas: 4 e 7 A série é bimodal.
Moda quando os dados estão agrupados • Sem intervalos de classe: • Uma vez agrupados os dados, é possível determinar imediatamente a moda: basta fixar o valor da variável de maior freqüência. • Ex: Qual a temperatura mais comum medida no mês abaixo: Resp.: 2º C é a temperatura modal, pois é a de maior freqüência.
b) Com intervalos de classe: A classe que apresenta a maior freqüência é denominada classe modal. Pela definição, podemos afirmar que a moda, neste caso, é o valor dominante que está compreendido entre os limites da classe modal. O método mais simples para o cálculo da moda consiste em tomar o ponto médio da classe modal. Damos a esse valor a denominação de moda bruta. onde li = limite inferior da classe modal e Li = limite superior da classe modal.
Ex: Calcule a estatura modal conforme a tabela abaixo. Resposta: a classe modal é 58|-------- 62, pois é a de maior freqüência. li= 58 e Li = 62 ( este valor é estimado, pois não conhecemos o valor real da moda).
Mediana A mediana representa o elemento que se encontra no centro da distribuição, quando a seqüência de dados se apresenta ordenada de forma crescente ou decrescente, cortando, assim, a distribuição em duas partes com o mesmo número de elementos.
A mediana em dados não-agrupados Dada uma série de valores como, por exemplo: { 5, 2, 6, 13, 9, 15, 10 } De acordo com a definição de mediana, o primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores: { 2, 5, 6, 9, 10, 13, 15 } O valor que divide a série acima em duas partes iguais é igual a 9, logo a Md = 9.
Método prático para o cálculo da Mediana: Se a série dada tiver número ímpar de termos: O valor mediano será o termo de ordem dado pela fórmula : Ex: Calcule a mediana da série { 1, 3, 0, 0, 2, 4, 1, 2, 5 } 1º - ordenar a série { 0, 0, 1, 1, 2, 2, 3, 4, 5 } n = 9 logo (n + 1)/2 é dado por (9+1) / 2 = 5, ou seja, o 5º elemento da série ordenada será a mediana A mediana será o 5º elemento = 2
Se a série dada tiver número par de termos: O valor mediano será o termo de ordem dado pela fórmula : Obs: n/2 e (n/2 + 1) serão termos de ordem e devem ser substituídos pelo valor correspondente.
Ex: Calcule a mediana da série { 1, 3, 0, 0, 2, 4, 1, 3, 5, 6 } 1º - ordenar a série { 0, 0, 1, 1, 2, 3, 3, 4, 5, 6 } n = 10 logo a fórmula ficará: 5º termo = 2 6º termo = 3 A mediana será Md = 2,5 . A mediana no exemplo será a média aritmética do 5º e 6º termos da série.
Notas: • Quando o número de elementos da série estatística for ímpar, haverá coincidência da mediana com um dos elementos da série. • Quando o número de elementos da série estatística for par, nunca haverá coincidência da mediana com um dos elementos da série. A mediana será sempre a média aritmética dos 2 elementos centrais da série. • Em uma série a mediana, a média e a moda não têm, necessariamente, o mesmo valor. • A mediana, depende da posição e não dos valores dos elementos na série ordenada. Essa é uma da diferenças marcantes entre mediana e média ( que se deixa influenciar, e muito, pelos valores extremos). Vejamos: Em { 5, 7, 10, 13, 15 } a média = 10 e a mediana = 10 Em { 5, 7, 10, 13, 65 } a média = 20 e a mediana = 10 • isto é, a média do segundo conjunto de valores é maior do que a do primeiro, por influência dos valores extremos, ao passo que a mediana permanece a mesma.
A mediana em dados agrupados • Sem intervalos de classe: • Neste caso, é o bastante identificar a freqüência acumulada imediatamente superior à metade da soma das freqüências. A mediana será aquele valor da variável que corresponde a tal freqüência acumulada.
Ex.: conforme tabela abaixo: Quando o somatório das freqüências for ímpar o valor mediano será o termo de ordem dado pela fórmula : Como o somatório das freqüências = 35 a fórmula ficará: ( 35+1 ) / 2 = 18º termo = 3
Quando o somatório das freqüências for par o valor mediano será o termo de ordem dado pela fórmula: Ex: Calcule Mediana da tabela abaixo: Aplicando fórmula acima teremos:[(8/2)+ (8/2+1)]/2 = (4º termo + 5º termo) / 2 = (15 + 16) / 2 = 15,5
b) Com intervalos de classe: Devemos seguir os seguintes passos: 1º) Determinamos as freqüências acumuladas ; 2º) Calculamos 3º) Marcamos a classe correspondente à freqüência acumulada imediatamente superior à . . Tal classe será a classe mediana ; 4º) Calculamos a Mediana pela seguinte fórmula:
li = é o limite inferior da classe mediana. FAA = é a freqüência acumulada da classe anterior à classe mediana. f = é a freqüência simples da classe mediana. h = é a amplitude do intervalo da classe mediana.
Exemplo: OBS: Esta mediana é estimada, pois não temos os 40 valores da distribuição.
Medidas de Dispersão Vimos que a moda, a mediana e a média aritmética possuem a função de representar, a partir de um único número, a seqüência a ser analisada. Porém, tal método ainda é muito incompleto para que nós possamos tirar alguma conclusão sobre o trabalho. É necessário que possamos enxergar algo mais nessa seqüência que estamos analisando, como, por exemplo, uma certa “personalidade” da seqüência.
Observe a seguinte situação: quatro turmas do 3º ano do Ensino Médio fizeram uma prova de estatística e quando o professor verificou a média das notas de cada turma, constatou que, em cada uma das quatro turmas, a média dos alunos foi igual a 6,0. E aí? Será que podemos concluir que o desempenho das quatro turmas foi o mesmo? Será que todos os alunos, de todas as turmas, tiraram nota 6,0 na prova? É óbvio que, nesse momento, o bom senso fala mais alto e podemos, no mínimo, desconfiar de que não. Pois é exatamente aí que reside a tal “personalidade” que podemos atribuir a cada turma em relação ao comportamento das notas.
O que quero dizer é que, com as medidas de dispersão, seremos capazes de verificar que, por mais que a média das turmas na prova de estatística tenha sido 6,0, poderemos com tais medidas determinar as turmas que tiveram um comportamento homogêneo, em que os alunos tiraram notas próximas de 6,0, como também determinar as turmas que tiveram um comportamento heterogêneo em relação à nota 6,0, ou seja, por mais que a média tenha sido 6,0, as notas não foram próximas de 6,0.
Desvio Absoluto Médio Como a palavra desvio está associada à diferença, temos que, o desvio deve ser empregado com a diferença do elemento analisado em relação à média, ou seja, o quanto o elemento se afasta da média da seqüência. Daí, é importante perceber que essa diferença deve ser necessariamente trabalhada em módulo, pois não tem sentido a distância negativa. E o desvio médio, então, passa a ser encontrado a partir da média aritmética de todos os desvios. Daí, temos:
Exemplo Então, na tabela acima, temos que:
Variância A variância é uma medida de dispersão muito parecida com o desvio médio, a única diferença em relação a este é que, na variância, ao invés de trabalharmos em módulo as diferenças entre cada elemento e a média, tomamos os quadrados das diferenças. Isso se dá pelo fato de que, elevando cada diferença ao quadrado, continuamos trabalhando com números não negativos, como também pelo fato de que, em procedimentos estatísticos mais avançados, tal método facilita futuras manipulações algébricas.
Exemplo Ainda tomando como exemplo a situação anterior, teremos:
Desvio-padrão Para entendermos o procedimento para o cálculo do desvio-padrão, é interessante percebermos que, no cálculo da variância, cometemos um “erro técnico” que será corrigido pelo desvio-padrão, ou seja, no momento em que elevamos ao quadrado as dispersões (diferenças) de cada elemento em relação à média, automaticamente alteramos a unidade de trabalho. Por exemplo: se estivermos trabalhando com a coleta das alturas, em metro, das pessoas de uma determinada comunidade, a unidade da variância encontrada será o m² (metro quadrado), que representa áreas. E é aí que entra o desvio-padrão, ou seja, extraindo a raiz quadrada da variância. Então, se no exemplo do item anterior a variância encontrada foi 345,57, temos que o desvio-padrão foi de
1ª Questão Observe os gráficos a seguir, que representam em reais, as vendas e os lucros anuais de uma empresa no período de 1990 a 1995. • De acordo com os gráficos, calcule: • a média, em milhões de reais, das vendas dessa empresa no período considerado; • b) a razão entre o lucro e a venda em 1992.
2ª Questão O gráfico abaixo refere-se ao volume de investimentos de capital estrangeiro, segundo o Banco Central. Com base no gráfico, analise e julgue os itens seguintes. (1) No ano de 1993, houve uma redução nos investimentos, em relação à media dos quatro anos anteriores. (2) A média dos valores investidos no país de 1989 a 1994 corresponde a menos de 30% do montante investido apenas no ano de 1995.
3ª Questão Uma prova foi aplicada em duas turmas distintas. Na primeira, com 30 alunos, a média aritmética das notas foi 6,40. Na segunda, com 50 alunos, foi 5,20. A média aritmética dos 80 alunos foi: a) 5,65 b) 5,70 c) 5,75 d) 5,80
4ª Questão: Uma prova continha cinco questões, cada uma valendo dois pontos. Em sua correção, foram atribuídas a cada questão apenas as notas 0 ou 2, caso a resposta estivesse, respectivamente, errada ou certa. A soma dos pontos obtidos em cada questão forneceu a nota do aluno. Ao final da correção, produziu-se a seguinte tabela, contendo a porcentagem de acertos em cada questão. Logo, a média das notas da prova foi: a) 3,8 b) 4,0 c) 4,4 d) 4,6 e) 4,2
5ª Questão: O gráfico indica o resultado de uma pesquisa sobre o número de acidentes ocorridos com 42 motoristas de táxi em uma determinada cidade, no período de um ano. Com base nos dados apresentados no gráfico, e considerando que quaisquer dois motoristas não estão envolvidos num mesmo acidente, pode-se afirmar que: a) cinco motoristas sofreram pelo menos quatro acidentes. b) 30% dos motoristas sofreram exatamente dois acidentes. c) a média de acidentes por motorista foi igual a três. d) o número total de acidentes ocorridos foi igual a 72. e) trinta motoristas sofreram no máximo dois acidentes.
6ª Questão Num curso de iniciação à informática, a distribuição das idades dos alunos, segundo o sexo, é dada pelo gráfico seguinte. Com base nos dados do gráfico, pode-se afirmar que: a) o número de meninas com, no máximo, 16 anos é maior que o número de meninos nesse mesmo intervalo de idades. b) o número total de alunos é 19. c) a média de idade das meninas é 15 anos. d) o número de meninos é igual ao número de meninas. e) o número de meninos com idade maior que 15 anos é maior que o número de meninas nesse mesmo intervalo de idades.
7ª Questão A tabela abaixo mostra as quantidades diárias (em toneladas) de lixo recolhido em uma praia durante os 5 primeiros dias de janeiro. Se, nesse período, a quantidade média diária foi 2,4 toneladas, qual o valor de a? a) 1,5 b) 1,1 c) 4,5 d) 0 e) 2,2