1 / 71

TÉCNICAS DE ANÁLISE DE DADOS

TÉCNICAS DE ANÁLISE DE DADOS. PTR5802 Técnicas de Análise de Dados Aplicadas à Engenharia de Transportes 2 o . PERÍODO DE 2009 RESPONSÁVEIS: Prof. José Alberto Quintanilha Prof. Hugo Pietrantonio. TÉCNICAS DE ANÁLISE DE DADOS. INTRODUÇÃO REVISÃO VARIÁVEIS ALEATÓRIAS

Download Presentation

TÉCNICAS DE ANÁLISE DE DADOS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TÉCNICAS DE ANÁLISE DE DADOS PTR5802 Técnicas de Análise de Dados Aplicadas à Engenharia de Transportes 2o. PERÍODO DE 2009 RESPONSÁVEIS: Prof. José Alberto Quintanilha Prof. Hugo Pietrantonio

  2. TÉCNICAS DE ANÁLISE DE DADOS • INTRODUÇÃO • REVISÃO • VARIÁVEIS ALEATÓRIAS • DISTRIBUIÇÕES DE PROBABILIDADE USUAIS • ESTIMAÇÃO E TESTES DE HIPÓTESES • AMOSTRAGEM • CORRELAÇÃO • REGRESSÃO BIVARIADA

  3. TÉCNICAS DE ANÁLISE DE DADOS • INTRODUÇÃO • Objetivos da disciplina • Programa da disciplina • Listas • Provas • Software • Bibliografia • Artigos • seminários • Avaliação

  4. TÉCNICAS DE ANÁLISE DE DADOS - revisão • TIPOS DE VARIÁVEIS • QUALITATIVAS • ORDINAIS • NOMINAIS • QUANTITATIVAS • DISCRETAS • CONTÍNUAS

  5. Categóricas Numéricas Ordinal (classificação) Nominal (classificação) Contínua (mensuração) Discreta (contagem) pressão sangüínea (baixa, normal, alta) sexo, raça, região, grupo sangüíneo Número de acidentes, número de filhos Peso, altura, pressão sangüínea III – Tipos de variáveis geradoras de dados (Clóvis de Araújo Peres/SINAPE2006)

  6. QUALITATI-VAS QUANTITATI-VAS Ordinal (c/ordem) Nominal (s/ordem) Contínua (mensuração) Discreta (contagem) Grau instrução Opinião pública Pequeno/ médio/grande Sexo sim/não Tem/não tem # de acidentes, fluxo veicular, # de defeitos por unidade Peso, altura, preço VARIÁVEIS

  7. TÉCNICAS DE ANÁLISE DE DADOS - revisão • VARIÁVEIS ALEATÓRIAS • INDEPENDENTES x MUTUAMENTE EXCLUSIVAS

  8. TÉCNICAS DE ANÁLISE DE DADOS - revisão • DISTRIBUIÇÕES DE PROBABILIDADE USUAIS • Normal • Binomial • Poisson • Exponencial • CONJUNTAS • CONDICIONAIS

  9. Conceitos: • Espaço Amostral:Conjunto de todos os resultados, inteiros não-negativos, possíveis do experimento; • Variável Aleatória:É uma função avaliada numericamente e definida no espaço amostral; • Histograma:É um dos tipos de gráficos mais utilizados para representar as frequências de uma variável aleatória;

  10. Conceitos: • Distribuições de Probabilidade:Modelo Estatístico da ocorrência de valores (aleatórios) de um certo evento; • Discretas:A Função Distribuição Cumulativa Discreta é obtida pelas variáveis aleatórias discretas, que são aquelas que assumem um conjunto de valores finito ou infinito contável; • Contínuas:A Função Distribuição Cumulativa Contínua é obtida pelas variáveis aleatórias contínuas, que são aquelas que assumem uma série contínua de valores;

  11. Principais Distribuições Aplicadas aos Transportes

  12. TÉCNICAS DE ANÁLISE DE DADOS - revisão • Binomial • Binomial negativa • Geométrica • Hipergeométrica • Normal

  13. TÉCNICAS DE ANÁLISE DE DADOS - revisão • DISTRIBUIÇÃO BINOMIAL Definição Considerepa probabilidade de um evento ocorrer em uma tentativa única (probabilidade de sucesso) eq = 1-pa de que o evento não ocorra em qualquer tentativa única (probabilidade insucesso), então a probabilidade do evento acontecer exatamentexvezes, emntentativas (xsucessos en-xinsucessos) é definida por:

  14. DISTRIBUIÇÃO BINOMIAL NEGATIVA • Para apresentar a distribuição binomial negativa, faremos uma análise do que foi apresentado na distribuição binomial. • O ponto de partida é o processo de Bernoulli, definido como o experimento aleatório cujo espaço amostral tem apenas dois possíveis resultados mutuamente excludentes denominados sucessoe falha, sendo  a probabilidade de sucesso. • Se o processo Bernoulli for repetido n vezes, considerando que as experiências são independentes, então a variável aleatória X que define o número de sucessos do experimento terá distribuição binomial. Observe que, na distribuição binomial, o número de experimentos n é definido antecipadamente.

  15. Em vez de repetir o experimento um número determinado de vezes, pode-se estabelecer que o experimento seja repetido até conseguir o primeiro resultado sucesso. Nesse caso, a variável aleatória X que define o número de experimentos necessários até conseguir o primeiro resultado sucesso tem uma distribuição geométrica. • Ampliando as premissas da distribuição geométrica, em vez de repetir o experimento até conseguir o primeiro resultado sucesso, a distribuição binomial negativa, conhecida também como Distribuição de Pascal, permite determinar a probabilidade de que será necessário realizar exatamente n experimentos para obter x resultados de sucesso com probabilidade .

  16. DISTRIBUIÇÃO HIPERGEOMÉTRICA • A distribuição hipergeométrica não é derivada da distribuição binomial, pois os experimentos são dependentes. • Numa população composta de N objetos que podem ser classificados em duas categorias, C1 e C2, de forma que na população há N1 em C1 e N2 em C2, desejamos retirar uma amostra sem reposição de n objetos dessa população, selecionando x objetos de C1 e (n-x) objetos de C2.

  17. TÉCNICAS DE ANÁLISE DE DADOS - revisão

  18. TÉCNICAS DE ANÁLISE DE DADOS - revisão • Normal padrão: xi - média dos x’s zi = ------------------------------- desvio padrão dos x’s Onde xi~N(média, d.p.) e zi ~N(0,1)

  19. TÉCNICAS DE ANÁLISE DE DADOS - revisão • Poisson • Exponencial • Gama • Erlang

  20. TÉCNICAS DE ANÁLISE DE DADOS - revisãoDistribuições Discretas • Distribuição de Poisson: Probabilidade: Aplicação: Esta distribuição é frequentemente usada para análise do número de chegadas de clientes num tempo fixado, demanda de um determinado produto etc.

  21. TÉCNICAS DE ANÁLISE DE DADOS - revisãoDistribuição de Poisson:

  22. TÉCNICAS DE ANÁLISE DE DADOS - revisãoDistribuição de Poisson:

  23. TÉCNICAS DE ANÁLISE DE DADOS - revisãoDistribuições Contínuas • Distribuição Exponencial: Função Densidade de Probabilidade: Aplicação: Esta distribuição é usada para análide do tempo entre a chegada de clientes, o tempo de duração de conversas telefônicas e o tempo de vida de componentes eletrônicos.

  24. TÉCNICAS DE ANÁLISE DE DADOS - revisãoDistribuição Exponencial

  25. TÉCNICAS DE ANÁLISE DE DADOS - revisãoDistribuição Exponencial

  26. TÉCNICAS DE ANÁLISE DE DADOS - revisãoDistribuições Contínuas • Distribuição Gama: Função Densidade de Probabilidade: Aplicação: Esta distribuição é útil como uma representção matemática de fenômenos físicos ou para análide do tempo total para servir n clientes (independentes), lembrando que para o tempo de serviço para um cliente individualmente seja uma distribuição exponencial.

  27. TÉCNICAS DE ANÁLISE DE DADOS - revisãoDistribuições Gama

  28. TÉCNICAS DE ANÁLISE DE DADOS - revisão • Distribuição Erlang: Função Densidade de Probabilidade: Aplicação: A análise de chegadas por esta distribuição, engloba o tempo de atendimento e tempo em fila, Morse (1967). Para r = 1 tem-se uma dist. Exp. E o processo de chegada é Poissoniano. Para r , chega-se a situação determinística. :

  29. TÉCNICAS DE ANÁLISE DE DADOS - revisãoDistribuições de Erlang

  30. TÉCNICAS DE ANÁLISE DE DADOS - revisão • Probabilidade condicional: • P(X e wi) • p(X|wi) = -------------------- • P(wi)

  31. TÉCNICAS DE ANÁLISE DE DADOS - revisão • ESTIMAÇÃO E TESTES DE HIPÓTESES • Estimadores pontuais e por intervalos • Comparação entre médias • Pareado • Independentes

  32. TÉCNICAS DE ANÁLISE DE DADOS - revisão • Estimadores pontuais e por intervalos

  33. TÉCNICAS DE ANÁLISE DE DADOS - revisão • Estimação da média Objetivo Estimar a média µ de uma variável aleatória X, que representa uma característica de interesse de uma população, a partir de uma amostra.

  34. TÉCNICAS DE ANÁLISE DE DADOS - revisão • Vamos observar n elementos, extraídos ao acaso da população; • Para cada elemento selecionado, observamos o valor da variável X de interesse. • Obtemos, então, uma amostra aleatória de tamanho n de X, que representamos por X1, X2, ..., Xn.

  35. TÉCNICAS DE ANÁLISE DE DADOS - revisão • Um estimador pontual µ para é dado por: X1 + X2+ ...+ Xn n Xbarra = -------------------------- = ∑ Xi n i=1

  36. TÉCNICAS DE ANÁLISE DE DADOS - revisão • TEOREMA CENTRAL DO LIMITE Seja X uma v. a. que tem média µe variância σ2. Para amostras X1, X2, ..., Xn, retiradas ao acaso e com reposição de X, a distribuição de probabilidade da média amostral aproxima-se, para n grande, de uma distribuição normal, com média µe variância σ2 / n , ou seja, Xbarra ~ N(µ; σ2 / n )

  37. TÉCNICAS DE ANÁLISE DE DADOS - revisão • Comentário: Se a distribuição de X é normal, então Xbarra tem distribuição normal . O desvio padrão √(σ2 / n) = (σ/√n) é denominado erro padrão da média.

  38. TÉCNICAS DE ANÁLISE DE DADOS - revisão • Um estimador intervalar ou intervalo de confiança para µ tem a forma: [Xbarra – є; Xbarra + є] sendo є o erro amostral (margem de erro) calculado a partir da distribuição de probabilidade de Xbarra.

  39. TÉCNICAS DE ANÁLISE DE DADOS - revisão • Seja P(є) = γ, a probabilidade do intervalo: [µ– є; µ+ є] conter a média amostral Xbarra numa distância de, no máximo є, da média populacional µ (desconhecida), ou seja, γ=P(| Xbarra - µ |<ou= є)=P(µ– є< Xbarra<µ+ є)

  40. TÉCNICAS DE ANÁLISE DE DADOS - revisão γ=P(| Xbarra - µ |<ou= є)=P(µ– є< Xbarra<µ+ є) = P[– є/(σ/√n) < (Xbarra-µ)/(σ/√n)<є/(σ/√n)] = P[– є/(σ/√n) <Z <є/(σ/√n)] sendo Z ~ N(0,1)

  41. TÉCNICAS DE ANÁLISE DE DADOS - revisão Fazendo z= є/(σ/√n): γ =P(-z< Z<z), γ é o coeficiente de confiança.

  42. TÉCNICAS DE ANÁLISE DE DADOS - revisão • O intervalo de confiança para a estimativa intervalar da média µ, com coeficiente de confiança γ, é dado por: [Xbarra– z(σ/√n); Xbarra+ z(σ/√n)].

  43. TÉCNICAS DE ANÁLISE DE DADOS - revisão • Estimação para a proporção populacional p Estimar uma proporção p (desconhecida) de elementos em uma população, apresentando certa característica de interesse, a partir da informação fornecida por uma amostra.

  44. TÉCNICAS DE ANÁLISE DE DADOS - revisão • A partir de n elementos, extraídos ao acaso e com reposição da população, verificamos, para cada elemento selecionado, a presença (sucesso) ou não (fracasso) da característica de interesse.

  45. TÉCNICAS DE ANÁLISE DE DADOS - revisão • Um estimador pontual p, também denominado proporção amostral para é dado por: Pchapéu= X/n X = no. de elementos na amostra queapresentam a característica; n = o tamanho da amostra coletada.

  46. TÉCNICAS DE ANÁLISE DE DADOS - revisão • A estimativa intervalar corresponde a um intervalo determinado da seguinte maneira: [Pchapéu– є; Pchapéu+ є] sendo є o erro amostral ou margem de erro.

  47. TÉCNICAS DE ANÁLISE DE DADOS - revisão Neste caso: P(є)= γ =P (| Pchapéu- P |<ou= є é o coeficiente de confiança. Como X ~ b(n,p) temos que, para n grande, a variável aleatória X-np Z = ---------- √np(1-p) tem distribuição N(0,1) e, Є = z[√p(1-p)/n] e n= (z/ є)2[p(1-p)]

  48. TÉCNICAS DE ANÁLISE DE DADOS - revisão Comparação entre médias 1. Se um conjunto de medidas(amostra) faz parte de uma população. 1.1 Desvio padrão da população conhecido(teste –z) 1.2 Desvio padrão da população desconhecido(teste-t) 2. Se duas amostras são iguais (teste –t) 2.1 Comparação entre itens pareados 2.2 Amostras independentes Para os casos acima: H0: <m1> =<m2> H1: <m1> <m2> Veremos depois como podemos verificar se uma média é maior do que a outra. Estes testes são chamados de testes direcionais ou testes uni-caudais.

  49. TÉCNICAS DE ANÁLISE DE DADOS - revisão Método 1 Usando o limite de confiabilidade Passo zero: Enunciar as hipóteses: H0: m1= m H1 ( alternativa: ) m1  m Primeiro passo: Identificar o tipo de teste Desvio padrão conhecido : teste z Igualdade de médias: teste não direcional Segundo passo estimar o erro aceitável do tipo I ( alfa) ou nível de significância. É usual escolher alfa=0,05.Se possível determinar beta( probabilidade de erro do tipo 2) e Terceiro passo: coletar os dados ( n observações)

  50. TÉCNICAS DE ANÁLISE DE DADOS - revisão Método 1 Usando o limite de confiabilidade Quarto Passo . Calcular o erro padrão (Serro) ATENÇÃO! USAR O DESVIO PADRÃO DA POPULAÇÃO: Quinto passo. Calcular os limites de confiabilidade para a média, usando o valor de z ( z crítico) obtido a partir do valor de alfa escolhido : inv.normp(alfa/2) do excel. M+= <m1> + z * Serro e M- = <m1>- z* Serro Sexto passo. Verificar se a média desejada está dentro dos limites calculados. Se estiver, aceita-se (não podemos rejeitar H0) H0 m1 =m Se não estiver, rejeitamos H0 e aceitamos H1 m1  m Sétimo passo: fazer recomendações...( rejeitar lote, fazer mais medidas, aceitar lote, trocar fornecedor, trocar equipamento....)

More Related