480 likes | 598 Views
Mestrado Profissional em Gestão Ambiental. Simulações Gráficas e Numéricas Interativas Aplicadas ao Meio Ambiente. Marco Domingues marcodomingues@ recife.ifpe.edu.br. Introdução à estatística. Definição da estatística. Classificação de dados. Planejamento de experimentos.
E N D
Mestrado Profissional em Gestão Ambiental Simulações Gráficas e Numéricas Interativas Aplicadas ao Meio Ambiente Marco Domingues marcodomingues@recife.ifpe.edu.br
Introdução à estatística • Definição da estatística. • Classificação de dados. • Planejamento de experimentos.
O QUE É ESTATÍSTICA ? • A estatística envolve técnicas para coletar, organizar, descrever, analisar e interpretar dados, ou provenientes de experimentos, ou vindos de estudos observacionais.
O QUE É ESTATÍSTICA ? • Estudos observacionais • Ex: acompanhar o desempenho produtivo com a aplicação de um plano de manejo sustentável para o solo de uma região. • Experimentos • Ex: alterar as variáveis do processo de forma proposital para verificar seus efeitos nos resultados.
Processo iterativo das pesquisas empíricas ? Pesquisa Dados Informações Novos conhecimentos, novos problemas
Como vamos estudar estatística neste curso? • Técnicas de amostragem e planejamento de experimentos • Coleta de observações ou dados • Análise exploratória dos dados • Extrair informações das observações • Estudos probabilísticos • Modelar fenômenos aleatórios verificados nos dados observados e explicá-los
Como vamos estudar estatística neste curso? • Inferências estatísticas • Realizar generalizações da análise de amostras para a população de onde elas foram extraídas. • Modelos de simulação computacional • Criação de modelos de simulação aplicados a problemas ambientais
Algumas definições importantes? • Tipos de experimento • Se tomarmos um determinado sólido, sabemos que a uma certa temperatura haverá a passagem para o estado líquido: Experimento Determinístico. • Quais as chances das vendas de uma empresa crescerem? Existem dois resultados possíveis: as vendas crescem ou não crescem: Experimento aleatório
Algumas definições importantes? • Exemplos • O aumento da produção industrial automotiva eleva a percepção de congestionamento urbano: Experimento Determinístico. • Estima-se que uma tartaruga marinha bote entre 60 e 120 ovos por ninho. Qual será a quantidade de ovos da próxima ninhada? : Experimento aleatório
Algumas definições importantes? • População • conjunto de todos os resultados. • Amostra • subconjunto da população • Exemplo: • Em um levantamento perguntou-se a 3002 adultos da cidade de Recife se liam as notícias na Internet pelo menos uma vez por semana. 600 adultos responderam sim.
Algumas definições importantes? • Parâmetro • É uma medida numérica que descreve alguma característica de uma população. • Estatística • É uma medida numérica que descreve alguma característica de uma amostra.
Algumas definições importantes? • Exemplo - Parâmetro • Na cidade de Recife há 534 botões que os pedestres podem acionar nos cruzamentos de ruas. Descobriu-se em um levantamento que 77% deles não funcionam. O número 77% é um parâmetro pois se baseia na população inteira dos 534 botões de tráfego para pedestre.
Algumas definições importantes? • Exemplo - Estatística • Com base numa amostra de 877 executivos pesquisados na cidade de São Paulo, descobriu-se que 45% deles não contratariam alguém que cometesse um erro tipográfico em sua solicitação de emprego. Esse número de 45% é uma estatística, pois se baseia em uma amostra, não na população inteira de todos os executivos.
Algumas definições importantes? • Amostragem • Processo de seleção de amostra. • Amostra aleatória simples • O processo de seleção de elementos é feito por sorteio, fazendo com que todos os elementos da população tenham a mesma chance de ser escolhidos.
Algumas definições importantes? • Exemplo • Considere uma indústria processadora de sucos de frutas. Ao receber um carregamento de laranjas, os técnicos fazem inspeção da qualidade nas frutas. Examinam uma amostra de 5 caixas, tomadas de forma aleatória dentre toda a população de caixas do carregamento.
Algumas definições importantes? • Algumas características (ou variáveis) podem ser observadas nas 5 caixas: • Classificação das laranjas como: ótima, boa, regular, ruim ou péssima (qualitativo ou categórico) • Número de laranjas não aproveitáveis por caixa (quantitativo) • Peso de cada caixa de laranja • Etc.
Algumas definições importantes? • Variável aleatória • Pode ser entendida como uma variável quantitativa, cujo resultado depende de fatores aleatórios • No exemplo das laranjas, ao contarmos o nº de laranjas não aproveitáveis em cada uma das caixas amostradas, temos um conjunto de 5 valores, digamos {4,6,2,3,0} que corresponde à amostra efetivamente observada da variável aleatória.
Algumas definições importantes? • Variável aleatória • X = número de laranjas não aproveitáveis por caixa • Estimativa – valor resultante do cálculo de uma estatística, quando usado para se ter uma ideia do parâmetro de interesse.
Algumas definições importantes? • Média • Sejam n observações de uma variável aleatória, a média amostral é dada por
Algumas definições importantes? • Média • Caso conheçamos todas as possíveis observações de X, a média populacional é dada por
Algumas definições importantes? • Desvios • Em relação à média (medida de centro) • Dados os valores das observações
Algumas definições importantes? • Desvios • Em relação à média (medida de centro)
Algumas definições importantes? • Graus de Liberdade dos desvios • Os valores dos n desvios não são nulos • Os desvios têm soma nula • Os desvios têm (n – 1) graus de liberdade
Algumas definições importantes? • Variância (amostral) • Média aritmética dos desvios quadráticos (para eliminar os desvios negativos)
Algumas definições importantes? • Variância (populacional) • Média aritmética dos desvios quadráticos (para eliminar os desvios negativos)
Algumas definições importantes? • Desvio padrão • Raíz quadrada da variância e tem a mesma unidade dos dados
Algumas definições importantes? • Estimador não enviesado ou não viesado • Ex: a média amostral é um estimador não enviesado da média populacional • Significa que a média da amostra é um bom representante da média populacional
Algumas definições importantes? • Sabe-se que o chumbo tem alguns efeitos adversos à saúde. Foram coletadas medidas das qtde de Pb(em microgramas por metro cúbico) no ar. O máximo permitido é de 1,5µg/m3. Foram coletadas amostras da qtde de chumbo logo após a queda do WTC. 5,40; 1,10; 0,42; 0,73; 0,48; 1,10
Algumas definições importantes? • Utilize o R para calcular a média, mediana, moda e ponto médio
Operações estatísticas • Média aritmética • mean(<nome do vetor>) • Mediana • median(<nome do vetor>) • Desvio padrão • sd(<nome do vetor>)
Exemplos • Média aritmética • mean(peso) ou • Media = sum (peso) / length (peso) • Mediana • median(<nome do vetor>) ou • hist (peso) • Desvio padrão • sd(peso) ou • mediaPeso= sum (peso) / length (peso) • sqrt (sum((peso - mediaPeso) ^ 2)/ (length (peso) - 1))
Operações estatísticas • Variância • var (<nome do vetor>) • Covariância • cov(<nome do vetor 1>, <nome do vetor 2>) • Correlação • cor(<nome do vetor 1>, <nome do vetor 2>) • Regressão simples • lm (y~x)
Missing values • Algumas operações podem retornar resultados “inexistentes”, chamados “missing values” • Inf: infinito positivo • -Inf: infinito negativo • NaN: “Not a Number” • NA: “Not Available”
Missing values • Existem funções para testar se algum desses valores foi retornado • is.finite(x) • is.infinite(x) • is.nan(x) • onde x pode ser um vetor
exemplos • is.finite (peso[5]) • is.finite (peso[5]/0) • is.na (peso[10])
Geração de números • Uniformes • runif(n, min, max) • Normais • rnorm(n, média, desvio padrão) • t-Student • rt(n, graus de liberdade) • Qui-Quadrado • rchisq(n, graus de liberdade)
Geração de gráficos • x=c(1:9) • y=c(1:9) • plot(x,y) • plot(x,y,xlab="valores de x", ylab="valores de y") • plot(x,y,type="l")
Geração de gráficos • x=rnorm(500,0,1) • mean(x) • median(x) • sd(x) • var(x)
Lendo arquivos de dados • O arquivo datafile.dat é composto pelos seguintes dados: tamanho_lote homens_hora 30 73 20 50 60 128 80 170 40 87 50 108 60 135 30 69 70 148 60 132
Lendo arquivos de dados • Ajustando o diretório de trabalho • setwd("c:/tmp") • Para ler arquivos com nomes de colunas na primeira linha, use • dataset <- read.table ("datafile.dat", header=TRUE) • Para obter os vetores • dataset$tamanho_lote • dataset$homens_hora
Lendo arquivos – parte II • Ajustando o diretório de trabalho • setwd("c:/tmp") • Para ler arquivos sem nomes de colunas na primeira linha, use • dataset <- scan ("datafile2.dat", what=list (x=0,y=0)) • Para obter os vetores • dataset$x • dataset$y
Lendo arquivos de dados • O arquivo datafile3.dat é composto por dados que representam o nome do aluno e a natureza do ensino de nível médio joao publico mario privado cristiano privado maria publico talita privado mariana privado adelia publico monique publico carlos privado bruno privado
Lendo arquivos – parte III • Ajustando o diretório de trabalho • setwd(“c:/temp") • Para ler arquivos com nomes de colunas na primeira linha, use • dataset <- scan ("datafile3.dat", what=list (x="",y= "")) • trabalho = scan("datafile2.dat", what=list (x=0,y=0)) • Para obter os vetores • dataset$x • dataset$y
Lendo arquivos – parte IV • Para ler arquivos separados por vírgula ou ponto e vírgula, use • dados <-read.csv("dados.csv", sep=";", dec=",",header=FALSE) • Para obter os vetores • dados$x • dados$y
Entrando com dados no R • Usando a função edit() • dados <- edit(data.frame())
Usando pacotes • Carregando um pacote no workspace • library (<nome do pacote>) • Site com pacotes de colaboradores • http://cran.r-project.org/web/packages/ • Instalando pacotes • options (CRAN="http://cran.r-project.org") • Install.packages (“<nome do pacote>”)
Conselhos úteis • Ler os manuais no site do projeto CRAN • Usar a página wiki do projeto CRAN • http://wiki.r-project.org/ • Usar http://www.rseek.org/ao invés do google • Aprender com os errros • ?lm dá uma ajuda sobre a função lm. Ler arquivos de help pode ajudar bastante • Assine a lista do R • (https://stat.ethz.ch/mailman/listinfo/r-help) • Crie seu script personalizado de bibliotecas
Mestrado Profissional em Gestão Ambiental Simulações Gráficas e Numéricas Interativas Aplicadas ao Meio Ambiente Marco Domingues marcodomingues@recife.ifpe.edu.br