690 likes | 789 Views
Mestrado Profissional em Gestão Ambiental. Simulações Gráficas e Numéricas Interativas Aplicadas ao Meio Ambiente. Marco Domingues marcodomingues@ recife.ifpe.edu.br. Conceitos teóricos Planejamento de uma pesquisa. Etapas usuais de uma pesquisa empírica . Definição do problema e objetivos.
E N D
Mestrado Profissional em Gestão Ambiental Simulações Gráficas e Numéricas Interativas Aplicadas ao Meio Ambiente Marco Domingues marcodomingues@recife.ifpe.edu.br
Conceitos teóricosPlanejamento de uma pesquisa • Etapas usuais de uma pesquisa empírica Definição do problema e objetivos Planejamento da pesquisa Metodologia da área de estudo Metodologia estatística Execução da pesquisa Dados (coletados/simulados) Análise de dados Resultados/Conclusões
Conceitos teóricosPlanejamento de uma pesquisa • Questão de projeto da pesquisa • Observacional (levantamento) • Censo demográfico, eleitorais, mercado, inspeção de qualidade de produtos, etc. • Experimental • Eficácia de produtos, processos químicos, métodos de produção, etc.
Conceitos teóricosPlanejamento de uma pesquisa • Pesquisa de levantamento • Delimitação da população • Censo ou amostragem • Escolha das variáveis estudadas • Índice de desmatamento, inflação, taxa de câmbio, selic, satisfação do cliente, etc. • Instrumentos para mensuração de variáveis • Sensores (grandezas físicas) e questionários
Conceitos teóricosPlanejamento de uma pesquisa • Pesquisa de levantamento • Sensores • Questionários • http://goo.gl/LvAe3s • Criando nosso próprio formulário de pesquisa on-line
Conceitos teóricosPlanejamento de uma pesquisa • Pesquisa de levantamento • Sensores • Questionários • http://goo.gl/LvAe3s e • Criando nosso próprio formulário de pesquisa on-line - http://goo.gl/eSALsl
Conceitos teóricosPlanejamento de uma pesquisa • Tipos de amostragem Inferência
Conceitos teóricosPlanejamento de uma pesquisa • Tipos de amostragem
Amostragem não probabilística • Amostra por conveniência • O pesquisador seleciona membros da população mais acessíveis. • Amostra por julgamento • O pesquisador usa o seu julgamento para selecionar os membros da população que são fontes de informação precisa. • Amostra por quota • O pesquisador entrevista um número predefinido de pessoas em cada uma das várias categorias.
Amostragem probabilística • Amostra aleatória simples • Cada membro da população tem uma chance conhecida e igual de ser escolhido. • Amostra estratificada • A população é dividida em grupos (estratos) mutuamente excludentes (como grupos de idade) e amostras aleatórias são sorteadas para cada grupo.
Amostragem probabilística • Amostra de agrupamento (área) • A população é dividida em grupos mutuamente excludentes (como quarteirões) e o pesquisador sorteia uma amostra de grupos para ser entrevistada.
Amostragem probabilística • Amostra sistemática • Calcula-se o intervalo de seleção – I=N/n (despreza-se as decimais); • Sorteia-se o primeiro elemento do conjunto {1,2,...,I}; • Completa-se a amostra, extraindo-se um elemento a cada I elementos
Amostragem probabilística • Exemplos de amostras com o auxílio do R (exemplo com o Excel) • Instale o pacote Xlconnect • Siga os passos do menu Package do R • library(XLConnect) • setwd=(“c:/temp”) • Link para o arquivo de dados – dados.xlsx (http://goo.gl/vu5Khm) • dados <- readWorksheet(loadWorkbook(“dados.xlsx"),sheet=1) • dados
Amostragem probabilística • Amostragem aleatória • sample (1:32,5) • dados$Nomes[sample (1:32,5)] • Amostragemsistemática • Considere N=32 e n=5, então I=6 • seq (1,32,by= 6) ou • dados$Nomes[seq (1,32,by=6)]
Amostragem probabilística • Amostragem Estratificada (Idade) • (Até 20 anos) • X = dados$Nomes [(dados$Idade < 20)] • sample (X,4) • (Entre 20 e 30 anos) • X = dados$Nomes [(dados$Idade >= 20) & (dados$Idade < 30)] • Jogando moedas com reposição • sample (c(“H”,”T”),10,replace=T)
Amostragem probabilística • Exercício • Dado que foram criados 3 estratos de pessoas separadas por idade (menores que 20 anos, entre 20 e 30 anos e maiores de 30 anos), faça: • A) selecione de forma aleatória simples 2 pessoas de cada estrato. • Selecione os moradores de Iputinga. • Jogando moedas com reposição • sample (c(“H”,”T”),10,replace=T)
Amostragem probabilística • Tamanho da amostra • Depende da variabilidade da população em termos da variável de estudo • Ex: quanto de sangue humano é necessário para determinação da tipagem? • Variabilidadedaproporção
Planejamento de experimentos (cont.) • Estudar os efeitos que alterações nas Variáveis independentes (fatores) causam nas variáveis dependentes (variáveis resposta) • Ex: Como o estresse afeta a freqüência cardíaca em humanos". • A variável independente será o estresse e a variável dependente será a freqüência cardíaca
Planejamento de experimentos (cont.) • Estudar os efeitos que alterações nas Variáveis independentes (fatores) causam nas variáveis dependentes (variáveis resposta) • Ex:“Efeito da educação sobre a riqueza" para medir o efeito do nível de escolaridade sobre a renda anual, a variável independente é o nível de escolaridade e a variável dependente é a renda anual.
Planejamento de experimentos (cont.) • Estratégias no planejamento de experimentos (simplificada) • Delimitar o problema; • Identificar os fatores que podem afetar o problema em estudo; • Identificar, para cada fator, o intervalo de variação e os níveis que serão estudados • Escolher os fatores e resposta adequada • Planejar a análise dos dados
Planejamento de experimentos (cont.) • Estratégias no planejamento de experimentos (simplificada)
Planejamento de experimentos (cont.) • Estratégias no planejamento de experimentos (simplificada) • Uso de blocos • Lotes, conjunto de indívíduos, etc. • Definição de Fatores • Controláveis e nãocontroláveis • Ex. Produção de TV´s • Umidade, tempo de operação, inclinação; • Níveis de tensão, faltas, etc. • Tratamentos • Seleção de fatores
Planejamento de experimentos (cont.) • Estratégias no planejamento de experimentos (simplificada) • Replicações • Avaliar o erro experimental (causadoporfatoresnãocontroláveisouquenãoforamincluídos no estudo) • Aleatorização
Planejamento de experimentos (cont.) • Estratégias no planejamento de experimentos • É importantíssimo que o aluno encontre o escopo do problema a ser tratado no mestrado.
Análise exploratória dos dados • Objetivos • Trabalhar com dados quantitativos contínuos: • Especificar intervalos de classe; • Construir histogramas; • Construir ramo-e-folhas. • Construiroutrostipos de gráficos
Exemplo 1: Tipo sangüíneo, peso (em Kg) e altura (em cm). A base de dados que será trabalhada hoje contém a informaçao de 100 indivíduos sobre tipo sangüíneo, peso (kg) e altura (cm). Forma dos dados na planilha com 100 linhas e três colunas. arquivo: dados1.txt Fonte: dados fictícios.
Análise exploratória dos dados Os dados deste exemplo podem ser obtidos como: dados=read.table(“http://goo.gl/qofEPw”) • Observe que aqui, não usamos o argumento header=T, pois os nomes das variáveis não estão no arquivo de dados. • Mas, se preferirmos, podemos definir os nomes das variáveis em dados. names(dados)<-c(“tsangue”,”peso”,”altura”)
Análise exploratória dos dados • VARIÁVEIS QUALITATIVAS • GRÁFICO DE SETORES pie(table(dados[,1]),main=”Distribuição de freqüências do tipo sangüíneo", col=c("blue",”blue4",”green",”green4"))
VARIÁVEIS QUALITATIVAS: GRÁFICO DE BARRAS barplot(table(dados$tsangue),col="red",main= "Distribuição de freqüências de tipo sangüíneo")
VARIÁVEIS QUALITATIVAS: GRÁFICO DE BARRAS barplot(table(dados$tsangue),col="red",main= "Distribuição de freqüências de tipo sangüíneo”,ylim=c(0,40))
VARIÁVEIS QUANTITATIVAS (1) • Veremos agora como construir a distribuição de freqüências de uma variável quantitativa. • Para isso usaremos os dados do exemplo referentes ao peso e à altura dos indivíduos.
VARIÁVEIS QUANTITATIVAS (4) • Vimos que no caso de dados contínuos, há a necessidade de se definir primeiro intervalos de classe para depois, construir a tabela de freqüências e, então, usá-la para construir o histograma. • O R possui uma função que pode gerar esta distribuição de forma automática.
VARIÁVEIS QUANTITATIVAS (5) • Esta função também tem a flexibilidade de nos permitir fixar os intervalos ou sugerir o número de intervalos. • Esta mesma função também gera o histograma dos dados e seu nome no R é hist.
Uso da função hist (2) Para começar peça a função histapenas com o argumento obrigatório que é um vetor contendo os valores para os quais queremos construir o histograma, isto é, peça hist(dados$peso).
Exemplo: argumentos breaks e freq hist(dados$peso,breaks=c(50,60,70,80,90,100),right=F,freq=F)
Exemplo (continuação) Para melhorar o gráfico podemos definir o título e os rótulos para os eixos ox e oy. hist(dados$peso,breaks=c(50,60,70,80,90,100),freq=F,right=F,main= “Histograma dos pesos”,xlab=“kg”,ylab=“dens.freq.rel”, density=6,col=“blue”)
Ramo e folhas de peso • Para estudarmos outras possibilidades de intervalos para o histograma de pesos, será útil construir um ramo-e-folhas dos pesos: stem(dados$peso). The decimal point is 1 digit(s) to the right of the | 5 | 79 6 | 12223344 6 | 56678888899 7 | 00000011111222222233333444 7 | 5555555666777788888889999 8 | 000111111111122223334 8 | 56667 9 | 4 9 | 6
Construindo 9 intervalos de classe A amplitude amostral é aproximadamente 96-57=39 Para 9 intervalos podemos calcular 39/9 que é 4.333..., e arredondando para 4,5 temos as amplitudes das classes. Observe que ficaremos com uma amplitude total igual à 9x4,5=40,5, que equivale quase 2 a mais. Podemos então repartir o excesso igualmente para cima e para baixo, começando com 56 e terminando em 97: hist(dados$peso,breaks=c(56,60.5,65,69.5,74,78.5,83,87.5,92,96.5), col=“palegreen”,main=“Histograma dos pesos”,xlab=“kg”, ylab=“dens.freq.rel.”,freq=F)
Numa distribuição de freqüências, não deve haver classes intermediárias vazias! Portanto, essa distribuição deve ser refeita. Possibilidades: sugerir 8 intervalos ou juntar as duas classes finais, passando a ter classes de amplitudes desiguais.
Construa o histograma usando 8 intervalos de classe. Sugestão:breaks=c(56,60.5,65,69.5,74,78.5,83,87.5,96.5)
Argumentos da função hist Argumentos: x (obrigatório): vetor de valores para os quais deseja-se construir o histograma. breaks(opcional): um entre * vetor fornecendo os limites dos intervalos de classe, * número fornecendo o número de intervalos (é apenas uma sugestão). right(opcional): lógica; se `right=T‘(default), as classes são fechadas à direita e abertas à esquerda. Se ‘ right=F´, as classes são fechadas à esquerda e abertas à direita.
Argumentos da função hist • freq(opcional): lógica; se `freq=T', o histograma é uma representação da distribuição na escala das freqüências absolutas, se `freq=F', é uma representação na escala da densidade de freqüência relativa, que é definida como a razão entre freqüência relativa e a amplitude da classe. • Observação: O Default da versão atual do R é usar freq=T, quando as classes têm amplitudes iguais e freq=F, quando as classes têm amplitudes desiguais.
O que mudou? freq=F freq=T
Exemplo (continuação) Para melhorar o gráfico podemos definir o título e os rótulos para os eixos ox e oy. hist(dados$peso,breaks=c(50,60,70,80,90,100),freq=F,right=F,main= “Histograma dos pesos”,xlab=“kg”,ylab=“dens.freq.rel”, density=6,col=“blue”)
Argumento density Inserindo o argumento density=4, obtemos
Mudando a escala dos eixos • Comandos xlim e ylim. • Para visualizar o eixo 0x de 40 até 110kg, inclua o argumento xlim=c(40,110). • Para visualizar o eixo 0y de 0 até 0.06, quando freq=F, inclua o argumento ylim=c(0,0.06).
ATIVIDADE 1) Construa agora o histograma das alturas com 7 intervalos de classe. 2) calcule a média das alturas nesta amostra e localize-a no histograma obtido no item 2.
Comando par(mfrow=c(l,n)) • É possível construir vários histogramas numa única janela de gráfico. • Por exemplo, se quisermos apresentar o histograma das alturas e o histograma dos pesos numa mesma janela, antes de pedir os histogramas, devemos informar que a janela conterá dois gráficos. • Podemos configurar a janela com dois gráficos numa única linha ou dois gráficos numa única coluna.
Comando par(mfrow=c(l,n)) • par(mfrow=c(1,2)) # uma linha duas colunas ou • par(mfrow=c(2,1)) # duas linhas uma coluna. • Depois é só pedir os respectivos histogramas. par(mfrow=c(1,2)) hist(dados$peso, main="Histograma dos pesos",xlab="Kg",freq=F, ylab="densidade de freq. rel.",ylim=c(0,0.07),xlim=c(50,110)) hist(dados$altura, main="Histograma das alturas",xlab="cm",freq=F, ylab="densidade de freq. rel.",ylim=c(0,0.06),xlim=c(130,200))