130 likes | 293 Views
AULA: 13-16. Análise Bidimensional. Prof. Víctor Hugo Lachos Dávila. Introdução. Freqüentemente estamos interessados em analisar duas variáveis conjuntamente. P.E. nos dados da empresa podemos estar interessados em comparar os salários dos casados e solteiros.
E N D
AULA: 13-16 Análise Bidimensional Prof. Víctor Hugo Lachos Dávila
Introdução • Freqüentemente estamos interessados em analisar duas variáveis conjuntamente • P.E. nos dados da empresa podemos estar interessados em comparar os salários dos casados e solteiros. • Quando consideramos duas variáveis, podemos ter 3 situações e as técnicas de análise são diferentes. • a) as duas qualitativas (tabela de contingência) • b) as duas quantitativas (gráficos de dispersão) • c) uma qualitativa e outra quantitativa (tabela de contingência) • É possível quantificar a relação entre as variáveis em estudo
Variáveis Qualitativas • Analisamos o comportamento conjunto de X: grau de instrução e Y: região de procedência. Tabela 1:Tabela de freqüências absolutas das variáveis X e Y Tabela de dupla entrada • Podemos construir tabelas de freqüências relativas. • Existe varias possibilidades de construção e depende do objetivo do problema.
Relativa ao total geral Tabela 1:Tabela de freqüências relativas ao total geral das variáveis X e Y • 11% dos empregados vêm da capital e tem ensino fundamental. • 31% dos indivíduos vêm da capital, 33% do interior e 36% de outras regiões. • 33% tem ensino fundamental.
Relativa ao total de colunas Tabela 1:Tabela de freqüências relativas ao total de coluna das variáveis X e Y • Entre os empregados com instrução até o ensino fundamental, 33% vêm da capital. • Entre os empregados com ensino médio, 28% vêm da capital. • Comparamos a distribuição da procedência conforme o grau de instrução. • De modo análogo, podemos construir a distribuição do grau de instrução conforme a procedência.!!!
Gráfico 1:Distribuição da região de procedência por grau de instrução
Associação entre variáveis qualitativas Exemplo: Queremos verificar se existe ou não associação entre o sexo (X) e a carreira escolhida (Y) por 200 alunos de economia e administração Tabela 4:Tabela de freqüências absolutas (relativas) dos alunos segundo o sexo (X) e curso escolhido (Y) • Independente do sexo 60% preferem economia e 40% preferem administração. • No sexo masculino essas proporções são 61% e 39% e no feminino 58 e 42%, as quais são próximas d e 60 e 40 (marginais) • Forte indicio de não haver dependência entre as variáveis sexo e curso (não associadas)
Exemplo: Queremos verificar se existe ou não associação entre o sexo (X) e a carreira escolhida (Y) por 200 alunos de Física e Ciências Sociais Tabela 5:Tabela de freqüências absolutas (relativas) dos alunos segundo o sexo (X) e curso escolhido (Y) • Independente do sexo 60% preferem economia e 40% preferem administração. • No sexo masculino essas proporções são 71% e 29% e no feminino 33 e 67%. Disparidade bem acentuada nas proporções • Forte indicio de haver dependência entre as variáveis sexo e curso (associadas)
Exemplo: Queremos verificar se a criação de determinado tipo de cooperativa está associada com algum fator regional Tabela 6:Cooperativas autorizadas a funcional por tipo e estado • Notamos que existe certa associação entre as variáveis. • Caso não houvesse associação, esperaríamos que em cada estado tivéssemos 24% de escolas e 12% de outros tipos. • Assim, o número esperado de cooperativas de consumidores no estado de São Paulo seria 648*0.24=156 e no Paraná 301*0.24=72....
Tabela 7:Valores esperados assumindo independência entre as variáveis tipo de cooperativa e fator regional • Notamos fortes discrepâncias entre os valores observados (O), e esperados (E) assumindo que as variáveis não fossem associadas. • Uma medida de afastamento global pode ser dada pela soma de todas essas medidas. (Qui-quadrado de Pearson) • . Um valor grande de X2 indica associação entre as variáveis. No exemplo acima temos:
Associação entre variáveis quantitativas • Quando as duas variáveis são quantitativas podemos usar o mesmo tipo de análise para variáveis qualitativas. (transformando as variáveis) • Uma ferramenta bastante útil é o gráfico de dispersão. • Exemplo: Tabela 8: Número de anos de serviço (X) por número de clientes (Y) de agentes de uma companhia de seguros • Notamos que à medida que aumenta o tempo de serviço, aumenta o número de clientes, logo parece haver uma associação entre essas variáveis
Gráfico 2: Gráfico de dispersão para as variáveis X: anos de serviço e Y: número de clientes Gráfico 3: Tipos de associações entre duas variáveis
Coeficiente de correlação Nun conjunto de dados com n pares de valores para as variáveis Xe Y o coeficiente de correlação (r) que mede a dependência linear entre elas é calculado como: Propriedades • é sempre um número entre -1 e 1 • Correlação igual a zero não indica independência entre as variaveis • |r| próximo a 1, indica alta associação entre as variáveis • |r| próximo a 0, indica não associação entre as variáveis • |r| próximo a 0.5, indica associação moderada