340 likes | 435 Views
Disciplina: Análise de Dados Alunos: Catarina Pires Nº: 30494 Diana Moreira Nº: 25573 Joana Silva Nº: 30506 Micaela Alonso Nº: 30514 Pedro Moura Nº: 30517. Universidade Trás-os-Montes e alto douro. Mestrado em Finanças e Contabilidade. Vila Real, 17 de Janeiro de 2012.
E N D
Disciplina: Análise de Dados Alunos: Catarina Pires Nº: 30494 Diana Moreira Nº: 25573 Joana Silva Nº: 30506 Micaela Alonso Nº: 30514 Pedro Moura Nº: 30517 Universidade Trás-os-Montes e alto douro Mestrado em Finanças e Contabilidade Vila Real, 17 de Janeiro de 2012
SPSS TEMA: Desenvolvimento Social Banco Mundial
SPSS – Desenvolvimento Social • Variáveis em estudo: • População; • Superfície; • Produção de electricidade a partir de fontes renováveis; • Investimento directo do estrangeiro; • Importação e Exportação de bens; • Despesa Pública; • Expectativa de vida ao nascer; • Taxa de mortalidade infantil; • População com idades entre 0-4 e 65-ou mais; • Taxa de fecundidade na adolescência; • Prevalência de HIV; • Usuários da Internet; • Linhas telefónicas; • Turismo internacional, gastos e receitas; • Despesas militares; • Bens e serviços da despesa; • Contribuições Sociais; • Subsídios; • Receita tributária; • 214 Países do Mundo…
SPSS – Desenvolvimento social Análises efectuadas: 1 - Análise Descritiva 2 - Análise de Clusters 3 - Análise de Componentes Principais 4 – Testes de Hipóteses Principais objectivos: • Pretendemos aplicar conhecimentos adquiridos nas aulas; • Estudar a base de dados escolhida, analisando os outputs daí resultantes, obtidos através do SPSS; • Estudar a adequabilidade dos outputs ao mundo real; • Verificar a adequabilidade da informação obtida do mundo envolvente, avaliando as diferenças entre países mais desenvolvidos e menos desenvolvidos.
Análise descritiva • A estatística descritiva consiste em determinar se a distribuição das variáveis são normais, simétricas ou assimétricas. Testes da Normalidade • Este teste observa a máxima diferença absoluta entre a função de distribuição acumulada assumida para os dados, no caso a Normal, e a função de distribuição empírica dos dados. Como critério, comparamos esta diferença com um valor crítico, para um dado nível de significância. • Teste Kolmogorov-Smirnov • Formulação de Hipóteses: H0: As variáveis seguem uma distribuição normal; H1: As variáveis não seguem uma distribuição normal. • Identificando o nível de significância do teste: 0,05.
Análise Descritiva • Resultados Obtidos:
Análise Descritiva • Decisão: Somente as variáveis acima identificadas, possuem o seu nível de significância acima de 0,05, contribuindo para a normalidade da distribuição, uma vez que H0 é aceite. Tendo em conta as restantes variáveis, rejeitamos a hipótese nula, pois apresentam um nível de significância inferior a 0,05 para uma probabilidade de ocorrer um erro de tipo I, ou seja, de rejeição incorrecta da hipótese da normalidade.
Análise Descritiva • Teste Shapiro-Wilk • Formulação de Hipóteses: H0: A amostra provém de uma população Normal; H1: A amostra não provém de uma população Normal. • Identificando o nível de significância do teste: 0,05.
Análise Descritiva • Resultados Obtidos:
Análise Descritiva • Decisão: Somente as variáveis acima identificadas, possuem o seu nível de significância acima de 0,05, contribuindo para a normalidade da distribuição, uma vez que H0 é aceite. Tendo em conta as restantes variáveis, rejeitamos a hipótese nula, pois apresentam um nível de significância inferior a 0,05 para uma probabilidade de ocorrer um erro de tipo I, ou seja, de rejeição incorrecta da hipótese da normalidade.
Análise Descritiva • Como podemos verificar, as variáveis identificadas, apresentam distribuições simétricas, pois entre a suas médias e medianas não existem grandes diferenças. E outro dos indicadores é que os valores da skewness e kurtosis são próximos de 0. • As restantes apresentam distribuições assimétricas, pois nota-se diferença entre as médias e medianas, e o valor dos outros indicadores afastam-se de 0.
Análise Descritiva • Para uma melhor análise decidimos escolher 4 variáveis: • População Urbana; • Receita Tributária; • Produção de electricidade a partir de fontes renováveis, excluindo a hidroeléctrica; • Prevalência de HIV
Análise Descritiva As variáveis população urbana e receita tributária apresentam distribuições simétricas, as variáveis produção eléctrica e a prevalência de HIV apresentam distribuições assimétricas. • Simetria Não se nota grandes diferenças entre as médias e medianas das variáveis, nas variáveis população urbana e receita tributária, o que indica distribuição simétrica. Ao contrário das restantes que apresentam diferenças nesses indicadores, o que confirma a distribuição simétrica • Enviesamento O valor da skewness aproxima-se de 0 para a primeira e última variável. (Distribuição Simétrica) Para as restantes, o valor deste indicador afasta-se de 0, e são positivos, logo apresentam distribuições com enviesamento positivo, ou seja, assimétricas à direita. Podemos verificar, nos histogramas a seguir referidos.
Análise Descritiva • Achatamento O valor da skewness aproxima-se de 0 na variável receita tributária (Distribuição Simétrica). Para as variáveis produção de electricidade e prevalência de HIV, os valores afastam-se de 0, e como são positivos, apresentam distribuições pontiagudas (Distribuição Assimétrica). A variável população urbana apresenta um valor afastado de 0, mas como a maioria dos indicadores apontam para uma distribuição simétrica, podemos considerá-la como tal.
Análise Descritiva Caixa de Bigodes A mediana não se encontra centrada na caixa; Existem outliers moderados e severos.
Análise Descritiva A mediana em ambas as caixas encontra-se muito próxima do centro.
Análise Descritiva Quadro Resumo das Variáveis!
Análise de clusters • A análise de clusters têm como objectivo aglomerar os casos e testar a sua proximidade em relação as variáveis escolhidas. Foi utilizada uma amostra de 20% Com o Agglomeration Schedule, conseguimos identificar os casos que se combinam em cada etapa. Por exemplo: Na primeira etapa o caso 17 junta-se ao caso 18 (Netherlands e Norway).
Análise de Clusters Neste quadro, podemos ver para cada um dos casos, o grupo ou cluster onde foram incluídos. Por exemplo: Aqui podemos confirmar que Netherlands e Norway se juntaram no mesmo Cluster.
Análise de Clusters O 1º Cluster: Netherlands até Bulgária; O 2º Cluster: Indonésia até Bahamas; O 3º Cluster: Malawi até Ghinea; O 4º Cluster Comoros até Madagáscar; Extremos: RussianFederation SouthAfrica Esta informação pode ser confirmada nos quadros anteriores.
Análise de Clusters • No primeiro caso agrupam-se os países mais desenvolvidos do mundo. Todos têm características muito similares, como uma baixa taxa de mortalidade ou uma baixa taxa de prevalência de HIV, por exemplo. • No segundo cluster, temos países em desenvolvimento. Apresentam características que os diferenciam dos países desenvolvidos, como uma menor esperança média de vida e uma menos baixa taxa de mortalidade. • No terceiro cluster, temos dos países mais pobres do mundo, com as mais baixas esperanças médias de vida da amostra, elevadas percentagens de mortalidade infantil e elevadas taxas de fecundidade na adolescência. • No quarto cluster, temos países menos pobres do que os do terceiro cluster, a começar a desenvolver-se. Vemos taxas uma pirâmide etária com uma base mais alargada, característica de países mais pobres, mas vemos um índice de mortalidade infantil mais baixo, assim como uma menor prevalência de HIV na população. • No caso dos extremos, estes diferem, no caso da Rússia, principalmente pela sua extensa área de superfície e no caso da África do Sul, sendo um país em desenvolvimento, apresenta um valor esperança média de vida abaixo dos outros países do segundo cluster.
Análise de Componentes Principais • A análise de componentes principais transforma um conjunto de variáveis correlacionadas num conjunto menor de variáveis independentes, denominadas componentes principais. Alem disso esta analise é utilizada pata estandardizar e erradicar correlações de um vasto numero de variáveis, estudando as suas correlações. KMO - Consideramos o modelo extraído bom, uma vez que o seu valor esta entre o intervalo (0,8-0,9,) logo é aconselhável proceder á ACP. Teste de Bartlett : H0: “A matriz dos dados é a matriz identidade” Analisando o valor de “sig”, que é inferior a 0,05, rejeitamos a hipótese nula em que a matriz dos dados é a matriz identidade. Existe correlação entre as variáveis.
Análise de Componentes Principais A comunalidade, para cada variável, é a proporção da variância dessa variável que é explicada pelas componentes. Quanto mais próximo de 1 mais explica a totalidade da variância da variável. Por exemplo: Da variável importação de bens a proporção da variância explicada pelas componentes extraídas é 0,979, ou seja, quase a totalidade.
- Análise de Componentes Principais • . • Através desta tabela verificamos, que foram extraídas 2 componentes. • Critério de Kaiser: retêm-se as componentes com “eigenvalues” superiores a 1, pois estes dão-nos a variância standardizada das variáveis captadas pela componente, logo superior a 1 significa que capta a variância satandardizada de mais do que uma variável. • As duas componentes extraídas, explicam 71,8% da variância total.
Análise de Componentes Principais Esta tabela indica os coeficientes que relacionam as variáveis com as componentes, esses coeficientes são as correlações entre as variáveis e as componentes. A componente 1 representa: População com idade 0-14; Expectativa de vida ; Linhas telefónicas; Usuários da Internet; Taxa de Fecundidade; População Urbana; Investimento Directo; A componente 2 representa: Importação de bens; Exportação de bens;
Análise de Componentes Principais • Através da análise do quadro anterior, a representação das variáveis nas componentes extraídas, podemos definir : • A componente 1 representa indicadores de desenvolvimento dos países • A componente 2 representa a balança comercial.
Testes de Hipóteses • Paramétricos • ANOVA • Objectivo: Verificar se o valor da Despesa Pública se relaciona com a taxa de População Urbana. • Formulação de Hipóteses: H0: A igualdade de duas médias em amostras independentes com 3 ou mais grupos; H1: A desigualdade de duas médias em amostras independentes com 3 ou mais grupos.
Testes de Hipóteses • Identificando o nível de significância do teste: 0,05. • Resultados Obtidos:
Testes de Hipóteses • Decisão: Com a tabela Descritiva conseguimos obter as médias, desvio padrão, erro padrão, amplitudes e intervalos de confiança para cada uma das médias dos grupos seleccionados. De acordo, com o Teste da Homogeneidade das Variâncias, verificamos que o nível de significância é inferior, embora muito próximo, de 0,05, o que nos leva a rejeitar a hipótese nula, isto é, existem diferenças significativas entre as médias dos quatro grupos.
Testes de Hipóteses • Resultados Obtidos • Decisão: • Através da tabela da ANOVA, comprovamos o resultado obtido na tabela anterior visto que o valor do P- value também é inferior a 0,05. • Visto que, os pressupostos do teste paramétrico não se verificam, teremos que comparar as medianas entre os grupos de acordo com o teste Kruskal-Wallis, teste não-paramétrico.
Testes de Hipóteses • Não-Paramétricos • Teste de Kruskal-Wallis • Objectivo: Verificar se o valor da Despesa Pública se relaciona com a taxa de População Urbana. • Formulação de Hipóteses: H0: A média da variável Despesa Pública é igual para os quatro grupos; H1: A média da variável Despesa Pública não é igual para os quatro grupos.
Testes de Hipóteses • Identificando o nível de significância do teste: 0,05. • Resultados Obtidos: • Decisão: • Ao observar a tabela Ranks, verificamos que que embora as médias da variável Despesa Pública, tendo em conta a população 0-25% e 25-50%, sejam próximas, não tem o mesmo valor. Segundo este teste rejeitamos a hipótese nula, em que a Despesa Pública é igual em pelo menos dois grupos, uma vez que o nível de significância é menor do que a 0,05.