330 likes | 451 Views
Aspetos fundamentais da análise de dados em ciências sociais. Helena Martins, 2014 h elenagmartins.com. Roteiro. Introdução Questões-chave Cleaning up your act Pressupostos do Modelo de Equações Estruturais. AVISO À NAVEGAÇÃO!.
E N D
Aspetos fundamentais da análise de dados em ciências sociais Helena Martins, 2014 helenagmartins.com
Roteiro • Introdução • Questões-chave • Cleaningupyouract • Pressupostos do Modelo de Equações Estruturais
AVISO À NAVEGAÇÃO! Isto são noções para leigos e não estatísticos; algumas coisas estão escritas de forma a serem mais compreensivas e são generalidades – tentarei colocar uma nuvem sempre que for esse o caso
Desafios • O modelo vigente de “ciência” é baseado nas ciências exatas • Dados observáveis • Método experimental (condições e parâmetros controladas) • Fenómenos repetíveis e verificáveis com relativa facilidade • Pretende-se prever resultados replicáveis, gerar regras
Desafios • Ciências Sociais • Construtos complexos com grande nível de subjetividade • Variáveis que não se medem diretamente (e.g. amor vs altura) • Relações entre as variáveis pouco claras • Egocentrismo de investigação
Eu queria saber qual é a relação entre o amor e o stress… Decidir o tipo de testes • Tenho dados, e agora? • Qual é a pergunta de investigação? • Temos hipóteses? Quais são • Lembrar: hipóteses verificáveis, testáveis, falsificáveis • H0 vs H1 • Árvores de decisão!
Variáveis Latentes vs variáveis observáveis • Variável observável: pode ser medida “diretamente” • Altura, peso, nível de ruído, velocidade, temperatura, humidade, etc. • Variável latente: é um construto que não se pode medir diretamente • Satisfação com o Emprego – implica satisfação com colegas, local de trabalho, salário, função, responsabilidades… etc! • Stress, confiança, liderança, comprometimento, etc!
Variável Latente • As variáveis latentes são construtos, na medida em que construímos teorias e definimos o conceito para o podermos medir. • E.g. o que é para vocês a amizade? • Quando falamos de variáveis latentes é que falamos de qualidades psicométricas das escalas, p.ex. • O construto do investigador pode não ser adequado à população em causa • É também por isto que fazemos adaptação e validação de escalas, p. ex.
Alfa e Beta: erro tipo I e erro tipo II • Alfa (ou significância do teste), a probabilidade de estarmos a cometer um erro do tipo um • Aceitar uma hipótese1 que não é verdadeira • (mnemónica: a maior parte dos investigadores está ansioso por provar a sua hipótese) • O p-value refere-se ao erro tipo 1 • Beta (ou potência do teste), a probabilidade de estarmos a cometer um erro do tipo dois: • Rejeitar uma hipótese1 que é verdadeira
“Ah, academicwritingmakescowardsofusall!” (os estatísticos costumam dizer isto em termos de H0: em vez de dizermos que se prova a nossa hipótese, o mais correto é dizer que se rejeita a H0)
Procedimento Geral dos Testes de hipóteses (adapt. de Pires, 2000) • Pelo contexto do problema identificar o parâmetro de interesse • O que é que estamos a perguntar exatamente? • Especificar a hipótese nula • Normalmente H0 é o oposto do que queremos provar; • Especificar uma hipótese alternativa apropriada • Escolher o nível de significância, alfa • Normalmente 0.05 ou 0.01, nas ciências sociais • Escolher uma estatística de teste adequada • Que teste usar? • Recolher uma amostra e calcular o valor observado da estatística de teste • FAZER o teste • Decidir sobre a rejeição ou não de H0 • Analisar o teste, propriamente dito
Portanto… • É FUNDAMENTAL saber qual é a pergunta de investigação: o que é que querem saber ao certo? • AJUDA MUITO, pelo menos terem uma ideia dos resultados expectáveis • Sendo que teoricamente, as hipóteses deviam estar definidas à partida!! • Terem pelo menos uma ideia, ajuda-vos a saberem “para onde ir”
Questões com bases de dados • Questões na construção de questionários • Tentar ter o máximo de variáveis contínuas/”puras” possível • Tipos de variáveis no SPSS • Nominal • Ordinal • Scale • Labels: prós e contras • Transformação e computação de variáveis
Cleaningupyouract Baseado em Tabachnik e Fidell, 2007
Detectar Missings • Proofreading (small data sets) oranalysedescriptives+univariates • Correlations (inflated? Deflated?) • Analisar o tipo de Missing data.
Tipos de Missings • MCAR - MissingcompletelyatRandom • MAR – MissingatRandom (ignorablenon response) • MNAR – MissingNotatRandom (nonignorablenon response). • In MNAR, themissingisrelated to the DV, andcannotbeignored.
Ifthemissings are 5% orlessin a randompatternin a largesample, prettymuchanyprocedure for replacing data isprettymuchthesame. • There are notyetanyfirmguidelines for howmuch data can betolerated for a sampleof a givensize.
Deleting cases orvariables • O ideal é ter tão poucos missings numa amostra tão grande que se possam apagar esses casos. • Nem sempre isso é possível. • A amostra não é grande os suficiente • O missings não são aleatórios (já vimos esta questão)
EstimatingMissing Data • Prior knowledge – when a researcherreplaces a missingvaluewith a valuefrom a “welleducatedguess”; • Meansubstitution – intheabsenseofallotherinformation, themeanisthebestguessatmissingvalues. It’slesscommonlyusednowthatthere are more desirablemethodsfeasiblethroughcomputerprograms. • Groupmean (spss não faz) • Grandmean
EstimatingMissing Data • Regression – othervariables are used as Ivs to write a regressionequation for thevariablewithmissing data serving as DV; • ExpectationMaximization – forms a missing data correlation (orcovariance) matrixbyassumingtheshapeof a distribution (such as normal) for thepartiallymissing data andbasinginferencesaboutmissingvaluesonthelikelihoohunderthatdistribution • Multipleimputation – takesseveralsteps to estimatemissing data. 1st logisticregressionandthen a randomsampleistakenfromthe cases withcpomplete responses to idthedistributionofthevariablewithmissing data.
Choosingamongmethods to dealwithMissing Data • Isthemissing data randomlymissing? • No: don´tdeletit. Treatmissing data as data, andanalysewhyit’smissing • Yes: • Delete – only a few cases are missingrandom data fromdifferentvariables; • Don’tdeleteif: • Thevariableiscritical to theanalysis (create a dummyvariablethatrecodesmissingswithmeansubstitutionsoyoucanstillthe data)
Choosingamongmethods to dealwithMissing Data • EM (ExpectationMaximization) – for data setsinwhichthereisnot a greatdealofmissing data andinferentialresults (egpvalues) are interpretedwithcaution. • MultipleImputation – iscurrentlyconsideredthemostrespectableofdealing data BUT it’s more difficult to implementand does notprovidethefullrichnessof output thatistypicalwithothermethods.
SPSS • Transform • ReplaceMissingValues • ReplacewithMean…
UMA BOA BASE É COMPLETAMENTE FUNDAMENTAL!!! NINGUÉM PODE COZINHAR BONS PRATOS COM INGREDIENTES PODRES!
Pressupostos básicos da análise com Modelo de Equações Estruturais