Aspetos fundamentais da análise de dados em ciências sociais

Aspetos fundamentais da análise de dados em ciências sociais Helena Martins, 2014 helenagmartins.com

Roteiro • Introdução • Questões-chave • Cleaningupyouract • Pressupostos do Modelo de Equações Estruturais

AVISO À NAVEGAÇÃO! Isto são noções para leigos e não estatísticos; algumas coisas estão escritas de forma a serem mais compreensivas e são generalidades – tentarei colocar uma nuvem sempre que for esse o caso

Introdução

Desafios • O modelo vigente de “ciência” é baseado nas ciências exatas • Dados observáveis • Método experimental (condições e parâmetros controladas) • Fenómenos repetíveis e verificáveis com relativa facilidade • Pretende-se prever resultados replicáveis, gerar regras

Desafios • Ciências Sociais • Construtos complexos com grande nível de subjetividade • Variáveis que não se medem diretamente (e.g. amor vs altura) • Relações entre as variáveis pouco claras • Egocentrismo de investigação

Questões Chave

Eu queria saber qual é a relação entre o amor e o stress… Decidir o tipo de testes • Tenho dados, e agora? • Qual é a pergunta de investigação? • Temos hipóteses? Quais são • Lembrar: hipóteses verificáveis, testáveis, falsificáveis • H0 vs H1 • Árvores de decisão!

Variáveis Latentes vs variáveis observáveis • Variável observável: pode ser medida “diretamente” • Altura, peso, nível de ruído, velocidade, temperatura, humidade, etc. • Variável latente: é um construto que não se pode medir diretamente • Satisfação com o Emprego – implica satisfação com colegas, local de trabalho, salário, função, responsabilidades… etc! • Stress, confiança, liderança, comprometimento, etc!

Variável Latente • As variáveis latentes são construtos, na medida em que construímos teorias e definimos o conceito para o podermos medir. • E.g. o que é para vocês a amizade? • Quando falamos de variáveis latentes é que falamos de qualidades psicométricas das escalas, p.ex. • O construto do investigador pode não ser adequado à população em causa • É também por isto que fazemos adaptação e validação de escalas, p. ex.

Alfa e Beta: erro tipo I e erro tipo II • Alfa (ou significância do teste), a probabilidade de estarmos a cometer um erro do tipo um • Aceitar uma hipótese1 que não é verdadeira • (mnemónica: a maior parte dos investigadores está ansioso por provar a sua hipótese) • O p-value refere-se ao erro tipo 1  • Beta (ou potência do teste), a probabilidade de estarmos a cometer um erro do tipo dois: • Rejeitar uma hipótese1 que é verdadeira

“Ah, academicwritingmakescowardsofusall!” (os estatísticos costumam dizer isto em termos de H0: em vez de dizermos que se prova a nossa hipótese, o mais correto é dizer que se rejeita a H0)

Procedimento Geral dos Testes de hipóteses (adapt. de Pires, 2000) • Pelo contexto do problema identificar o parâmetro de interesse • O que é que estamos a perguntar exatamente? • Especificar a hipótese nula • Normalmente H0 é o oposto do que queremos provar; • Especificar uma hipótese alternativa apropriada • Escolher o nível de significância, alfa • Normalmente 0.05 ou 0.01, nas ciências sociais • Escolher uma estatística de teste adequada • Que teste usar? • Recolher uma amostra e calcular o valor observado da estatística de teste • FAZER o teste • Decidir sobre a rejeição ou não de H0 • Analisar o teste, propriamente dito

Portanto… • É FUNDAMENTAL saber qual é a pergunta de investigação: o que é que querem saber ao certo? • AJUDA MUITO, pelo menos terem uma ideia dos resultados expectáveis • Sendo que teoricamente, as hipóteses deviam estar definidas à partida!! • Terem pelo menos uma ideia, ajuda-vos a saberem “para onde ir”

Testes paramétricos vs testes não paramétricos

Pressupostos básicos

Questões com bases de dados • Questões na construção de questionários • Tentar ter o máximo de variáveis contínuas/”puras” possível • Tipos de variáveis no SPSS • Nominal • Ordinal • Scale • Labels: prós e contras • Transformação e computação de variáveis

Cleaningupyouract Baseado em Tabachnik e Fidell, 2007

Detectar Missings • Proofreading (small data sets) oranalysedescriptives+univariates • Correlations (inflated? Deflated?) • Analisar o tipo de Missing data.

Tipos de Missings • MCAR - MissingcompletelyatRandom • MAR – MissingatRandom (ignorablenon response) • MNAR – MissingNotatRandom (nonignorablenon response). • In MNAR, themissingisrelated to the DV, andcannotbeignored.

Ifthemissings are 5% orlessin a randompatternin a largesample, prettymuchanyprocedure for replacing data isprettymuchthesame. • There are notyetanyfirmguidelines for howmuch data can betolerated for a sampleof a givensize.

Deleting cases orvariables • O ideal é ter tão poucos missings numa amostra tão grande que se possam apagar esses casos. • Nem sempre isso é possível. • A amostra não é grande os suficiente • O missings não são aleatórios (já vimos esta questão)

EstimatingMissing Data • Prior knowledge – when a researcherreplaces a missingvaluewith a valuefrom a “welleducatedguess”; • Meansubstitution – intheabsenseofallotherinformation, themeanisthebestguessatmissingvalues. It’slesscommonlyusednowthatthere are more desirablemethodsfeasiblethroughcomputerprograms. • Groupmean (spss não faz) • Grandmean

EstimatingMissing Data • Regression – othervariables are used as Ivs to write a regressionequation for thevariablewithmissing data serving as DV; • ExpectationMaximization – forms a missing data correlation (orcovariance) matrixbyassumingtheshapeof a distribution (such as normal) for thepartiallymissing data andbasinginferencesaboutmissingvaluesonthelikelihoohunderthatdistribution • Multipleimputation – takesseveralsteps to estimatemissing data. 1st logisticregressionandthen a randomsampleistakenfromthe cases withcpomplete responses to idthedistributionofthevariablewithmissing data.

Choosingamongmethods to dealwithMissing Data • Isthemissing data randomlymissing? • No: don´tdeletit. Treatmissing data as data, andanalysewhyit’smissing • Yes: • Delete – only a few cases are missingrandom data fromdifferentvariables; • Don’tdeleteif: • Thevariableiscritical to theanalysis (create a dummyvariablethatrecodesmissingswithmeansubstitutionsoyoucanstillthe data)

Choosingamongmethods to dealwithMissing Data • EM (ExpectationMaximization) – for data setsinwhichthereisnot a greatdealofmissing data andinferentialresults (egpvalues) are interpretedwithcaution. • MultipleImputation – iscurrentlyconsideredthemostrespectableofdealing data BUT it’s more difficult to implementand does notprovidethefullrichnessof output thatistypicalwithothermethods.

SPSS • Transform • ReplaceMissingValues • ReplacewithMean…

Outliers

InvertedItems

UMA BOA BASE É COMPLETAMENTE FUNDAMENTAL!!! NINGUÉM PODE COZINHAR BONS PRATOS COM INGREDIENTES PODRES!

Pressupostos básicos da análise com Modelo de Equações Estruturais

Referências

Aspetos fundamentais da análise de dados em ciências sociais

Aspetos fundamentais da análise de dados em ciências sociais

Presentation Transcript

FUNDAÇÃO DE ESTUDOS SOCIAIS DO PARANÁ

Estruturas de Dados Espaciais

CATÁLISE HETEROGÊNEA: Princípios

Estruturas de Dados e Algoritmos

A – Objetivos Institucionais – Sociais e Econômicos; pág. 2

METODOLOGIA

MOTIVAÇÕES SÃO FUNDAMENTAIS. Três Perguntas Cruciais Antes de Começar:

MÉTODOS EM ANALISE REGIONAL E URBANA II

Problemas a resolver

Análise de Sobrevivência IM - UFRJ Professor: Dani Gamerman

UNIVERSIDADE DO AMAZONAS FACULDADE DE ESTUDOS SOCIAIS DEPARTAMENTO DE ECONOMIA E ANÁLISE

Conceitos Fundamentais de Algoritmos e Programação para iniciantes

Análise de Desempenho

DADOS PARA CONTATO

Gerência de Dados XML em Bancos de Dados

ESCOLA DE PSICANÁLISE KOINONIA

Camada de Enlace de Dados Capítulo 3

ECONOMIA I

“Determinantes Sociais do Processo Saúde/Doença e Trabalho”

Análise ou Especificação de Requisitos

ESCOLA DE PSICANÁLISE KOINONIA

CES-41 COMPILADORES