1 / 28

Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12

Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12 Vnos, urejanje in pregled podatkov pred multivariatno analizo in statistični modeli. Kaj so multivariatne metode (MVM)? “Statistične metode za analizo več (odvisnih) spremenljivk hkrati.”

viveka
Télécharger la présentation

Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Raziskovalna metodologija v psihologiji psihologija (III.st.) – 1. letnik 2011/12 Vnos, urejanje in pregled podatkov pred multivariatnoanalizo in statistični modeli

  2. Kaj so multivariatne metode (MVM)? “Statistične metode za analizo več (odvisnih) spremenljivk hkrati.” Nekatera tipična MV raziskovalna vprašanja: »Kako na podlagi več napovednih spremenljivk čim bolje napovedati vrednosti odvisne spremenljivke?« (multipla regresija/logistična regresija) »Kako večje število spremenljivk nadomestiti z majhnim številom novih spremenljivk?« (analiza glavnih komponent) »S katerimi hipotetičnimi spremenljivkami lahko pojasnimo korelacije med večjim številom opazovanih spremenljivk?« (faktorska analiza) »Ali lahko določimo skupine podobnih oseb/objektov/spremenljivk?« (clusterska analiza) »Ali se predpostavljeni model odnosov med spremenljivkami prilega podatkom?« (strukturno modeliranje) »Ali eksperimentalni pogoj vpliva na povprečja dveh ali več odvisnih spremenljivk?« (multivariatna analiza variance – MANOVA)

  3. MVM nujne pri proučevanju: • kompleksnih modelov napovedovanja / razvrščanja, • interakcije in moderacije, • mediacije, • latentnih spremenljivk, • strukture pojavov… • Delitev MVM: • glede na cilj: napovedovanje - strukturiranje • opisne, eksploratorne – “modelske”, konfirmatorne • glede na raziskovalni načrt: (kvazi)eksperiment - korelacijsko raziskovanje

  4. Statistični modeli • Model = formaliziran oz. abstrakten poenostavljen opis realnosti. • Značilnosti statističnih modelov: • formalna (matematična) struktura • poenostavljenost & posplošljivost (abstraktna načela) • »preizkusljivost« • Model vs. tavtologija. (=logična trditev, pri kateri je sklep enak premisi oz. obrazec in predlaganem izračunu, ki je vedno pravilen) • Model in ciljna funkcija (c.f. je bistven del metode!)

  5. Kaj običajno srečamo: • teoretične porazdelitve • (naključno) vzorčenje • bivariatna regresijska analiza • ANOVA • Splošni linearni model: b…uteži – določene glede na namen analize i…indeks osebe X…(neodvisna) spremenljivka j…indeks (neodvisne) spremenljivke a…konstanta e…ostanek/rezidual/napaka

  6. Preverjanje modela: 1. dihotomno (model drži ali ne): problem  potrjevanje H0 2. stopnja odstopanja od modela – goodnessoffit (problem kriterijev; marsikje slabo razvito!) Prileganje modelu ni isto kot velikost učinka! Napake v modeliranju: 1. sistematične (v modelu) 2. naključne (merjenje / vzorčenje)

  7. Anscombe's quartet… … comprises four datasets that have identical simple statistical properties, yet appear very different when graphed. Each dataset consists of eleven (x,y) points. They were constructed in 1973 by the statisticianF.J. Anscombe to demonstrate both the importance of graphing data before analysing it and the effect of outliers on statistical properties. …to emphasize the importance of looking at one's data before analyzing it!!!

  8. Anscombe's Quartet Anscombe, Francis J. (1973) Graphs in statistical analysis. American Statistician, 27, 17–21.

  9. seems to be distributed normally, and corresponds to what one would expect when considering two variables correlated and following the assumption of normality not distributed normally; while an obvious relationship between the two variables can be observed, it is not linear, and the Pearson correlation coefficient is not relevant …vsa odstopanja so naključne napake… …vsa odstopanja so sistematične napake (kvadratna funkcija)… the distribution is linear, but with a different regression line, which is offset by the one outlier which exerts enough influence to alter the regression line and lower the correlation coefficient from 1 to 0.81 one outlier is enough to produce a high correlation coefficient, even though the relationship between the two variables is not linear

  10. Urejanje podatkov • Podatkovna matrika: • osebe v vrsticah, spremenljivke v stolpcih • načelo “1 enota (oseba) – 1 vrstica” (par obravnavamo kot eno enoto) • najprej identifikacijska spremenljivka, nato splošne demografske spremenljivke, za tem vse ostalo • numerično kodiranje kvalitativnih spremenljivk (1/0 pri dihotomnih; 1=da) • jasna imena (zapišimo si natančen opis vsake spremenljivke!) • kode za manjkajoče vrednosti (potrebno sporočiti programu!) • vhodni podatki za MV analizo so lahko tudi druge matrike (npr. kovariančna matrika, matrika razdalj…)

  11. Manjkajoče vrednosti (missing data) Zelo velik problem! Večina multivariatnih analiz zahteva popolne podatke. Preprečevati v procesu zbiranja podatkov. Ni preprostih dobrih rešitev – več o tem ob koncu semestra… Privzeto v SPSS: brisanje vseh oseb z manjkajočimi vrednostmi.

  12. Nezaželene odvisnosti • A. odvisnost oseb: • Navadno posledica stopenjskega vzorčenja. • Ignoriranje ima lahko zelo resne posledice (neveljavnost stat. testov)! • Rešitev: večnivojski modeli. • B. odvisnost spremenljivk: • Nastane zaradi: • medsebojne pogojenosti odgovorov; • ipsativnega vrednotenja (npr. pri prisilni izbiri); • možnosti izbiranja nalog; • hkratne uporabe X, Y in aX+bY ipd., • hkratne uporabe (skoraj) identičnih spremenljivk. • Preprečiti v procesu zbiranja podatkov (1-3) oz. analize (4-5).

  13. Pomen natančnega pregleda podatkov pri MV analizi: • - odkrivanje napak in motenj (težko razvidne iz rezultatov!) • preverjanje predpostavk (normalnost, linearnost, homoscedastičnost) • Osnovni pregled: • M, SD / AD, min, max • histogram / tabela frekvenčne porazdelitve • okvir z ročaji (boxplot) • razsevni diagrami (scatter-plot)

  14. Npr.: Dihotomno (1/0) točkovana postavka: Postavka “Likertovega tipa” (1-5) V obeh primerih ima M “nevpadljivo” vrednost (0,67 oz. 3,30)!

  15. r = 0,250 ...na prvi pogled v redu, toda… Če pravilno določimo kodo za manjkajočo vrednost: r = 0,048

  16. Vpliv omejene variabilnosti na korelacijo: Mimogrede: sprememba merske lestvice ne vpliva na r!

  17. Osamelci (ekstremne vrednosti, outliers) Neobičajno visoke / nizke vrednosti (odklon od povprečja je velik v primerjavi z variabilnostjo) Problematični, ker lahko nesorazmerno vplivajo na M, SD oz. Var, r in b (ter ostale izpeljane statistike!)  vplivne točke (influential observations) Univariatni in multivariatni osamelci Multivariatni: neobičajen vzorec povezanosti. Vsak uni- je tudi multi-, ne velja pa obratno! • Diagnostika: • slike (zaboj z ročaji za univar., razsevni diagram za bivar.) • “z > 3”, “X-Me >1,5(Q3-Q1)” ipd. (univariatni) • Mahalanobisova razdalja D (multivar.): posplošitev z2 na več spremenljivk, upošteva variabilnost in korelacijo; pribl. po 2 … • (pove, kako daleč je enota od centroida vseh enot na prediktorski spremenljivki – velika razdalja pove, da je vrednost osamelec za prediktorje)

  18. Primer: osamelci v bivariatnem primeru 0 1 3 2

  19. D = Mahalanobisova razdalja z(X), z(Y) = z vrednost osamelca na vsaki od spremenljivk (v vseh primerih se povečata SD in spremenita M, vendar so razlike majhne)

  20. Razlogi za nastanek osamelcev: • napake pri zbiranju podatkov • napake pri vnosu/manipulaciji podatkov • kodiranje manjkajočih vrednosti (tipična koda: -9999) • oseba ne pripada ciljni populaciji • oblika porazdelitve • Ukrepi: • popravek (2,3), • brisanje (1,4  potrebna utemeljitev!) • pretvorbe podatkov (5) • (bolj) robustne metode (5) • analiza z in brez osamelcev (5, 5?) preveriti, ali je osamelec tudi vplivna točka!

  21. Normalnost porazdelitve • Ni nujen pogoj pri vsaki analizi! • Običajno najbolj problematična visoka sploščenost. • Preverjanje univariatne normalnosti: • P-P in Q-Q grafi, • koeficienta sploščenosti in asimetrije • testi normalnosti (npr. Shapiro-Wilk) • Multivariatna normalnost (MVN): • vse obtežene vsote spremenljivk so normalno porazdeljene • vse pogojne porazdelitve so normalne • univariatna n. je nujen, vendar ne zadosten pogoj za MVN • Preverjanje: • slabo razvito! Test MV sploščenosti in asimetrije.

  22. Linearnost povezav • implicira vsaj intervalno merjenje • pomembna pri analizah, ki temeljijo na r ali Cov • vzroki nelinearnosti: intrinzična nelinearnost ali oblika porazdelitve • diagnostika: pregled razsevnih diagramov in rezidualnih grafov • Homoscedastičnost (ant. heteroscedastičnost) • enaka variabilnost napak pri vsaki vrednosti X •  enaka natančnost (napovedi) pri vsakem X • preverjamo z grafičnimi preizkusi (rezidualni graf)

  23. “Metuljasta heteroscedastičnost” zaradi združevanja različnih skupin r = 0 r = 0,71

  24. Linearnost, homoscedastičnost in normalnost so lahko povezane:

  25. Pretvorbe: • ploščinska normalizacija; • nelinearne funkcije, npr. koren, logaritem ali inverz. As=-0,82 Spl=1,36 As=-0,43 Spl=0,40 Nelinearne pretvorbe lahko ublažijo odstopanja od linearnosti, homoscedastičnosti in normalnosti, vendar navadno otežijo interpretacijo spremenljivk. X in f (X) ne moreta biti hkrati intervalni!

  26. Kaj moramo torej preveriti, preden poženemo multivariatno analizo? • So podatki ustrezno vneseni? • Nepristne odvisnosti spremenljivk ali oseb? • Manjkajoči podatki? • Pregled univariatnih opisnih statistik in slik. • Multivariatni osamelci (outliers) in vplivne točke? • kjer vrsta analize to zahteva, pa še: • Oblika porazdelitve: normalnost, homoscedastičnost? • Linearni odnosi? • Je variabilnost vzorca primerljiva s populacijsko?

More Related