1 / 74

Luento 4: Regressioanalyysi

Luento 4: Regressioanalyysi. Petri Nokelainen. petri.nokelainen@uta.fi http://www.uta.fi/~petri.nokelainen. Kasvatustieteiden yksikkö Tampereen yliopisto. Sisältö. 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia

gazit
Télécharger la présentation

Luento 4: Regressioanalyysi

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Luento 4: Regressioanalyysi Petri Nokelainen petri.nokelainen@uta.fi http://www.uta.fi/~petri.nokelainen Kasvatustieteiden yksikkö Tampereen yliopisto

  2. Sisältö 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

  3. (3.2) (3.3) (3.4) 1. General Linear Model (GLM) X (IV) Y (DV) Pearsonin tulomomenttikorrelaatiokerroin (r) 1, jatkuva 1, jatkuva Regressioanalyysi (Multiple RA) n, jatkuva 1, jatkuva Varianssianalyysi (n-way ANOVA) n, epäjatkuva 1, jatkuva Kahden ryhmän erotteluanalyysi (Two-group LDA) n, jatkuva 1, dikotominen Monimuuttujaregressioanalyysi (Multivariate RA) n, jatkuva n, jatkuva Monimuuttujavarianssianalyysi (MANOVA) n, epäjatkuva n, jatkuva Erotteluanalyysi (LDA) n, jatkuva n, epäjatkuva Faktorianalyysi (EFA) n, latentti n, jatkuva Pääkomponenttianalyysi (PCA) n, latentti n, jatkuva

  4. (Nokelainen, 2008.)

  5. DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n jatkuvaa Joitakin Seq. Multiple R n jatkuvaa n jatkuvaa Canonical R Muuttujien välisten riippuvuuksienvoimakkuus 1 diskr. n jatkuvaa tai diskr. Multilevel modeling Ei yhtään n diskr. n-way Freq. Anal.

  6. (3.2) 1.1 Korrelaatio   DV IV 1

  7. Sisältö 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

  8. (3.2) (3.3) (3.4) 2. Regressioanalyysi X (IV) Y (DV) Pearsonin tulomomenttikorrelaatiokerroin (r) 1, jatkuva 1, jatkuva Regressioanalyysi (Multiple RA) n, jatkuva 1, jatkuva Varianssianalyysi (n-way ANOVA) n, epäjatkuva 1, jatkuva Kahden ryhmän erotteluanalyysi (Two-group LDA) n, jatkuva 1, dikotominen Monimuuttujaregressioanalyysi (Multivariate RA) n, jatkuva n, jatkuva Monimuuttujavarianssianalyysi (MANOVA) n, epäjatkuva n, jatkuva Erotteluanalyysi (LDA) n, jatkuva n, epäjatkuva Faktorianalyysi (EFA) n, latentti n, jatkuva Pääkomponenttianalyysi (PCA) n, latentti n, jatkuva

  9. (Nokelainen, 2008.)

  10. DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n jatkuvaa Joitakin Seq. Multiple R n jatkuvaa n jatkuvaa Canonical R Muuttujien välisten riippuvuuksienvoimakkuus 1 diskr. n jatkuvaa tai diskr. Multilevel modeling Ei yhtään n diskr. n-way Freq. Anal.

  11. (3.3) 2. Regressioanalyysi IV 1   IV 2  DV  r IV 3  IV 4

  12. 2. Regressioanalyysi ”…regression analysis is a method of analyzing the variability of a dependent variable by resorting to information available on one or more independent variables.” (Pedhazur, 1982, 5)

  13. 2. Regressioanalyysi • Tarkastelee muuttujien välistä lineaarista yhteyttä, ts. ilmoittaa korrelaatiokertoimen tavoin kahden muuttujan välisen vaikutussuhteen voimakkuuden (-1, …, 1). • Mahdollistaa lisäksi DV -muuttujan arvojen ennustamisen IV –muuttujan (tai muuttujien) arvojen perusteella.

  14. Sisältö 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

  15. 2.1 Regressioanalyysin historia • Perustuu Galtonin (1885) havaintoihin: • Pitkien isien pojista ei keskimäärin tullutkaan yhtä pitkiä kuin isistään, lyhyiden isien pojista tulikin keskimäärin pidempiä kuin isistään. • Poikien keskipituus lähestyi keskipituutta. Sir Francis Galton 1822-1911

  16. 2.1 Regressioanalyysin historia • Regressioanalyysi on yksi kasvatustieteiden käytetyimmistä menetelmistä, mutta usein unohdetaan että sen tulisi perustua vahvalle teoreettiselle pohjalle.

  17. Sisältö 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

  18. 2.2 Regressioanalyysin lajit • Yhden tai useamman ennustemuuttujan (IV) regressioanalyysi • Monimuuttujaregressioanalyysi (Multivariate regression analysis)(ks. lisää esim. Nummenmaa et al., 1997, 307-326; Kerlinger, 1986, 527-561). • Hierarkkinen regressioanalyysi • Hierarchical/sequential multiple regression (Pedhazur, 1982; Tabachnick & Fidell, 2007)

  19. 2.2 Regressioanalyysin lajit • Askeltava regressioanalyysi • Stepwise multiple regression (Pedhazur, 1982; Tabachnick & Fidell, 2007) • Kanoninen korrelaatio • Canonical correlation (Kerlinger, 1986, 561-568) • Logistinen regressioanalyysi • Logistic regression analysis • Poistaa lineaarisen regressioanalyysin vaatimuksen selitettävän muuttujan jatkuvuudesta, ks. esimerkki dokumentista ”6.1 Logistinen regressio” (FSD) • Multiway frequency analysis (Nummenmaa et al., 1997, 127-147)

  20. A Standardi R B Hierarkkinen R C Askeltava R A B C IV1 IV2 IV3

  21. Sisältö 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

  22. 2.3 Regressioanalyysin käyttötapoja • Käyttötapoja: • Selittävien (IV) muuttujien etsiminen • Opiskelumenestyksen selittäminen motivaation ja oppimisstrategioiden avulla. • Selittävien (IV) muuttujien selitysosuuden tutkiminen • Kuinka suuri vaikutus varhaisessa vaiheessa tapahtuneella erityisluokalle siirrolla on erityisoppilaan koulumenestykseen. • Selittävien (IV) muuttujien keskinäisen selitysosuuden vertailu eli mitkä muuttujat ovat toisia parempia tietyn Ilmiön selittäjinä. • Selitettävän (DV) muuttujan ennustaminen.

  23. Sisältö 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

  24. 2.4 Regressioanalyysin rajoituksia • Yleisiä rajoituksia • Regressioanalyysin avulla löydetyt vaikutussuhteet eivät välttämättä ole kausaalisia. • Kausaalisuuden määrittely on looginen ja koeasetelmallinen ongelma (Pearl, 2000). • Analyysiin mukaan otettujen DV ja IV muuttujien valinnan tulee olla teoreettisesti, loogisesti tms. perusteltavissa.

  25. 2.4 Regressioanalyysin rajoituksia • Teknisiä rajoituksia • Otoskoko (esim. viisi IV muuttujaa) • Greenin (1991) mukaan • N > 50+8m (useita IV muuttujia), esim. N = 50+8*5 = 90 • N > 104 + m (yksi IV), esim. N = 104 + 5 = 109 • Stevensin (1996) mukaan • N = 15m (kaikissa tapauksissa), esim. 15*5 = 75 • IV muuttujien väliset suhteet • Multikollineaarisuutta (korkeita r = +/- .9 korrelaatioita) ei saa esiintyä. • Singulaarisuutta (muuttuja on toisen/toisten kombinaatio, esim. kolmen testin yksittäiset pistemäärät ja niiden summamuuttuja) ei saa esiintyä.

  26. 2.4 Regressioanalyysin rajoituksia • Teknisiä rajoituksia • Poikkeavat arvot (outlier) tulisi poistaa, korvata uudella arvolla (rescore) tai muuntaa (transform). • X Y –muuttujien kuvaajien tarkastelu! • Regressioanalyysiohjelmissa (SAS, BMDP, SPSS) poikkeavien arvojen vaikutusta tutkitaan seuraavilla mittaluvuilla: • Leverage (l) arvioi poikkeavia arvoja IV muuttujien joukossa • Korkeat arvot ovat “kaukana” toisista • Discrepancy (d) arvioi sitä kuinka tapaus on linjassa muiden kanssa. • Influency (l) = l * d.

  27. 2.4 Regressioanalyysin rajoituksia Korkea l Korkea d Korkea i Matala l Korkea d Kohtuullinen i Korkea l Matala d Kohtuullinen i (Tabachnik & Fidell, 1996, 135.)

  28. 2.4 Regressioanalyysin rajoituksia • Residuaalien (havaitun ja ennustetun DV arvon välinen erotus, regressioyhtälön virhetermi tai jäännöstermi, ) • Normaalisuus • Residuaalien (ennustevirheiden) tulisi olla normaalisti jakautuneita • Lineaarisuus • Residuaalien ja ennustettujen DV arvojen välillä tulisi olla lineaarinen suhde • Homoskedastisuus • DV muuttujien residuaalien varianssien tulisi olla yhtä suuria. • Riippumattomuus • Residuaalien tulisi olla toisistaan riippumattomia.

  29. 2.4 Regressioanalyysin rajoituksia A • A) Normaalisuus ei toteudu • B) Lineaarisuus ei toteudu • C) Homoskedastisuus ei toteudu 0 0 B C 0 0

  30. Sisältö 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

  31. 2.5 Regressioanalyysin vaiheet • Regressioanalyysin vaiheet: • Muuttujien valinta (DV, IV) • Paitsi jos käytetään “Enter” -menetelmää • Analyysi • Mallille tehtävät diagnostiset tarkastelut

  32. Sisältö 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

  33. DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n jatkuvaa Joitakin Seq. Multiple R n jatkuvaa n jatkuvaa Canonical R Muuttujien välisten riippuvuuksienvoimakkuus 1 diskr. n jatkuvaa tai diskr. Multilevel modeling Ei yhtään n diskr. n-way Freq. Anal.

  34. 3. Kahden muuttujan regressioanalyysi • Kahden muuttujan regressioanalyysi • Määritellään kahden, riippuvan (DV) ja riippumattoman (IV) muuttujan välinen yhtälö. • Esim. ennustetaan akateemista tuottavuutta (DV) kognitiivisten oppimistuotosten, esim. GPA, avulla (IV). • Jokaiselle yhtälössä olevalle riippumattomalle muuttujalle annetaan painokerroin (), jotka yhdessä muodostavat ns. Beta –vektorin (B). • Selitettävän muuttujan arvo saadaan kun selittävät muuttujat lasketaan yhteen painokertoimilla painotettuna ja summaan lisätään vakio. • Mallissa on aina mukana virhettä, jota kuvataan jäännöstermin, residuaalin, () avulla.

  35. 3. Kahden muuttujan regressioanalyysi • Yksinkertaisessa kahden muuttujan välisessä regressiossa määritetään lineaarinen yhtälö joka kuvaa riippuvan (Y) ja riippumattoman (X) muuttujan välistä suhdetta: y = 0+ x+ y = riippuva muuttuja 0 = leikkauskohta (intercept, constant)  = regressioparametri (slope), kuvaa Y –muuttujan ennustettua arvon muutosta kun X –muuttujan arvo kasvaa yhden yksikön x = riippumaton muuttuja  = jäännöstermi

  36. 3. Kahden muuttujan regressioanalyysi y yi ei yi= 0+ xi + yj, x

  37. 3. Kahden muuttujan regressioanalyysi • Mallin (regressioyhtälö) ”hyvyyden” mittana käytetään selitettävän (DV, Y) ja selittävien (IV, X) muuttujien välistä korrelaatiota R. • H0 = DV ja IV muuttujien välillä ei ole korrelaatiota (yksikin regressiokerroin saa arvon 0). • Suurella otoskoolla nollahypoteesi tulee siis lähes varmasti hylätyksi.

  38. 3. Kahden muuttujan regressioanalyysi

  39. 3. Kahden muuttujan regressioanalyysi • R2on mallin selitysaste • Kuinka monta prosenttia malli (siis ennustemuuttuja eli IV) pystyy selittämään riippuvan muuttujan (DV) vaihtelusta. • SPSS laskee kaksi selitysastetta, joista tieteellisissä raporteissa käytetään konservatiivisempaa (”Adjusted R2”). • Selitysasteen (R2) perusteella voidaan tehdä päätelmiä efektikoosta:

  40. 3. Kahden muuttujan regressioanalyysi

  41. 3. Kahden muuttujan regressioanalyysi

  42. Sisältö 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet 3. Kahden muuttujan regressioanalyysi 4. Useamman muuttujan regressioanalyysi4.1 Hierarkkinen regressioanalyysi 4.2 Askeltava regressioanalyysi 5. Kanoninen korrelaatio Lähteet

  43. DV IV Kovariaatit Analyysi 1 jatkuva Bivariate r 1 jatkuva Ei Multiple R n jatkuvaa Joitakin Seq. Multiple R n jatkuvaa n jatkuvaa Canonical R Muuttujien välisten riippuvuuksienvoimakkuus 1 diskr. n jatkuvaa tai diskr. Multilevel modeling Ei yhtään n diskr. n-way Freq. Anal.

  44. 4. Useamman muuttujan regressioanalyysi • Määritellään yhden riippuvan (DV) ja usean riippumattoman (IV) muuttujan välisiä yhtälöitä. • Esim. ennustetaan työssä koettua stressiä (DV) esimiehen johtamisominaisuuksien (IV1) ja ryhmän toimintakyvyn perusteella (IV2). • Kaikki riippumattomat muuttujat analysoidaan (“Enter” –menetelmä), niitä ei valita tai aseteta järjestykseen.

  45. 4. Useamman muuttujan regressioanalyysi • Usean muuttujan lineaarisessa regressiossa määritetään lineaarinen yhtälö joka kuvaa yhden riippuvan ja usean riippumattoman muuttujan välistä suhdetta: y = 0+ 1x1 +2x2 +... + nxn +  y = riippuva muuttuja 0 = vakio (constant) 1…n = regressioparametreja x1…n = riippumattomia muuttujia  = virhetermi

  46. 4. Useamman muuttujan regressioanalyysi yi= 0+ 1ix1i +2ix2i +... + nixni +  y yi ei yj, x

  47. 4. Useamman muuttujan regressioanalyysi Knowledge  Value Performance Satisfaction (Warren, White, & Fuller, 1974.)

  48. 4. Useamman muuttujan regressioanalyysi Yläasteen opintomenestys Ammatillisten opintojen menestys Kontrolliuskomukset WorldSkills kilpailumenestys  Näyttötilanteiden jännittäminen Ulkoinen tavoiteorientaatio Tekemällä oppiminen N=64

  49. 4. Useamman muuttujan regressioanalyysi • Regressioanalyysin suorittaminen PASW/SPSS -ohjelmassa • Analyze – Regression - Linear • Dependent: kilpailumenestys (alle 23-vuotiaiden menestyminen WSC –kilpailuissa, luokiteltu 3 luokkaan: 1 = heikko, 2 = keskitasoinen, 3 = paras). • Independent(s): str_3 (Learning by Doing, asteikko 1 = täysin eri mieltä .. 5 = täysin samaa mieltä), mot_2 (Extrinsic Goal Orientation), mot_4 (Control Beliefs), mot_6 (Test Anxiety), ammatopmenestys (menestyminen ammatillisissa opinnoissa), ya_ka (yläasteen päästötodistuksen keskiarvo). • Statistics: Estimates, Confidence intervals (95%), Model fit, Collinearity diagnostics, Durbin-Watson. • Plots:Y: *ZRESID (standardoidut residuaalit) ja X: *ZPRED (standardoidut ennustetut arvot)

  50. Ensin tarkastellaan tulosteen lopusta ”Charts” –osasta täyttävätkö residuaalit niille asetetut vaatimukset normaaliuden ja lineaarisuuden osalta: 4. Useamman muuttujan regressioanalyysi Residuaalit ovat jakautuneet normaalisti ja lineaarisesti.

More Related