1 / 58

Regresia a korelácia

Regresia a korelácia. Iveta Waczulíková Peter Slezák Fakulta matematiky, fyziky a informatiky UK Ústav simulačného a virtuálneho medicínskeho vzdelávania LF UK. skúmanie sily a druhu závislostí medzi dvoma premennými štatistická závislosť ≠ kauzalita!!! bodový graf

nanda
Télécharger la présentation

Regresia a korelácia

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Regresia a korelácia Iveta Waczulíková Peter Slezák Fakulta matematiky, fyziky a informatiky UK Ústav simulačného a virtuálneho medicínskeho vzdelávania LF UK

  2. skúmanie sily a druhu závislostí medzi dvoma premennými • štatistická závislosť ≠ kauzalita!!! • bodový graf • korelácia – sila závislosti („symetrický“ vzťah premenných) • regresia – závislosť spojitej veličiny (závislej premennej) na jednej alebo viacerých veličinách (nezávislé premenné) • závislosť – lineárna, logaritmická, exponenciálna (v parametroch vs. prediktoroch) ...

  3. Variancia, kovariancia a korelačný koeficient (Pearsonov) • Pearsonov korelačný koeficient rxy – určuje silu vzťahu dvoch spojitých premenných (x,y) Výberová kovariancia – cov(x,y) Variancia y - var(y) Variancia x – var(x) Pozn.: člen (n-1) z menovateľa vzorca pre výberovú varianciu (kovarianciu) sa vykrátil

  4. Lineárny vzťah medzi Y a X je pozitívny (ako X narastá, Y taktiež narastá), potom je viac bodov v prvom a treťom kvadrante ako v druhom a štvrtom. V takomto prípade je pravdepodobné, že hodnota sumy v čitateli bude pozitívna, pretože je tu viac pozitívnych ako negatívnych hodnôt.

  5. Correlation Seen on a Graph Same Direction, Weak Correlation Moderate Correlation Same Direction, Strong Correlation Korelačný koeficient <-1, 1> 0 – žiadny lineárny vzťah (môže byť ale prítomný iný ako lineárny funkčný vzťah!); 1 (-1) – úplný pozitívny (negatívny) lineárny vzťah

  6. Poznámky ku korelačnému koeficientu • Obvykle sa v literatúre hodnota korelačného koeficienta udáva aj s dosiahnutou hladinou významnosti (p-value) • H0 : korelačný koeficient sa rovná nule t.j. medzi veličinami X a Y neexistuje žiadny lineárny vzťah • Pre veľké výbery aj malá (prakticky nevýznamná) hodnota korelačného koeficienta môže byť štatisticky signifikantná! • uvádzať konfidenčné intervaly pre populačný koeficient • Korelácia neznamená príčinnosť!!!

  7. Korelačný koeficient Korelovanosť = lineárna závislosť • Dokážezachytiť: • silu lineárnej závislosti dvoch premenných (premenné sú silne lineárne závislé, ak je korelačný koeficient v absolútnej hodnote blízky 1) • smer lineárnej závislosti (v zmysle priama vs. nepriama) • Nedokáže zachytiť: • Veľkosť sklonu lineárnej závislosti • Nelineárnu závislosť medzi premennými

  8. Korelačný koeficient http://en.wikipedia.org/wiki/File:Correlation_examples.png

  9. Auscombe’s regression data

  10. Jednoduchá regresia (simple regression) • Jednoduchá regresia – vzťah dvoch premenných (závislej a nezávislej). • Závislá premenná je tá, ktorú sa snažíme vysvetliť a nezávislá premenná je tá, pomocou ktorej vysvetľujeme variabilitu v závislej premennej.

  11. Lineárna regresia • Jednoduchá regresia, ktorá popisuje lineárny („priamkový“) vzťah medzi dvoma premennými lineárny nelineárny

  12. Táto metóda zahrňuje preloženie priamky dátami a analýzu štatistických vlastností tejto priamky • model y= A + Bx + ε • y – závislá premenná • x – nezávislá premenná • A – absolútny člen-bod, kde priamka pretína y-ovú os • B – smernica priamky („sklon“) • ε – náhodný člen (náhodná chyba, ktorú nejde vysvetliť lineárnym vzťahom) a, b – odhady regresných parametrov A, B, vypočítaných z našich dát Populácia – A, B↔a, b - výber

  13. Bodový diagram (scatter plot)

  14. Metóda najmenších štvorcov ε Regresná priamka

  15. reziduálny súčet štvorcov • počet stupňov voľnosti (n – 2) • reziduálny rozptyl • celková suma štvorcov • regresná suma štvorcov • ST = SR + Se

  16. Celková suma štvorcov ST

  17. Koeficient determinácie R2 Vysvetlená variabilita/celková variabilita • Miera „vhodnosti“ modelu – udáva časť (percento) variability Y, ktorú je možné pomocou modelu vysvetliť. • Druhá mocnina korelačného koeficientu • 0 ≤ R2 ≥ 1

  18. Koeficient determinácie R2 SSrez SSrez

  19. Interpretácia regresných koeficientov • Model by sa mal používať len v tom rozmedzí oboru hodnôt oboch veličín, v ktorom sa pohybovali pozorované hodnoty!!! • b – zmena v „y“ spôsobená zmenou „x“ o hodnotu 1 • a – priesečník s osou y

  20. Interpretácia regresných koeficientov b < 0 b > 0

  21. Predpoklady modelu • Lineárny vzťah medzi x a y. (t.j. správne definovaný model) • Náhodná chyba ε má rozdelenie N(0,σε) pre každé x. (T.j. nulovú strednú hodnotu a konštantný rozptyl) • (Rozptyl závisle premennej y je rovnaký pre každú hodnotu nezávisle premennej x (Homoskedasticita).) • Chyby sú navzájom nezávislé.

  22. Lineárny vzťah

  23. Normálne rozdelenie s (konštantnou) smerodajnou ochýlkou σε

  24. Normálne rozdelenie chyby Populačná regresná priamka

  25. Príklad výstupu analýzy lineárnej regresie

  26. The line of best fit (minimizes sum of squared residuals) Actual value Error variance (residual) Predicted value Avg. SSmodel variance F = Avg. SSerror variance Model variance (predicted) Regression and the F-test

  27. Simple regression - analysis Source of variationSum SquaresDFMean Square Regression 4476,965491 1 4476,965491 Residual 10923,034509 48 227,563219 Total15400 49 F = 19,673502 P < 0,0001 R square = 0,290712 TSH0 200 180 160 140 120 100 50 100 150 200 TS00-3h.

  28. Simple linear regression Equation: TSH0 = 0,347095 TS00-3h. + 97,703185 Standard Error of slope = 0,078254 95% CI for population value of slope = 0,189754 to 0,504435 Correlation coefficient (r) = 0,539177 (r² = 0,290712) 95% CI for r (Fisher's z transformed) = 0,306887 to 0,710843 t with 48 DF = 4,435482 Two sided P < 0,0001 Power (for 5% significance) = 98,37% Correlation coefficient is significantly different from zero

  29. Heteroskedasticita… • Ak je požiadavka konštantnosti variancií porušená, hovoríme o heteroskedasticite. • Heteroscedasticitu môžeme zisťovať zobrazením reziduálov oproti predpovedaným hodnotám y

  30. Residuals vs. Fitted Y [linear regression] Residuals (Y - y fit) 45 20 -5 -30 120 130 140 150 160 170 Fitted TSH0 Overenie predpokladov modelu • Overenie náhodnosti chyby (žiadna systematická závislosť) (Durbin-Watson Test) • Overenie lineárnosti vzťahu • Overenie konštantnosti rozptylu

  31. Normal Plot for Residuals [linear regression] van der Waerden normal score 3 1 -1 -3 -30 -5 20 45 Residual (Y - y fit) • Overenie normálneho rozdelenia chyby N(0,σε) • Normálny graf (q-q alebo p-p plot), histogram, testy (ne)normality

  32. Použitie regresného modelu k odhadnutiu priemernej hodnoty y

  33. Prediction interval Predpovedanie konkrétnej hodnoty budúceho merania

  34. Outliers • Odľahlé hodnoty (multivariate outlier) • Influential data points • Výrazne ovplyvňujú výsledok OLS

  35. + + + + + + + + + + + An influential observation An outlier + + … but, some outliers may be very influential + + + + + + + + + + + + + + The outlier causes a shift in the regression line • OLS metóda je citlivá na prítomnosť odľahlých pozorovaní • (influential observations) !!! Neparametrická regresia www.stanford.edu/class/msande247s/kchap17.ppt

  36. Rizikový faktor Outcome Confounder Confounder (zavádzajúca, mätúca, zahmlievajúca premenná) • premenná, ktorá je asociovaná s rizikovým faktorom a kauzálne spojená s výsledkom (outcome) • V multivariačných (multivariable) analýzach je potrebné na „confounder“ adjustovať model, aby sme získali „očistený“ vplyv sledovaného rizikového faktora

  37. Nosenie zápaliek Rakovina pľúc fajčenie Confounding

  38. ? ? Oral contraceptive use Oral contraceptive use Cervical cancer Breast cancer Infection with human papillomavirus (HPV) Late age at first birth/ low parity Examples of Confounding HRP 261 1/26/04

  39. Intervening variable (intervenujúca premenná) • Nachádza sa na „príčinnej ceste“ od sledovaného rizikového faktora k outcomu • Štatisticky neodlíšiteľná od „confoundera“ • Pri zisťovaní vplyvu rizikového faktora nemôžeme model adjustovať na intervenujúcu premennú, pretože by sme tým odstránili jeho vplyv – efekt, ktorý sa snažíme preukázať

  40. ↑ Blood pressure ↑ Body mass index Hypercholesterolemia Alcohol consumption Myocardial infarction Example(Intervening variable) Camargo, C.A., Stampfer, M.J., Glynn, R.J., et al. Ann. Intern. Med. 1997;126:372-5 • The relationship between moderate alcohol consumption and risk of heart attack. • Sensibly they adjusted for age, smoking, exercise, diabetes, and family history of heart attack • Did not adjusted for blood pressure, BMI, hypercholesterolemia

  41. Zidovudine Rizikový faktor Outcome Sérokonverzia Vážnosť poranenia Suppressor Supressor • Typ tzv. confoundera • V bivariačnej analýze nezistíme vzťah medzi rizikovým faktorom a outcomom. Po adjustácii na „supressing factor“ sa však vplyv rizikového faktora objaví.

  42. Viacnásobná lineárna regresia • Populácia: yi = β0 + β1xi1 + β2xi2 + ... + βnxin + εi • Výber yi = b0 + b1xi1 + b2xi2 + ... + bnxin + εi Hodnota regresných koeficientov bj sa interpretuje v závislosti od typu výskumu. V prípade experimentu (v ktorom s premennými X manipulujeme), vyjadruje o koľko sa zvýši očakávaná hodnota premennej Y ak sa hodnota premennej Xj zvýši o 1 jednotku, pričom ostatné premenné X zostanú nezmenené. Pretože jednotlivé premenné X môžu byť vyjadrené v rozličných jednotkách, nemožno tvrdiť že X, ktorému prislúcha najväčšie b musí mať najväčší vplyv na Y. Ktorá premenná X má najväčší vplyv na premennú Y sa zisťuje z čiastkových korelačných koeficientov (partial correlation coefficients). Koeficient determinácie (R2) vyjadruje podiel variability premennej Y vysvetlenej regresným modelom (teda premennými X) k celkovej variabilite premennej Y. Viacnásobná regresia vyžaduje intervalové premenné. Regresný model však možno doplniť aj o nominálne nezávislé premenné X.

More Related