1 / 45

Korelacija i regresija

Korelacija i regresija. Doc. dr. sc. Lidija Bilić-Zulle Katedra za medicinsku informatiku Medicinski fakultet Sveučilišta u Rijeci Zavod za laboratorijsku dijagnostiku Klinički bolnički centar Rijeka. 15. studeni 2008. Odabir statističkog testa. Ovisi o: vrsti podataka/ljestvice mjerenja

nyx
Télécharger la présentation

Korelacija i regresija

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Korelacija i regresija Doc. dr. sc. Lidija Bilić-Zulle Katedra za medicinsku informatiku Medicinski fakultet Sveučilišta u Rijeci Zavod za laboratorijsku dijagnostiku Klinički bolnički centar Rijeka 15. studeni 2008.

  2. Odabir statističkog testa Ovisi o: • vrsti podataka/ljestvice mjerenja • raspodjeli (normalnost) • uzorku (veličina, zavisnost) • broju pokazatelja (uni/bi/multivarijatni testovi) • istraživačkom pitanju

  3. Osobine obilježja – mjerne ljestvice

  4. Odabir testa: ovisnost o raspodjeli – parametrijski i neparametrijski • Parametrijski testovi: • pokazatelji koji ne odstupaju od normalne raspodjele • obrađuju izvorna mjerenja • Neparametrijski testovi: • nisu ograničeni normalnošću raspodjele • ne raščlanjuju izvorne podatke već "rankove"

  5. Ovisnost o osobini uzorka • Veličina: • veliki uzorci – parametrijski testovi • mali uzorci – neparametrijski testovi • Zavisnost • nezavisni uzorci – neparni testovi • zavisni uzorci – parni testovi

  6. Ovisnost o broju pokazatelja • univarijatni: • raščlanjuju samo jedan pokazatelj • bivarijatni • raščlanjuju dva pokazatelja • multivarijatni • raščlanjuju više pokazatelja

  7. Istraživačko pitanje • Postoji li razlika (u istoj varijabli) između dvaju (ili više) skupina? • Postoji li povezanost dvaju varijabli? • Može li se iz jedne (ili više) varijable predvidjeti druga?

  8. Varijable • biološke varijable – značajke ispitanika • osnovna značajka – biološka varijabilnost • potreba za mjerenjem na što većem broju ispitanika (reprezentativni uzorak!)

  9. Varijable • stalne– ne će se promjeniti tijekom ispitivanja (spol, rasa, genotip...) • promjenive – mogu se promijeniti tijekom ispitavanja (broj leukocita, koncentracija glukoze...)

  10. karboksihemoglobin u krvi broj popušenih cigareta na dan Varijable • nezavisne varijable – mjerimo neovisno o ishodu pokusa, prethode zavisnim varijablama, prediktori, rizični čimbenici, varijable izloženosti(os x) • zavisne varijable – kriteriji, posljedice djelovanja nezavisnih varijabli, predstavljaju mjeru ishoda koju u istraživanju mjerimo(os y) • primjer:

  11. Postoji li povezanost dvaju varijabli? • statistički test KORELACIJA

  12. Korelacija • sukladnost dvaju varijabli • govori o njihovoj povezanosti • uvjet pokazatelja: numerički (brojčana mjerna ljestvica) • nominalna  • ordinalna  • intervalna  • omjerna  • broj pokazatelja: dva

  13. y y2 y1 x1 x2 x Grafički prikaz korelacije • točkasti dijagram (engl. scatter diagram)

  14. Izračun korelacije • Matematički postupak za izračunavanje stupnja povezanosti dvaju brojčanih pokazatelja kojim se izračunava: • koeficijent korelacije r • statistička značajnost koeficijenta korelacije P

  15. Koeficijent korelacije • Pozitivna potpuna (matematička) korelacija y r = +1 x

  16. y 0 < r < +1 x Koeficijent korelacije • Pozitivna nepotpuna korelacija

  17. y r = 0 x Koeficijent korelacije • Nepostojanje korelacije

  18. y 0 > r > –1 x Koeficijent korelacije • Negativna nepotpuna korelacija

  19. y r = -1 x Koeficijent korelacije • Negativna potpuna (matematička) korelacija

  20. Pearsonov koeficijent korelacije rp • parametrijski test (računa s izmjerenim vrijednostima): • jednostavna linearna korelacija • dva pokazatelja • intervalna ili omjerna mjerna ljestvica • vrijednosti: -1 r+1 • barem jedna varijabla – normalna raspodjela • veliki uzorak (n > 35) • povezanost varijabli linearna

  21. Spearmanov koeficijent korelacije • neparametrijski test (računa s rangovima): • linearna korelacija, r, rS • dva pokazatelja • ordinalna mjerna ljestvica • vrijednosti: -1  r +1 • kada rS, a ne rP: • ordinalna mjerna ljestvica • mali uzorak (n < 35) • x i y ne slijede normalnu raspodjelu

  22. y y y x x x Kada NE računati korelaciju! • ... i kada se jedna varijabla izračunava iz druge (npr. BMI i tjelesna masa)

  23. Koeficijent korelacije • r nema mjerne jedinice i izražava se brojem s dva decimalna mjesta • ne ovisi o tome koji je pokazatelj x, a koji y • r = 0 znači: nema linearne povezanosti • ne opisuje uzročno-posljedičnu vezu(samo povezanost)

  24. Statistička značajnost povezanosti • uz koeficijent korelacije r potrebno naznačiti i statističku značajnost P • P – statistička značajnost povezanosti, izražava se brojem s tri decimalna mjesta • ovisi o veličini uzorka • statistički značajna korelacija P < 0,05 TUMAČITI SE SMIJU SAMO ZNAČAJNI KOEFICIJENTI KORELACIJE!

  25. Tumačenje koeficijenta korelacije (za biološke varijable)* • r = 0 do ±0,25: nema povezanosti, • r = ± 0,26 do ± 0,50: slaba povezanost, • r = ± 0,51 do ± 0,75: umjerena do dobra povezanost • r = ± 0,76 do ± 1: vrlo dobra do izvrsna povezanost • r = ± 1: matematička povezanost *Colton, 1974.

  26. Jakost povezanosti • udio zajedničkih vrijednosti • koeficijent determinacije – r2 • Primjer za r = 0,67; r2 = 0,45 ili 45% zajedničkih vrijednosti

  27. Primjer za raspravu* Je li ispravno računati Pearsonov koeficijent korelacije za stupanj opeklina na tijelu i trajanje bolničkog liječenja izraženo u danima? * Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada izračunavamo koeficijent korelacije?Biochemia Medica 2007;17(1):10-5.

  28. Primjer za raspravu* U istraživanju povezanosti raspoloženje i količine tekućine (vode) unesene pijenjem tijekom dana dobivena je povezanost r = 0,12; P = 0,003. Je li ispravno tumačiti kako postoji značajna povezanost raspoloženja i količine popijene tekućine? * Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada izračunavamo koeficijent korelacije?Biochemia Medica 2007;17(1):10-5.

  29. Primjer za raspravu* U istraživanju povezanosti visine tijela i biološke dobi dobivena je korelacija r = 0,97; P = 0,001. Možemo li zaključiti kako su visina i dob nesumnjivo zaista izvrsno povezani? * Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada izračunavamo koeficijent korelacije?Biochemia Medica 2007;17(1):10-5.

  30. Primjer za raspravu* U istraživanju povezanosti koncentracije alkohola u krvi i prometnih nesreća utvrđeni su r = 0,78; P = 0,002. Možemo li zaključiti kako uzimanje alkohola nesumnjivo uzrokuje prometne nesreće? * Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada izračunavamo koeficijent korelacije?Biochemia Medica 2007;17(1):10-5.

  31. Primjer za raspravu* Usporedbom katalitičke koncentracije dvaju enzima u krvi ispitanika dobivena je povezanost r = 0,52; P = 0,002. Možemo li zaključiti kako vrijednosti enzima imaju 52% zajedničkih vrijednosti katalitičke koncentracije? * Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada izračunavamo koeficijent korelacije?Biochemia Medica 2007;17(1):10-5.

  32. Primjer za raspravu* Ispitana je povezanost vremena provedenog u radu s računalom i brzine pisanja teksta na računalu u žena (n1=60) i muškaraca (n2=40). Koeficijent korelacije za žene iznosi r1 = 0,70, a za muškarce r2 = 0,50 i oba su statistički značajna. Možemo li zaključiti kako je r1> r2, tj. da je u žena veća povezanost vremena provedenog za računalom i brzine pisanja teksta na računalu? * Udovičić M, Baždarić K, Bilić-Zulle L, Petrovečki M. Što treba znati kada izračunavamo koeficijent korelacije?Biochemia Medica 2007;17(1):10-5.

  33. Može li se iz jedne varijable predvidjeti druga? • statistički test REGRESIJSKA RAŠČLAMBA

  34. Regresijska raščlamba ... matematički model koji daje što točniju procjenu koliko će se promijeniti promatrana zavisna varijabla (kriterij) kao odgovor na promjenu nezavisne varijable (prediktor).

  35. Uvjeti za izračunavanje regresije • postojanje korelacije između ispitivanih varijabli • ravnomjerno raspršenje rezultata oko pravca regresije • kvalitetan ispitivani uzorak (nasumično uzorkovanje)

  36. Regresijska raščlamba • linearna regresija • višestruka regresijska raščlamba • logistička regresija • Passing-Bablock regresija

  37. Linearna regresija • matematička povezanost… • …dvaju pokazatelja (x i y) • nezavisna mjerenja • koliko promjena jednog (x) određuje promjenu drugog (y): • x: nezavisna varijabla (prediktor) • y: zavisna varijabla (kriterij) • rezultat: jednadžba pravca: y = a + bx y = b0 + b1x

  38. y b a x 1 Linearna regresija • y = a + bx; a = odsječak; b = nagib pravca • y = x; idelan pravac kroz ishodište, a = 0; b = 1

  39. Linerna regresija • metoda najmanjih kvadrata: • način utvrđivanja položaja regresijskog pravca među točkama • najmanji mogući zbroj kvadrata odstupanja pojedinačnih točaka od pravca po osi y, tj. suma kvadrata udaljenosti (y-y1)2 svih točaka y x

  40. Linearna regresija • pogrješka prognoze (rezidual) – variranje rezultata oko pravca • standardna pogrješka prognoze – prosjek kvadrata udaljenosti svih točaka od pravca regresije (odgovara standardnoj devijaciji aritmetičke sredine)

  41. y x Linearna regresija • granice pouzdanosti • raspon vrijednosti rezultata unutar kojeg s određenom sigurnošću nalazimo predviđene rezultate (uobičajeno 95% CI)

  42. Višestruka regresijska raščlamba • omogućuje: • predviđanje zavisne varijable (kriterija) iz više nezavisnih (pokazatelja, prediktora) • nemaju svi pokazatelji istu vrijednost u predviđanju • pojedinačni značajni pokazatelji mogu izgubiti značajnost u višestrukoj regresiji

  43. Logistička regresija • nalazi najbolji odgovarajući matematički model za predviđanje dihotomnog ishoda iz niza nezavisnih varijabli • značajka ishoda: dihotomnost, tj. dva moguća ishoda

  44. Passing-Bablok regresija • model linearne regresije koji pretpostavlja kako niti jedna od dvaju varijabli nije niti zavisna niti nezavisna • najčešće: usporedba dvaju metoda mjerenja • rezultat: vrijednost odsječka i nagiba pravca s intervalom pouzdanosti koji ukazuju na postojanje stalne ili proporcionalne razlike između mjerenja

  45. Hvala na pozornosti Lidija.Bilic-Zulle@medri.hr

More Related