1 / 87

Statistika

Statistika. Ing. Jan Popelka, Ph.D . odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem email: jan.popelka @ ujep.cz WWW: http://most. ujep.cz / ~ popelka. Korelační a Regresní analýza. Korelační a Regresní analýza.

Télécharger la présentation

Statistika

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Statistika Ing. Jan Popelka, Ph.D.odborný asistent Katedra informatiky a geoinformatiky Univerzita Jana Evangelisty Purkyně v Ústí nad Labem email: jan.popelka@ujep.cz WWW:http://most.ujep.cz/~popelka

  2. Korelační a Regresní analýza

  3. Korelační a Regresní analýza • Závislost dvou číselných proměnných. • Korelační analýza - korelační koeficient a Spearmanův korelační koeficient pořadí • Základní princip regresní analýzy • Odhady regresních koeficientů • Alternativní modely • Volba vhodného modelu • Diagnostická kontrola modelu

  4. Závislost dvou číselných proměnných Grafická analýza závislosti dvou číselných proměnných. Proměnné vyneseme do bodového grafu, každou proměnnou na jednu osu. Graf napomáhá odhalení závislosti i naznačuje sílu závislosti! Je však třeba mít určitou zkušenost při posuzování výsledků, protože závěry mohou být dosti subjektivní. Jedná se o velmi užitečný a přitom jednoduchý nástroj. Každá složitější analýza závislosti dvou číselných proměnných by měla začínat grafickou analýzou! Nevýhodou je, že ji nelze použít, pokud je posuzován vliv více proměnných (graf lze vytvořit maximálně trojrozměrný).

  5. Závislost dvou číselných proměnných Pevná (funkční) závislost. Může jít o závislost lineární, kdy všechny hodnoty leží na přímce.

  6. Závislost dvou číselných proměnných Pevná (funkční) závislost. Může jít o závislost nelineární, kdy všechny hodnoty leží na křivce jiné než přímka (parabola).

  7. Závislost dvou číselných proměnných Volná (stochastická) závislost. Hodnoty neleží přímo na přímce, ale je patrný jejich průběh kolem pomyslné přímky. Čím blíže jsou body pomyslné přímce, tím je závislost těsnější.

  8. Závislost dvou číselných proměnných Volná (stochastická) závislost. Hodnoty neleží na přímce, ale je patrný jejich průběh kolem pomyslné přímky. V porovnání s předchozím grafem jde o slabší závislost, hodnoty jsou více rozptýlené

  9. Závislost dvou číselných proměnných Volná (stochastická) závislost. Hodnoty se pohybují v okolí pomyslné paraboly.

  10. Závislost dvou číselných proměnných Nezávislost. Pomyslná křivka je rovnoběžná s osou x nebo vůbec nelze nalézt pomyslnou křivku procházející množinou bodů. Nezávislost se projevuje také hodnotami v kulovém mračnu.

  11. Korelační analýza Korelační koeficienty Stejně jako u analýzy závislosti dvou slovních nebo jedné slovní a jedné číselné proměnné, lze také zde použít určité koeficienty pro výpočet síly závislosti.

  12. Korelační analýza Korelační koeficient – nabývá hodnoty <-1;1> Čím blíže je hodnotě +1, tím je závislost silnější, obě hodnoty společně rostou. Čím blíže je hodnotě -1, tím je závislost silnější, rostou-li hodnoty jedné proměnné, hodnoty druhé proměnné klesají. Je-li hodnota blízká nule, nejsou proměnné závislé. MS Excel: = CORREL(první soubor dat;druhý soubor dat) Nástroje – Analýza – Analýzadat – Korelace

  13. Korelační analýza Korelační koeficient Měří vzájemnou závislost dvou proměnných. Nerozlišuje tedy mezi příčinnou a důsledkem. Jde o ukazatel oboustranné závislosti: ryx = rxy .

  14. Korelační analýza Test lineární závislosti dvou číselných proměnných H0: mezi proměnnými není lineární závislost HA: mezi proměnnými je lineární závislost Testovací statistika: Kritický obor: W={t: |t| > t1-α/2(n-2)}. Online kalkulátor: • http://vassarstats.net/rsig.html

  15. Korelační analýza Korelační koeficient ryx = +0,85 ryx = +1 ryx = -0,62

  16. Korelační analýza Spearmanův korelační koeficient pořadí Je obdobou korelačního koeficientu (nabývá hodnot -1 ≤ rs ≤ +1). Počítá se z pořadí jednotlivých měření obou proměnných, takže: • Nepopisuje jen lineární závislost, ale jakékoliv monotónní vztahy (obecný růst nebo obecný pokles), • je odolný vůči vlivu odlehlých hodnot.

  17. Korelační analýza Spearmanův korelační koeficient pořadí Každé hodnotě se přiřadí pořadí Rx a Ry vzhledem k ostatním hodnotám. Pokud jsou hodnoty ve sloupci stejné, vypočet se pořadí jako průměr. Di je pak rozdíl pořadí pro každou dvojici hodnotDi = Rx - Ry. Online kalkulátory: • http://www.vassarstats.net/corr_rank.html (včetně testu závislosti) • http://www.maccery.com/maths/

  18. Korelační analýza Test závislosti dvou číselných proměnných pomocí Spearmanova korelačního koeficientu pořadí H0: mezi proměnnými není monotónní závislost HA: mezi proměnnými je monotónní závislost Testovací statistika: samotný koeficient rs Kritický obor: W={rs; rs > r(n;α)} rs statistika nemá standardní rozdělení, proto je nutno hledat v tabulce (http://most.ujep.cz/~popelka/tabulky.xls) Online kalkulátor: • http://www.vassarstats.net/corr_rank.html

  19. Korelační analýza ! Příklad: Byly sledovány hmotnost a IQ dětí, výsledky jsou v tabulce. Je možné, že by tyto dva číselné ukazatele byly závislé?

  20. Korelační analýza ! Příklad: Byly sledovány hmotnost a IQ dětí ... Bodový graf a hodnota korelačního koeficientu ryx = 0,9346 Analýza ukázala, že se jedná o velmi silnou závislost!!! S rostoucí hmotností roste IQ.

  21. Korelační analýza ! Příklad: Byla sledována hmotnost a IQ dětí ... Tvrzení je samozřejmě nesmyslné!! Jedná se o tzv. zdánlivou korelaci. Existuje totiž další proměnná (věk dítěte), se kterou jsou obě proměnné vysoce korelovány. Korelace mezi hmotností a IQ je způsobena vlivem věku. S rostoucím věkem roste jak hmotnost, tak i IQ. Nelze ale tvrdit, že s rostoucí hmotností roste IQ nebo obráceně.

  22. Korelační analýza ! Příklad: Byla sledována hmotnost a IQ dětí ... Korelační matice – vyjadřuje korelaci všech dvojic proměnných. Hmotnost a věk jsou silně kladně korelovány 0,909. IQ a věk jsou silně kladně korelovány 0,905. MS Excel: Data – Analýza – Analýza dat – Korelace

  23. Korelační analýza ! Příklad: Český hydrometeorologický ústav v Praze měřil na stanicích s různou nadmořskou výškou průměrnou roční teplotu půdy. Údaje jsou uvedeny v následující tabulce.Existuje mezi oběma proměnnými nějaká závislost?

  24. Korelační analýza ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Elementární metody popisu závislosti: korelační koeficient ryx = -0,835 Vzhledem k malému počtu hodnot provedu test lineární závislosti. H0: mezi proměnnými není lineární závislost HA: mezi proměnnými je lineární závislost P-hodnota vypočtená online kalkulátorem (http://vassarstats.net/rsig.html): p-hodnota = 0,0025. Zamítáme Ho. Platí Ha mezi proměnnými je lineární závislost.

  25. Korelační analýza ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Elementární metody popisu závislosti: Spearmanův korelační koeficient pořadí rs= -0,8833 Ze všech výše uvedených nástrojů vyplývá závěr: Jedná se o silnou závislost, ne však deterministickou (kromě výšky působí na teplotu i jiné faktory). S rostoucí výškou průměrná teplota půdy klesá.

  26. Korelační analýza ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Elementární metody popisu závislosti: bodový graf

  27. Regresní analýza Co je to regresní analýza? Souhrn statistických metod a postupů a • slouží k detailnímu pochopení závislosti mezi dvěma nebo více číselnými proměnnými, • slouží k odhadu hodnot vysvětlované proměnné pro známé hodnoty vysvětlující proměnné. Aplikace regresní analýzy: • analýza závislosti dvou číselných proměnných, • analýza závislosti více číselných proměnných, • analýza vývoje ukazatele v čase (závislost ukazatele na proměnné čas).

  28. Regresní analýza Jednoduchá regresní analýza Popisuje závislost dvou číselných proměnných z nichž jedna je nezávislá (vysvětlující proměnná) a jedna je závislá (vysvětlovaná proměnná). Příklad: závislost koncentrace ozónu na intenzitě slunečního záření. Příklad: závislost koncentrace prachových částic v ovzduší na atmosférickém tlaku. Příklad: závislost výšky sněhové pokrývky na nadmořské výšce.

  29. Regresní analýza Vícenásobná regresní analýza Popisuje závislost více číselných proměnných z nichž více je nezávislých (vysvětlující proměnné) a jen jednaje závislá (vysvětlovaná proměnná). Příklad: závislost koncentrace ozónu na intenzitě slunečního záření, délce slunečního záření, intenzitě automobilové dopravy, tlaku. Příklad: závislost koncentrace prachových částic v ovzduší na atmosférickém tlaku, teplotě, vlhkosti, rychlosti větru. Příklad: závislost výšky sněhové pokrývky na nadmořské výšce, délce slunečního záření, typu vegetace, sklonu svahu, směru svahu.

  30. Regresní analýza Regresní model Zjednodušené zobrazení reality. Závislost popisuje pomocí rovnice (v grafu křivka). y = η+ ε Např. pomocí přímky: y = β0 + β1x + ε(lineární závislost) Deterministická složka Náhodná složka(popisuje vliv vysvětlující(všechny ostatní, proměnné)nepopsané vlivy)

  31. Regresní analýza Deterministická složka ηPopisuje závislost mezi hlavními (pozorovanými) proměnnými. Je vyjádřena konkrétní matematickou funkcí (přímka, hyperbola, parabola atd.) Náhodná složka εPopisuje závislost vysvětlované proměnná na neznámých nebo nepozorovaných proměnných a popisuje i vliv náhody.Vyjadřuje se pravděpodobnostní funkcí (normální rozdělení).

  32. Regresní analýza Která regresní přímka je vlastně správná? Pokud jsou pouze dva body, je to jejich spojnice. To ovšem není úloha pro statistiku.

  33. Regresní analýza Která regresní přímka je vlastně správná? Pokud je více bodů, je to již problém. Spojuje přímka jiné dva body? Spojuje přímka krajní body?

  34. Regresní analýza Která regresní přímka je vlastně správná?Pokud je více bodů, je to již problém. Prochází přímka mezi body? Spojuje přímka jiné dva body?

  35. Regresní analýza ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Pokud body proložíme přímkou, hovoříme o tzv. regresní přímce. Pokud by všechny body ležely na přímce, šlo by o model pouze s deterministickou složkou η.Body však leží i mimo – v modelu je deterministická složka η i náhodná složka ε.

  36. Regresní analýza ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Která regresní přímka je ta správná?? Lze vložit přímku jen tak od oka (zelená). Lze protnout krajní body (červená). Lze použít nástroje regresní analýzy a nalézt přímku, která prochází nejblíže všem bodům (černá).

  37. Regresní analýza ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Přímka procházející nejblíže všem bodům je vždy jen jedna!K jejímu nalezení slouží metoda nejmenších čtverců (MNČ). Vybere ze všech možných přímek takovou, pro kterou je součet druhých mocnin (čtverců) odchylek bodů od přímky (ei2) minimální. e2 e5 e1 e3 e4 e6 e7 e8 e9

  38. Regresní analýza ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Přímka označená jako 1 je blíže k bodům, součet čtverců odchylek je menší než u přímky označené jako 2. Přímka 1 je vhodnější. přímka 2 přímka 1

  39. Regresní analýza Metoda nejmenších čtverců Nástroj k určení bodových odhadů koeficientů výběrové regresní přímky: ŷ = b0 + b1x Výběrová je proto, že je založena pouze na výběrových datech. Koeficienty b0 , b1jsou výběrové (empirické) regresní koeficienty. Oproti tomu regresní přímka: η = β0 + β1x ,je založena na datech základního souboru (ta většinou nejsou k dispozici), proto je tento model konstruován na základě odhadu.

  40. Regresní analýza Metoda nejmenších čtverců Je založena na řešení soustavy normálních rovnic (pro regresní přímku s neznámými b0 a b1): jejichž řešením je:

  41. Regresní analýza ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Pomocí metody nejmenších čtverců byla odhadnuta regresní přímka ve tvaru ŷ = 10,795 – 0,00541 ·x , nebo také: průměrná teplota půdy = 10,795 - 0,00541·nadmořská výška. Pozn. V grafu z MS Excel je rovnice zapsána jako výstup volby „Přidat spojnici trendu“ – typ: Lineární.

  42. Regresní analýza ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Pomocí metody nejmenších čtverců byla odhadnuta regresní přímka ve tvaru ŷ = 10,795 – 0,00541 ·x. Koeficient b0 = 10,795 je průsečík přímky s osou Y. V nadmořské výšce 0 metrů n.m. by podle modelu byla průměrná teplota půdy 10,795 0C.

  43. Regresní analýza ! Příklad: Český hydrometeorologický ústav v Praze měřil ... Pomocí metody nejmenších čtverců byla odhadnuta regresní přímka ve tvaru ŷ = 10,795 – 0,00541 ·x. Koeficientb1 = 0,00541 je směrnicí přímky a udává její sklon. Je záporný - přímka klesá. S každým dalším metrem nadmořské výšky klesá průměrná teplota půdy v průměru o 0,005410C.

  44. Regresní analýza ! Příklad: Český hydrometeorologický ústav v Praze měřil ... MS Excel: Data – Analýza – Analýza Dat – Regrese Do políčka „Vstupní oblast Y“ zadáváme závislou proměnnou. Do políčka „Vstupní oblast X“ zadáváme nezávislou proměnnou. Data byla vložena včetně popisků proto zaškrtneme „Popisky“.

  45. Regresní analýza ! Příklad: Český hydrometeorologický ústav v Praze měřil ... MS EXCEL: Data – Analýza – AnalýzaDat – Regrese Regresní přímka ve tvaru:ŷ = 10,795 – 0,00541 ·x.

  46. Regresní analýza Pro různý počet pozorování se mohou odhadnuté regresní koeficienty b0a b1lišit. Vedle bodových odhadů regresních koeficientů lze provádět i jejich intervalové odhady. V praxi mají význam především oboustranné intervaly spolehlivosti: bi- t1-α/2(n-p) ·s(bi) < βi<bi+ t1-α/2(n-p) ·s(bi) , bi … bodový odhad regresního koeficientu, t1-α/2(n-p) … je kvantil Studentova t rozdělení, p … je počet koeficientů modelu, s(bi) … je směrodatná chyba odhadu koeficientu bi.

  47. Regresní analýza ! Příklad: Český hydrometeorologický ústav v Praze měřil ... 95% interval spolehlivosti pro koeficient b0. bi- t1-α/2(n-p) ·s(bi) < βi<bi+ t1-α/2(n-p) ·s(bi) Interval spolehlivosti lze počítat ručně podle vzorce, nebo jej přímo přečíst z výstupu počítače.

  48. Regresní analýza ! Příklad: Český hydrometeorologický ústav v Praze měřil ... 95% interval spolehlivosti pro oba koeficienty. V nadmořské výšce 0 metrů n.m. má s pravděpodobností 95 % průměrná teplota půdy hodnotu v rozmezí 9,74 0C až 11,85 0C. S každým dalším metrem nadmořské výšky klesá s pravděpodobností 95 % průměrná teplota půdy o hodnotu v rozmezí od 0,00858 0C do 0,00224 0C.

  49. Regresní analýzaAlternativní modely Vedle regresní přímky existuje i řada dalších funkcí, jejichž koeficienty lze pomocí metody nejmenších čtverců odhadnout, Nejznámější jsou: • parabola, • hyperbola, • logaritmická funkce, • polynom.

  50. Regresní analýzaAlternativní modely Regresní parabola η = β0 + β1x + β2x2 Funkční závislost Stochastická závislost

More Related