Regresní a korelační analýza

Regresní a korelační analýza Ing. Sára Bisová VŠE, Katedra ekonometrie

OBSAH PŘEDNÁŠKY • Typy proměnných • Korelační analýza • Regresní analýza • Metoda nejmenších čtverců • Ekonometrická analýza • Typydat • Software

ÚVOD • Korelační a regresní analýza: k poznání a matematickému popisu statistických závislostí, ověřování různých teorií apod. • Korelační analýza: zabývá se vzájemnými závislostmi mezi veličinami (intenzita vzájemného vztahu – lineární závislosti) • Regresní analýza: analýza jednostranných závislostí mezi vysvětlovanou (závisle) proměnnou a vysvětlující (nezávisle) proměnnou. Popis průběhu závislosti, určitou analytickou funkcí. • Cíle – co nejpřesnější kvantifikace vlivu určitého faktoru na jiný, odhalení kauzálních vztahů (příčina-následek), co nejpřesnější model k vysvětlované proměnné k predikcím

TYPY PROMĚNNÝCH • kvantitativní • diskrétní – pouze celočíselné obměny (počet dětí, pohlaví) • spojité – libovolné hodnoty z určitého intervalu (příjem, cena, věk) • kvalitativní • ordinální (pořadová) – kategorie v určitém logickém pořadí (vzdělání, seniorita, počet dětí, úroveň spokojenosti) • nominální – text, číselné kódy, ne ordinální infok porovnání jednotek dle nominálního znaku (rodinný stav, region, pohlaví) • kategoriální (obměny jsou kategorie) -nominální, ordinální a kvantitativní diskrétní • dichotomické (alternativní) – binární • vícekategoriální(množné)

KORELAČNÍ ANALÝZA • Konstrukce korelačních koeficientů: • Vzájemné vztahy • Pouze dvě veličiny • Nerozeznáme kauzalitu

KORELAČNÍ ANALÝZA • Tabulky sdružených četností, pravděpodobností (korelační tabulka) • Grafy

REGRESNÍ ANALÝZA • Zajímáme se o podmíněné průměry (podmíněné střední hodnoty) vysvětlované proměnné při změnách proměnných vysvětlujících – hledáme vhodný model • Snaha poznat příčinné vztahy mezi veličinami • Snaha matematicky popsat vztahy (závislosti) mezi veličinami • Hledáme co nejlepší matematickou funkci (empirickou regresní funkci) popisující průběh podmíněné střední hodnoty (hypotetickou (populační) regresní funkci) • Korelační analýza hovoří o intenzitě závislosti a regresní analýza o průběhu závislosti mezi dvěma znaky; aplikace společně

REGRESNÍ ANALÝZA • Volba vhodné regresní funkce (tvar, proměnné): • Interpolační kritéria • Směrodatné chyby odhadů • t-testy • F-testy • Koeficient determinace • Extrapolační kritéria • Predikce ex-post a ex-ante

MODELY • Jednorovnicové(LRM) • Vícerovnicové (MSR, VAR) • Lineární • Nelineární (produkční funkce, ziskové funkce, nákladové funkce)

KLASICKÝ LINEÁRNÍ REGRESNÍ MODEL • Příklad: Určete, zda existuje závislost spotřeby domácností na jejich disponibilním příjmu (Keynesova hypotéza) • Předpokládáme, že závislost existuje a má lineární tvar: • Protože závislost není úplná a neplatí vždy (např. některá domácnost bude s rostoucím příjmem spotřebovat stále stejně), do modelu zahrneme náhodný vliv (náhodnou složku u) Toto je model pro celou populaci, hovoříme tedy o ABSTRAKTNÍM MODELU

KLRM • Pro odhad potřebujeme nějaká data (většinou výběr) Toto je model pro konkrétní výběr, hovoříme tedy o KONKRÉTNÍM MODELU

METODA NEJMENŠÍCH ČTVERCŮ • Jak najít přímku, tak aby co nejlépe popisovala závislost? Tj. byla co nejblíže všem bodům? • Chceme minimalizovat součet čtverců odchylek (reziduí)

Zápis KLRM po složkách • k… počet exogenních proměnných v modelu • k + 1 …počet odhadovaných parametrů • n… počet pozorování, která máme k dispozici • Endogenní = Vysvětlovaná proměnná • Exogenní = Vysvětlující proměnné • Predeterminované = Exogenní + Endogenní zpožděné

Maticový zápis KLRM

MNČ b získáme tak, že ? Kdy je funkce minimální ? První derivace funkce je nulová

ODVOZENÍ ODHADOVÉ FUNKCE MNČ • Vyjdeme z maticového vyjádření konkrétního modelu:

MNČ • Momentová matice: … musí být symetrická, čtvercová, regulární (tj. nenulový determinant) • potom platí (odhadová funkce MNČ): • azískáme vektor:

PŘÍKLAD • Stanovte odhad parametrů β0 a β1, aby součet čtverců odchylek vyrovnaných hodnot od hodnot napozorovaných byl minimální • Napište odhadovou funkci • Vypište jednotlivé položky a spočítejte • Vypočítejte vyrovnané hodnoty • Vypočítejte rezidua ei

DATA V GRAFU

Výpočty:

Výpočty: • b1 = 2, 667; b2 = 0,667 • Y = 2,667 + 0,667 X + e

Rezidua a vyrovnané hodnoty Součet všech reziduí = 0,33 + 0 + 1,33 + 0 – 1,66 = 0

REGRESE vs. KORELACE • Máme-li regresi: • Pak odhad parametru metodou MNČ: • Což je:

NÁHODNÁ SLOŽKA – G-M předpoklady • Gauss-Markovy předpoklady: • E(u) = 0 • Náhodné vlivy se vzájemně vynulují, jde o nesystematické kolísání kolem nulové hodnoty • Podstatné např. pro testování hypotéz o parametrech modelu, pro jejich odhady b usuzujeme totiž na rozdělení náhodné složky • E(uuT) = σ2In …kovarianční matice • Konečný a konstantní rozptyl = homoskedasticita • → Porušení: Heteroskedasticita • Náhodné složky jsou sériově nezávislé • → Porušení: Autokorelace

NÁHODNÁ SLOŽKA – G-M předpoklady • X je nestochastická matice – E(XTu) = 0 • Veškerá náhodnost je obsažena v náhodné složce • Kovariance je nulová, podmíněná střední hodnota takéE(u|X) = 0 – jedině tak jsme schopni zkoumat kauzalitu a c.p. • X má plnou hodnost k • matice X neobsahuje žádné perfektně lineárně závislé sloupce pozorování vysvětlujících proměnných (hodnost matice rovna počtu sloupců) → Porušení: Multikolinearita - důsledek - nelze spočítat neb matice X není regulární a nelze vůbec provést odhad - realita – zpravidla ne perfektně kolineární, ale silně – TÝKÁ SE KONKRÉTNÍHO VÝBĚRU NE ZÁKLADNÍHO SOUBORU

NÁHODNÁ SLOŽKA

VLASTNOSTI BODOVÉ ODHADOVÉ FUNKCE • NESTRANNOST • VYDATNOST

EKONOMETRICKÁ ANALÝZA • Formulace problému (hypotéza) • Strukturace problému za pomoci teorie – tvorba ekonomického modelu • Data: • sběr • kontrola a analýza dat – deskriptivní statistiky, missingy • transformace, tvorba nových proměnných (dummies, atd.), hledání proxy proměnných atd. • Konstrukce ekonometrického modelu – volba vhodné ekonometrické koncepce, stochastický faktor • Volba odhadové techniky – odhad • Interpretace výsledků, verifikace (ekonomická, statistická, ekonometrická)

TEORIE • cena substitutu=>Q • důchod=>Q • cena auta => pravděpodobnost luxisní SPZ • cena komplementu=>Q • ?důchod=>Q • výše trestu=>Q zločinů • počet policistů vs. zabráněné zločiny • Advertising vs. Extra consumers

MĚŘENÍ REALITY • ošklivé, kostrbaté, nespojité, nelineární,… • nikdy ne ceteris paribus • téměř vždy Y=>X; X=>Y; Y<=>X a existuje Z

PŘÍKLAD HOUSING • xi : • rozloha • počet pokojů • počet pater • dopravní dostupnost • rekonstrukce • cihla • novostavba • park do 500 m • atraktivita lokality,…

TYPY DAT • Průřezová • Časové řady • Pooled-cross-section • Panelová

Průřezová data • Definice • Co je „pozorování“? • Náhodný výběr • Neexperimentální charakter dat • Velikost a nezávislost jednotek • Výhody a nevýhody

Časové řady • Budou předmětem samostatných přednášek • Definice • Co je „pozorování“? • Problém (ne)závislosti v čase • Frekvence měření • Výhody a nevýhody

Pooledcrosssections • Definice • Rok se stává • „proměnnou“

Panelová data • Definice • Nejlepší • Nejdražší • Co je „pozorování“? • Indexy • Vyvážený vs. nevyvážený panel • Kauzalita

Jak data „uchopit“? (ojetá auta)

DUMMY PROMĚNNÉ V LRM • Např. předpokládáme jinouúrovňovou konstantupro muže a ženy • Aplikace na příkladHousing?

SUMMARY STATISTICS

Kontrola 1: Popisné charakterisitky • Popisné charakteristiky (průměry, mediány, max, min, rozptyly, počty pozorování, ad.) • Missing values • Četnosti (intepretace β)

TRANSFORMACE V KLRM

TRANSFORMACE V KLRM, DATA • Mocniny (parabolická regrese) • !!!interpretace • Tvorba nových proměnných • DUMMY • Interakce • Tvorba jiných nových proměnných nebo použití PROXY proměnných

Příklad • Odhadněte závislost spotřeby (CONS) na disponibilním důchodu (INC), agregátní data v mil. Kč. • Proveďte • Specifikaci • Kvantifikaci • Verifikaci

A. Specifikace • CONS – endogenní proměnná (vysvětlovaná) • INC – exogenní proměnná (vysvětlující) • Forma závislosti: CONSt = β0 + β1INCt +ut • Ekonomický předpoklad: • S růstem důchodu, roste spotřeba – kladné znaménko u koeficientu β1, • β1 náleží do intervalu (0,1) – v dlouhodobém horizontu platí: nemůžu spotřebovat více, než vydělám

B. Kvantifikace • Pomocí výběru n = 47, budeme odhadovat model CONSt = b0 + b1INCt + et CONSt^ = b0 + b1INCt • Použijeme např. Gretl a MNČ (OLS)

B. Kvantifikace

B. Kvantifikace • Odhadnutý regresní model: CONSt = -7054 + 0,76INCt +et CONSt^ = -7054 + 0,76INCt • b1náleží do intervalu (0,1) • Absolutní pružnost • Zvýší-li se důchod (INC) o jednu Kč, zvýší se spotřeba (CONS) v průměru o 0,76 Kč, (ceterisparibus?)

C. Verifikace statistická • Standard Error • Standardní chyba regresních koeficientů podle následujícího vztahu • Slouží k určení významnosti parametrů, k intervalovým odhadům • s je odhad σ – u nás ve výstupu je to S.E. of regression (odhad rozptylu reziduí)

Verifikace statistická • t-testy parametrů • t statistika slouží k určení významnosti jednotlivých parametrů v modelu. • H0: βj = 0 • H1: βj ≠ 0 • t-statistika má při platnosti nulové hypotézy rozdělení t(n-k) • Obecně pro t-statistiku (t-ratio, t-poměr) platí • (pro velké vzorky = 1,96 – cca 2) popř. p-value ≤ α → zamítám hypotézu H0 o nevýznamnosti proměnné v modelu ve prospěch alternativní hypotézy, proměnná je tedy významná na hladině významnosti α • popř. p-value > α → nepodařilo si mi zamítnout hypotézu H0 o nevýznamnosti proměnné v modelu, proměnná je nevýznamná na hladině významnosti α

Regresní a korelační analýza

Regresní a korelační analýza

Presentation Transcript

Acute Ano-rectal Conditions

THE MANAGEMENT OF OBSTETRIC ANAL SPHINCTER INJURY EVIDENCE BASED

Patologia Perianal

Gastrointestinal Disorders

Treatment for Anal fistula

Advancement flaps for fistula in ano

Anal Cancer

FISH

Enfermedad por VIH 2011

Anal Cancer

Perianal suppuration anal abscess-fistula

Imaging of Anal Fistula

Anal Pain and Discharge

Anal Rectal Diseases

Minor anorectal conditions

4. Gerilme Analizi

Açımlayıcı Fa k t ö r Anal izi (AFA)

CONCEPTOS ACTUALES EN EL TRATAMIENTO DE LA FISTULA ANAL

소화기계통 Digestive System

Anal Cancer

Analitika II. Tömegspektrometria

Onkologisk behandling av GI cancer