600 likes | 998 Vues
Managerial Decision Modeling. A Practical Introduction to Management Science , 5ed by Cliff Ragsdale. Chapter 9. Linear Regression Models. Introduksjon til Regresjonsanalyse (RA).
E N D
Managerial Decision Modeling A Practical Introduction to Management Science , 5ed by Cliff Ragsdale
Chapter 9 Linear Regression Models LOG350 Operasjonsanalyse
Introduksjon til Regresjonsanalyse (RA) • Regresjonsanalyse brukes for å estimere en funksjon f( ) som beskriver sammenhengen mellom en kontinuerlig avhengig variabel (Y) og en eller flere uavhengige variabler (X). Y = f(X1, X2, X3,…, Xn)+e Merk: • f( ) beskriver densystematiskevariasjonen i sammenhengen. • eangirdenusystematiskevariasjonen(eller stokastisk avvik) i sammenhengen. LOG350 Operasjonsanalyse
Et eksempel • Betrakt forholdet mellom reklame (X1) og salg (Y) for et selskap. • Det eksisterer sannsynligvis en sammenheng... ...når reklamen øker, bør også salget øke. • Men hvordan kan vi måle og kvantifisere denne sammenhengen ? LOG350 Operasjonsanalyse
Data LOG350 Operasjonsanalyse
Et scatterdiagram over dataene Salg (i $1,000s) Reklame (i $1,000s) LOG350 Operasjonsanalyse
Y Regresjonskurve Sannsynlighetsfordelinger for Y ved forskjellige nivåer av X X Karakteristika for statistiske sammenhenger LOG350 Operasjonsanalyse
Dataene antyder derfor følgende regresjonsmodell, • Denne modellen representerer den sanne sammenhengen mellom hele populasjonen av reklame- og salgs-verdier. • Den estimerte regresjonsfunksjonen (basert på vårt data-utvalg) angis som følger, En enkel regresjonsanalysemodell • Scatterdiagrammet antyder en lineær sammenheng mellom reklame og salg. LOG350 Operasjonsanalyse
Minste kvadraters metode(“least squares”)finner de verdiene som minimerer: Finne beste tilpassing (best fit) • Vi må tildele numeriske verdiertilb0ogb1 • HvisESS=0 så passer vår estimerte funksjon perfekt til dataene. • ESS = Error Sum of Squares, dvs. sum kvadrerte avvik. • Vi kan løse problemet ved hjelp av Solver... LOG350 Operasjonsanalyse
Bruk av Solver... LOG350 Operasjonsanalyse
Den estimerte regresjonsfunksjonen • Den estimerte regresjonsfunksjonen er : LOG350 Operasjonsanalyse
Legge til add-ins i Excel Klikk på Start-knappen Klikk på Add-Ins Velg Excel Options Velg Excel Add-ins og klikk på Go… LOG350 Operasjonsanalyse
Legge til add-ins i Excel Velg Analysis ToolPak Dukker opp sist under Data LOG350 Operasjonsanalyse
Bruk av regresjonshjelpemidler • Excel har også innebygde funksjoner for regresjonsanalyse som : • Er enklere å bruke • Gir mye mere informasjon om problemet LOG350 Operasjonsanalyse
Regresjonsanalyse i Excel LOG350 Operasjonsanalyse
Regresjonsresultat LOG350 Operasjonsanalyse
TREND() funksjonen TREND(Y-område; X-område; X-verdi for prediksjon) der: Y-områdeer området i regnearket som inneholderverdiene for den avhengige Y variabelen, X-områdeer området i regnearket som inneholder verdiene for de(n) uavhengige X variablene, X-verdi for prediksjoner en celle (eller celler) som inneholder verdier for X variabelen(e)som vi ønsker å estimerte Y verdier til. Merk: TREND( ) funksjonenblirdynamiskoppdaterthver gangdataene tilfunksjonen endres. Imidlertid gir den ikke den statistiske informasjonen som regresjonsanalysen gir. LOG350 Operasjonsanalyse
2 = 0.9691 R Evaluere “tilpassingen” 600.0 500.0 400.0 300.0 Salg (i $000s) 200.0 100.0 0.0 20 30 40 50 60 70 80 90 100 Reklame (i $000s) LOG350 Operasjonsanalyse
R2Determinasjonskoeffisienten • R2indikerer hvor godt den estimerte regresjonsfunksjonen passer dataene. • 0 ≤ R2≤ 1 • Den måler andelen av den totale variasjonen i Y rundt gjennomsnittet, som kan forklares med den estimerte regresjonsfunksjonen. • For å forstå dette bedre, betrakt følgende figur... LOG350 Operasjonsanalyse
Yi(faktisk verdi) { Y * } ^ Yi - Yi ^ Yi - Y Yi (estimert verdi) } ^ Yi - Y Y ^ Y = b0 + b1X X Dekomponering av estimeringsfeil Uforklarte avvik ESS Totalavvik TSS Forklarte avvik RSS LOG350 Operasjonsanalyse
Den totale sum av kvadrerte avvik(omkring gjennomsnittet) Eller : TSS = ESS + RSS TSS = Total Sum of Squares ESS = Error Sum of Squares RSS = Regression Sum of Squares LOG350 Operasjonsanalyse
Anta at vi er interessert i å estimere forventet salgsnivå hvis $65,000 brukes påreklame. Prediksjoner for markedsføring • Estimert salg = 36.342 + 5.550 * 65 • = 397.092 • Så hvis $65,000 brukes på reklame, vil vi forvente at omsetningen i gjennomsnitt vil ligge på $397,092. LOG350 Operasjonsanalyse
Regresjonens standardavvik • Regresjonens standardavvik måler spredningen av de faktiske data omkring den estimerte regresjonslinjen. derk = antall uavhengige variabler • I vårt eksempel erSe= 20.421 • Dette er nyttig hvis vi skal lage prediksjoner... LOG350 Operasjonsanalyse
Et tilnærmetprediksjonsintervall • Et tilnærmet 95% prediksjonsintervall for en ny verdi til Y nårX1=X1hkan finnes ved : der: • Eksempel: Hvis $65,000 brukes på reklame: • 95% nedre prediksjonsintervall = 397.092 - 2*20.421 = 356.250 • 95% øvre prediksjonsintervall = 397.092 + 2*20.421 = 437.934 • Hvis vi bruker $65,000 i reklame kan vi være omtrent 95% sikre på at virkelig omsetning vil ligge mellom $356,250 og $437,934. LOG350 Operasjonsanalyse
Et eksakt prediksjonsintervall • Et (1-a)% prediksjonsintervallfor en ny verdi påYnårX1=X1hfinnes ved : der: LOG350 Operasjonsanalyse
t-Tabell LOG350 Operasjonsanalyse
Et eksempel • Hvis $65,000 brukes til reklame: 95% nedre prediksjonsintervall = 397.092 - 2.306*21.489 = 347.556 95% øvre prediksjonsintervall = 397.092 + 2.306*21.489 = 446.666 • Hvis vi bruker $65,000 på reklame kan vi være 95% sikrepå at faktisk omsetning vil være mellom $347,556 og $446,666. • Dette intervallet er bare omtrent $20,000 størreenn det tilnærmedeberegnet tidligere,men er mye vanskeligere å beregne. • Den ekstra nøyaktigheten er ikke bestandig verd bryet. LOG350 Operasjonsanalyse
Salg 575 Prediksjonsintervaller basert påSe 525 475 425 375 325 Regresjonslinjen 275 225 Prediksjonsintervaller basert påSp 175 125 25 35 45 55 65 75 85 95 Reklame Sammenligning av prediksjonsintervall-teknikker LOG350 Operasjonsanalyse
Prediksjonsintervall i Excel LOG350 Operasjonsanalyse
Konfidensintervall for gjennomsnittet • Et (1-a)% konfidensintervall for det virkeligegjennomsnittet forYnårX1=X1her gitt ved : der: LOG350 Operasjonsanalyse
En kommentar til ekstrapolering • Prediksjoner basert på en estimert regresjonsligning vil ha liten eller ingen gyldighet hvisverdier til den uavhengige variabelen er langt utenfor det intervall som regresjonsanalysen er basert på. (Dvs. Når X gis en verdi som er mye mindre eller større enn de verdier som finnes i datasettet.) LOG350 Operasjonsanalyse
Regresjonens gyldighetsområde Konfidensintervall Y Regresjonslinje X LOG350 Operasjonsanalyse
Regresjonsresultatene i Excel LOG350 Operasjonsanalyse
Hvis hver uavhengig variabel varierer lineært med Y,så vil den estimerte regresjonsfunksjonen være : MultippelRegresjonsanalyse • Mange regresjonsanalyser omfatter mer enn én uavhengig variabel (dvs. har mange forklaringsvariabler). • De optimale verdienebi kan fortsatt finnes ved å minimere ESS. • Resultatet er en funksjon som tilpasserethyperplantil datautvalget. LOG350 Operasjonsanalyse
Eksempel på regresjonsplanfor to uavhengige variabler Y * * * * * * * * * * * * * * * * * * * * * * * X2 X1 LOG350 Operasjonsanalyse
Multippel regresjonsanalyse:Eiendomstakst • En eiendomsmegler ønsker å lage en modell til hjelp ved fastsettelsen av en nøytral markedsverdi av eneboliger. • Tre uavhengige variabler vil bli brukt for å estimere salgsverdien på et hus : • Totalt flateinnhold • Antall soverom • Størrelse på garasjen LOG350 Operasjonsanalyse
Datagrunnlag LOG350 Operasjonsanalyse
Valg av regresjonsmodell • Vi ønsker å finne den enkleste modellen som gir tilstrekkelig forklaring av den systematiske variasjonen i Y variabelen. • Vilkårlig bruk av alle uavhengige variabler kan resultere i overtilpassing. • Et utvalg gjenspeiler karakteristika: • Representative for populasjonen • Spesifikk for utvalget • Vi ønsker å unngå å tilpasse regresjonen til utvalgsspesifikke karakteristika – dvs. overtilpasse modellen. LOG350 Operasjonsanalyse
(Flateinnhold) (Garasjer) (Soverom) • De viktigste regresjonsresultatene er : VariablerJustert Parameter i modellen R2 R2 Se Estimater X1 0.870 0.855 10.299 b0=9.503, b1=56.394 X2 0.759 0.731 14.030 b0=78.290, b2=28.382 X3 0.793 0.770 12.982 b0=16.250, b3=27.607 Modeller med én uavhengig variabel • Med tanke på enkelhet, kan vi foreta regresjonsanalyse av følgende tre modeller: • Modellen basert påX1forklarer 87% av variasjonen i Y, resterende 13% er uforklart. LOG350 Operasjonsanalyse
Evaluering av modellen Større enn 5%. Ikke signifikant forskjellig fra 0. LOG350 Operasjonsanalyse
Viktig programvarebegrensing Ved bruk av mer enn én uavhengig variabel, må alle X-variablene være plassert i ett sammenhengende område av celler. (Dvs. i tilgrensende kolonner.) LOG350 Operasjonsanalyse
(Flateinnhold & Garasjer) (Flateinnhold & Soverom) • De viktigste regresjonsresultatene er : VariablerJustert Parameter i modellen R2 R2 Se Estimater X1 0.870 0.855 10.299 b0=9.503, b1=56.394 X1 & X2 0.939 0.924 7.471 b0=27.684, b1=38.576 b2=12.875 X1 & X3 0.877 0.847 10.609 b0=8.311, b1=44.313 b3=6.743 Modeller med to forklaringsvariabler • Anta at vi kjører regresjonsanalysen for følgende to modeller : • Modellen basert påX1ogX2forklarer 93.9% av variasjonen i Y, resterende 6.1% er uforklart. LOG350 Operasjonsanalyse
Justert R2 • Etter hvert som nye uavhengige variabler tilføyes i modellen : • R2(determinasjonskoeffisienten) kan bare øke. • Justert-R2kan økeellerminke. • R2kan økes kunstig ved å legge til enhvilken som helstny uavhengig variabel. • Vi kan sammenlignejustert-R2verdiersom en heuristikk(brukbar forenkling) for å avgjøre om en ny uavhengig variabel har vært til hjelp i å forbedre regresjonsmodellen. LOG350 Operasjonsanalyse
Multikolineæritet • Det bør ikke overraske at å legge til X3(antall soverom)til modellen medX1(total grunnflate)ikke utgjorde noen signifikant forbedring. • Begge variablene representerer det samme (eller lignende forhold) – størrelsen på huset. • Disse X-variablene er sterkt korrelert (kolineære). • Multikolineæritet bør unngås. LOG350 Operasjonsanalyse
De viktigste regresjonsresultatene er : VariablerJustert Parameter i modellen R2 R2 Se Estimater X1 0.870 0.855 10.299 b0=9.503, b1=56.394 X1 & X2 0.939 0.924 7.471 b0=27.684, b1=38.576, b2=12.875 X1, X2 & X3 0.943 0.918 7.762 b0=26.440, b1=30.803, b2=12.567, b3=4.576 Modell med tre uavhengige variabler • Anta at vi foretar regresjonsanalyse med følgende modell med tre forklaringsvariabler: • Modellen basert påX1ogX2synes å være best: • Størst justert-R2 • LavestSe(mest presise prediksjonsintervall) LOG350 Operasjonsanalyse
Evaluering av modellen Skifter fortegn. Ikke signifikant forskjellig fra 0. LOG350 Operasjonsanalyse
Residual Plots LOG350 Operasjonsanalyse
Et 95% prediksjonsintervall for faktisk salgspris er omtrent : • 95% nedre prediksjonsintervall = 134.444 - 2*7.471 = $119.502 • 95% øvre prediksjonsintervall = 134.444 + 2*7.471 = $149.386 Foreta prediksjoner • La oss estimere salgsprisen for et hus på 2,100 m2og med 2 garasjer: • Estimert gjennomsnittlig salgspriser $134,444 LOG350 Operasjonsanalyse
Eksempel: Om det finneset svømmebasseng, • Eksempel: Hvorvidt taket er i god, gjennomsnittligeller dårlig forfatning, Binære forklaringsvariabler • Andre typer ikke-kvantifiserbare faktorer kan inkluderes i analysen ved å bruke binærvariabler. LOG350 Operasjonsanalyse
Polynomisk Regresjon • Noen ganger er sammenhengen mellom en avhengig og uavhengig variabel ikke lineær. • Grafen antyder en kvadratisk sammenheng mellom flatemål (X) ogsalgspris (Y). LOG350 Operasjonsanalyse