선형통계모형 Linear Statistical Model

선형통계모형Linear Statistical Model 아주대학교 대학원 산업공학과 2009년 1학기

Weighted Least Squares Method • Unequal variance case • Weighted least squares method • Normal equation • Weighted LSE

Weighted LSE 에러의 분산이 다를 경우 사용 • Error 분산을알고 있는 경우 • Error 분산을모르는 경우 1) 추정 2) 적절한 pattern 을이용

Bias를 0으로 하고 분산을 최소화 RidgeRegression • Multicollinearity 의경우 • Biased estimator 를사용하여 MSE 를줄임 • Correlationtransform 에서 상수 c 는 ridge trace 에서결정

RobustRegression • Robustness : 가정의변화에 민감하지 않음 • Highlyinfluential case 가발생하였을 경우 1) measuringor recording error 인가검토 2) model 의적합성 검토 3) 다른 변수가 생략되었는가 검토 • Robust Regression 1) LAR (least absolute residual) or LAD(deviation) 2) IRLS(iterativelyreweightedleastsquares) 3) LMS (least median of squares)

Nonparametric Regression 세 개의 점의 중간을 선택한 것들로 선을 만듦 • Regression function 에특정한 형태를 가정하지 않음 • Lowessmethod – Simple regression case • Cleveland and Devlin – multiple regression case 1) 기준점에 대하여 다른 점(case)와의 거리를 구한다. 2) n 개의 데이터 중 일정비율 (q) 의 case 들에 대하여 가중치를 구한다. 는 가장 길이가 긴 것 3) 가중평균을 구한다. 데이터가 20개라면 선택 점에서 가까운 8개를 찾아서

RegressionTree • Predictor variable 이하나인 경우 - 독립변수를 몇 개의 구간으로 나누어 종속변수 설명 • Predictor variable 이여러 개인 경우 - 독립변수들을 몇 개의 cylinder 로나누어 종속변수 설명

RegressionTree • Growinga regression tree - number of regions r - split points • r = 2 X 의범위를 2개로 나눈다. R21과 R22 • r = 3 인경우 1) R21과 R22 중 하나를 택하여 나눈다. – sequentialapproach 2) 처음부터 3개의 region 으로나눈다.

RegressionTree • Numberof regions r - 계속하면 n 개의 region 이 됨 - MSE 와 MSPR (mean squared prediction error) 를고려함 validationdata set

Bootstrap Sampling • 현재의 sample 을모집단으로 간주하고, randomnumber 를 generate 하는방법

Autocorrelationin Time Series Data • Time Series : a time ordered sequence of observations of a variable. The variable is observed at discrete time points, usually equally spaced.

Autocorrelationin Time Series Data • Autocorrelated : correlated over time, i.e. correlated with past data • 회귀분석에서는 error 가 autocorrelated 될수 있는 것으로 가정 • Autocorrelation 있을경우의 문제점 1. 추정된 회귀계수는 편의(bias)가 있고, 최소분산을 갖지 않는다. 2. MSE가분산을 seriously underestimate 하게된다. 3. 회귀계수 추정치의 분산도 underestimate(굉장히 작은 값)된다. 4. 표준회귀분석에서의 신뢰구간이나 검정법을 적용하기 어렵다. Autocorrelation of lag k :

FirstOrder Autoregressive Error Model Indexed data는 반드시 Autocorrelation 체크 • Model white noise process

Durbin-Watson Test • 가정 : 1st order AR(Autoregressive) error 검정통계량 : ordinary LSE(Least Squares Error)수행 후 잔차 D > dU : H0채택 D < dL : H0기각 o/w(dU~dL사이에 있을 경우)결론을 내릴 수 없음

RemedialMeasure • Addition of Predictor Variable • Use of Transformed Variable • Cochrane-Orcutt Procedure • Hildreth-Lu Procedure

선형통계모형 Linear Statistical Model