회귀 분석 (regression analysis) 001
1. 개념 - 독립변수와 종속변수 사이의 선형적인 관계를 모델링한다. 그로부터 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 분석한다. 또한 추정된 회귀모형에서, 회귀계수 및 독립변수에 주어진 값을 통해 종속변수를 예측하는 역할을 한다. 2. 회귀 모형의 가정 - 회귀 모형을 만들기 위해서는 선형성, 독립성, 등분산성, 비상관성, 정규성의 5개 가정이 성립되어야한다. 그렇지 않으면, 정상적인 회귀모형이 생성되지 않는다. 1) 선형성 : 독립변수와 종속변수의 관계가 선형적이어야 한다. 2) 독립성 : 단순선형회귀모형에서는 잔차와 독립변수의 값이 서로 독립적이어야한다. 다중선형회귀모형에서는 독립변수 간에 상관성이 없이 독립적이어야한다. 3) 등분산성 : 독립변수와 무관하게 잔차의 분산은 일정해야한다. 즉, 잔차는 고르게 분포되어야한다. 4) 비상관성 : 관측치와 잔차는 서로 상관이 없어야한다. 잔차간에 서로 독립이면 비상관성이 있다고 볼 수 있다. 5) 정규성 : 잔차의 분포는 정규분포를 따라야한다. 시각적으로는 Q-Q plot 을 통해 잔차의 정규성을 검정할 수 있고, 통계적 방법으로는 샤피로-윌크 검정이나 콜모고로프-스미르노프 검정을 통해 정규분포를 따르는지 확인 할 수 있다. 3. 회귀 모형 검증 - 회귀계수 추정, 변수선택 등을 통해 최종적인 회귀모형을 선택했다면, 해당 모형이 적절한지 확인이 필요하다. - 회귀 모형 검증을 위해 아래의 항목에 대하여 확인한다. 1) 회귀 모형이 통계적으로 유의미 한지 확인한다. - 유의수준 5% 하에서 F-통계량의 p-value 가 0.05보다 작으면 추정된 회귀 모형이 통계적으로 유의하다고 할 수 있다. 2) 회귀 계수들이 유의미한지 확인한다. - 각 회귀계수의 t-통계량을 구하고 유의수준 5% 하에서 p-value 가 0.05보다 작으면 추정된 회귀 계수는 통계적으로 유의하다고 할 수 있다. ...