회귀 분석 (regression analysis) 001
+ 이나스AI에는 인공지능 관련 다양한 강의가 있습니다.
- Object detection, Text To Speech, Reinforcement learning, OCR, Chatbot, Time series prediction,
- Meta learning, eXplainable AI, Transformer/BERT/GPT, Graph-based ML, etc
- 소스코드, 다이어그램 및 중간데이터에 기반하여 인공지능 알고리즘들의 작동원리와 구조를 이해하기 쉽고 정확하게 설명합니다.
+ 작업할 때 켜놓는 라이브 스트리밍 study with me 채널도 운영하고 있습니다.
1. 개념
- 독립변수와 종속변수 사이의 선형적인 관계를 모델링한다. 그로부터 하나 또는 그 이상의 독립변수들이 종속변수에 미치는 영향을 분석한다. 또한 추정된 회귀모형에서, 회귀계수 및 독립변수에 주어진 값을 통해 종속변수를 예측하는 역할을 한다.
2. 회귀 모형의 가정
- 회귀 모형을 만들기 위해서는 선형성, 독립성, 등분산성, 비상관성, 정규성의 5개 가정이 성립되어야한다. 그렇지 않으면, 정상적인 회귀모형이 생성되지 않는다.
1) 선형성 : 독립변수와 종속변수의 관계가 선형적이어야 한다.
2) 독립성 : 단순선형회귀모형에서는 잔차와 독립변수의 값이 서로 독립적이어야한다. 다중선형회귀모형에서는 독립변수 간에 상관성이 없이 독립적이어야한다.
3) 등분산성 : 독립변수와 무관하게 잔차의 분산은 일정해야한다. 즉, 잔차는 고르게 분포되어야한다.
4) 비상관성 : 관측치와 잔차는 서로 상관이 없어야한다. 잔차간에 서로 독립이면 비상관성이 있다고 볼 수 있다.
5) 정규성 : 잔차의 분포는 정규분포를 따라야한다. 시각적으로는 Q-Q plot 을 통해 잔차의 정규성을 검정할 수 있고, 통계적 방법으로는 샤피로-윌크 검정이나 콜모고로프-스미르노프 검정을 통해 정규분포를 따르는지 확인 할 수 있다.
3. 회귀 모형 검증
- 회귀계수 추정, 변수선택 등을 통해 최종적인 회귀모형을 선택했다면, 해당 모형이 적절한지 확인이 필요하다.
- 회귀 모형 검증을 위해 아래의 항목에 대하여 확인한다.
1) 회귀 모형이 통계적으로 유의미 한지 확인한다.
- 유의수준 5% 하에서 F-통계량의 p-value 가 0.05보다 작으면 추정된 회귀 모형이 통계적으로 유의하다고 할 수 있다.
2) 회귀 계수들이 유의미한지 확인한다.
- 각 회귀계수의 t-통계량을 구하고 유의수준 5% 하에서 p-value 가 0.05보다 작으면 추정된 회귀 계수는 통계적으로 유의하다고 할 수 있다.
3) 회귀 모형의 설명력을 확인한다.
- 회귀 방정식 자체의 유의성을 확인하는 것이며, 모형의 설명력은 결정계수 $$$R^2$$$로 판단한다. 결정계수는 데이터의 전체 변동 중, 추정된 회귀모형에 의해 설명되는 변동의 비율이다. 독립변수가 2개 이상인 다중회귀모형의 경우, 수정된 결정계수 (adjusted-$$$R^2$$$)를 사용한다.
4) 회귀모형이 데이터의 패턴을 잘 근사하는지 확인한다.
- 잔차의 그래프를 그려본다.
5) 회귀모형에 사용되는 데이터가 5가지 가정을 만족하는지 확인한다.
- 회귀모형을 정상적으로 생성하려면, 데이터는 선형성, 독립성, 등분산성, 비상관성, 정규성 가정을 만족해야한다.
+ 이나스AI에는 인공지능 관련 다양한 강의가 있습니다.
- Object detection, Text To Speech, Reinforcement learning, OCR, Chatbot, Time series prediction,
- Meta learning, eXplainable AI, Transformer/BERT/GPT, Graph-based ML, etc
- 소스코드, 다이어그램 및 중간데이터에 기반하여 인공지능 알고리즘들의 작동원리와 구조를 이해하기 쉽고 정확하게 설명합니다.
+ 작업할 때 켜놓는 라이브 스트리밍 study with me 채널도 운영하고 있습니다.
댓글
댓글 쓰기