라벨이 time series인 게시물 표시

시계열분석003

이미지
1. 시계열의 분포 - 시계열은 데이터의 분포를 확인하는 것이 중요하다. 이를 위해, 히스토그램이나 커널 밀도 추정 (KDE, Kernel Density Estimation) 에 의한 확률 밀도 함수를 통해 분포를 확인 할 수 있다. - 아래 그래프 중 상단 그림은 전년 동기 대비 경제성장률 (실질 GDP 증감)을 나타낸 것이며, 하단 그림은 경제성장률의 히스토그램 및 추정된 확률밀도함수를 나타낸다. 2. 시계열 분포 검정 - 여러 통계 기법은 정규분포를 가정하므로, 시계열 분포가 정규분포를 따르는지 확인할 필요가 있다. 정규분포를 따르지않는다면, 로그 차분 등의 전처리를 통해 시계열 분포가 정규분포에 가깝도록 만들어 볼 수 있다. 2-1. 정규성을 검정하는 방법 2-1-1. 통계적 기법 2-1-1-1. 자크-베라 검정 - 정규분포는 첨도는 3, 왜도는 0 정도이다. 이러한 정보를 이용해 정규성을 검정하는 방법이다. 2-1-1-2. 샤피로-윌크스 검정 2-1-1-3. 콜모고로프-스미르노프 검정 2-1-2. 시각화 기법 2-1-2-1. Q-Q plot - 정규성을 따를때 (좌)와 따르지 않을때 (우)의 패턴. 정규성을 따를 때, 대각선을 따라 점들이 나열되어있다. 2. 시계열의 자기 상관 2-1. 개념 - 아래의 시계열을 보자. 18이라는 값까지 오는데 과거의 특징이나 패턴들이 영향을 미쳤다고 볼 수 있다. 즉, 자기상관이 있는 것이다.  10, 12, 14, 12, 16, 18 이러한 자기상관 (시계열 데이터에서 과거의 데이터가 특정 데이터에 미친 영향)을 측정하는 지표들이 있다. 2-2. 표본상관계수 - 상관계수는 두 변수의 관계를 나타내는 지표이다. 보통 표본을 통해 데이터를 분석하므로, 표본상관계수를 사용하게 되며, 아래와 같이 표현된다. $$$r = \dfrac{\sum\limits_{t} (X_t - \bar{X}) (Y_t - \bar{Y})  }{ \sqrt{\sum\limits_{t} (X_t - \bar{X})^2 \sum\li...

시계열분석002

이미지
1. 시계열의 정의 - 시계열은 시간에 따라 관측된 데이터이다. - 주로 아래와 같이 표현한다.   1) 시계열의 확률변수 표현 $$$Y_t \;\; (t=1,2,3)$$$   2) 시계열 데이터 나열 표현 $$$Y_1=100, Y_2=102, Y_3=105, \dots$$$   3) 시계열 표 표현 시점 데이터 $$$Y_1$$$ 100 $$$Y_2$$$ 102 $$$Y_3$$$ 105 ... ... - 횡단면 데이터, 시계열 데이터, 종단면 데이터, 패널 데이터의 개념은 아래와 같다.   1) 횡단면 데이터 (cross-sectional data)   - 동일한 시간과 동일한 기간에 여러 변수에 대하여 수집한 데이터이다.   2) 시계열 데이터 (time-series data)   - 시간의 흐름에 따라 관측된 데이터이다. 주로 하나의 관측 대상을 가리킨다. 예를 들어, 시간에 따른 가스사용량이 시계열 데이터가 될 수 있다.   3) 종단면 데이터 (longitudinal data)   - 시계열 데이터와 유사하게 시간에 따라 관측된 데이터를 말한다. 보통 관측대상이 2개이상인 경우를 가리킨다. 예를 들어, 한달동안 걸음수와 근무시간에 따른 혈압 변화 또는 혈압 개선 여부 등이 종단면 데이터가 될 수 있다. 시점 관측1(걸음수) 관측2(근무시간) 관측3(수축기혈압) 1일 5010 7 121 2일 4133 9 134 3일 8402 10 122 ... ... ... ... ...