1. 시계열 데이터

시계열 데이터란?

시간의 흐름에 따라 기록된 데이터

시계열 분석과 시계열 예측

  • 시계열 분석은 데이터의 변동을 분석하고 이해하는것이 목표
  • 시계열 예측은 과거의 기록에서 발견한 패턴이 미래에도 유지된다는 가정하에 이를 모형으로 만들어 미래의 값을 예측하는것

시간그래프

관측 시간에 따라 관측치의 값이 변하는 것을 나타낸 그림. 시계열의 특징을 쉽게 파악할수있음.

시계열 예측의 특징

  • 관측치는 서로 상관관계를 가지고 있음
  • 시간에 따른 순서를 지켜야함

2. 시계열 데이터의 특징

  • 추세(trend) : 데이터가 장기적으로 증가하거나 감소하는 것
  • 계절성(seasonal) : 계절적 요인의 영향을 받아 일정 기간 안에 반복적으로 나타나는 패턴
  • 주기성(cyclical) : 고정된 빈도가 아닌 형태로 증가나 감소하는 모습을 보일 때
  • 불규칙변동(irregular fluctuations) : 어떤 규칙성이 없이 예측불가능하게 우연적으로 발생하는 것

 

🔸 일정한 빈도로 나타나지 않는 요동은 주기적. 빈도가 변하지 않고 연중 어떤 시기와 연관되어 있다면 그 요동은 계절성. 일반적으로, 주기들의 평균 길이는 계절성 패턴의 길이보다 길고, 주기의 크기는 계절적인 패턴의 크기보다 좀 더 변동성이 큼

3. 시계열 분해

시계열 분해란?

시계열에 영향을 주는 패턴을 시계열에서 분리해 시계열의 구성요소를 쉽게 파악할 수 있도록 도와줌

시계열 분해 모형

  • 덧셈 분해 - y(t) = Trend + Seasonality + Noise
  • 곱셈 분해 - y(t) = Trend x Seasonality x Noise

                                                                          시간에 따른 데이터 변동이 일정

                                                                           변동폭이 시계열의 수준에 비례

 

데이터 변환(수학적변환)

데이터의 변환을 통해 변동의 원인을 제거하거나 패턴을 단순하게 만들어서 예측작업을 더 수월하게 하는것이 목적

  • log 변환 : 시간이 흐를수록 변동폭이 커지는 경우 분산을 일정하게 만듬
  • 차분 : 시계열의 평균 변화를 일정하게 만듬

  • Box-Cox 변환 : $\lambda$의 값에 따라 로그변환과 거듭곱변환을 모두 표현할 수 있음
  • ${\displaystyle w_{t}^{(\lambda )}= {\begin{cases}{\dfrac {y_{t}^{\lambda }-1}{\lambda }}&{\text{if }}\lambda \neq 0,\\ log( y_{t})&{\text{if }}\lambda =0.\end{cases}}}$

 

이동평균

평활법의 한 종류로 특정 기간내의 시계열 평균을 계산하는 방법

 

고전적인분해법

  1. 이동평균을 이용하여 추세성분을 계산
  2. 실제 관측값에서 추세를 제거한 시계열을 계산
  3. 해당계절에 대해 추세를 제거한 값의 평균을 구한다음 계절성분을 측정
  4. 마지막으로 계절성과 추세 성분을 빼서 나머지 불규칙 성분을 계산

고전적인 분해법의 단점

  1. 이동평균을 활용하기때문에 양끝의 (k-1)/2개 관측값에 대한 추세 추정 값을 얻을 수 없음
  2. 계절성분이 매년 반복된다고 가정
  3. 특이값에 영향을 받음

STL

비선형관계를 추정하기위한 기법인 Loess를 사용하여 계절성과 추세를 분해

 

4. 확률과정

확률과정이란?

시간별로 표시된 확률변수의 집합

→ 시계열 데이터는 확률과정의 하나의 표본

5. 자기공분산

  • 자기공분산 : 시계열의 시차 값(lagged values) **사이의 선형 관계

$$\gamma_{X}(t,s)= cov(X_t,X_s) = E[(X_t-E(X_t)(X_s-E(X_s)] $$

  • 자기상관함수(정상시계열인경우)

$$ corr(X_{t_1},X_{t_2})=\rho_X(h)=\frac{\gamma_X(h)}{\gamma_X(0)} $$

  • 표본자기공분산

$$ \widehat{\gamma}(h) = \frac{1}{n}\sum_{t=1}^{n-|h|}(x_t-\bar{x})(x_{t+|h|}-\bar{x}) $$

  • 표본자기상관함수

$$ \widehat{\rho}(h)=\frac{\widehat{\gamma}(h)}{\widehat{\gamma}(0)} $$

6. 정상성, Ergodicity

정상성이란?

데이터 변동의 안정성을 의미. 시계열의 평균과 분산이 일정하고, 특정한 추세가 존재하지 않는 성질

Ergodicity

하나의 표본경로만 가지고있는 시계열의 경우라도 충분히 긴 기간의 데이터가 있다면 정상성 시계열의 time average가 ensemble average에 수렴

7. 확률과정모형

백색잡음

자기상관(autocorrelation)이 없는 시계열

확률과정모형의 예

Moving-average process

$$ X_t=\mu + Z_t + \theta_1Z_{t-1}+\theta_2Z_{t-2}+\cdots + \theta_qZ_{t-q} $$

Autoregressive process

$$ X_t=C + \phi_1X_{t-1} + \phi_2X_{t-2}+\cdots + \phi_qX_{t-q}+Z_t $$

Random walk

$$ X_t^{RW}=X_{t-1}^{RW}+Z_t $$

 

+ Recent posts