Time Series

FrontPage|FindPage|TitleIndex|RecentChanges| UserPreferences P RSS
일단 글을 끄적인다는 생각에 적어봅니다. 시계열(TimeSeries)이란 일종의 관계가 있는 sequence를 연구하는 것이지요...연속 혹은 불연속으로요...제가 경제학 전공이라서 경제학 용어가 많이 나올 지도 모릅니다. --Channy



1. 시계열의 정의

시계열(TimeSeries)이란 뭘까? 보통 우리는 확률변수를 어떤 알지 못하는 도메인에서부터 우리가 알고 있는 데이터라는 치역으로 가는 함수로 생각한다. 즉 1994년 GDP가 있다고 하면 이 GDP가 나오기 위해서 알지 못하는 어떤 일이 벌어졌구 그 결과로 이런 GDP가 나왔다고 하는 것이다.

그런데 시계열에는 알지 못하는 도메인에 더불어 아는 도메인이 하나 더 추가된다.
바로 시간...

이게 축복인지 저주인지는 모른다. 그렇지만 시계열 처음 배우는 사람에게는 이건 저주다...

2. Law of Large Numbers

시계열이 힘든 이유중에 하나는 데이터를 평균낸다고 해서 이게 진짜 기대값이 되는지 모른다는 것일게다. 우리가 간단히 예상 주가 수익률을 추정한다고 하자. 머 시장의 기대값을 알기 위해 올해 주식 수익률을 평균냈다. 그랬더니 올해는 IMF라서 무지하게 주식이 떨어졌다. 그럼 기대값은 음수인가? 쩝...주식의 기대값이 음수이면 올해는 누가 주식을 사지?? 기본적으로는 은행 이자율 이상은 줘야 주식 살 게 아닌가?

이렇듯 그냥 데이터를 평균내면 위와같이 말도 안되는 값을 기대값이라고 우리가 생각할 수 있다. 따라서 시계열에서는 그냥 평균냈다고 기대값이라고 하기가 곤란하다. 바로 이것이 Law of Large Number가 시계열에서는 성립하지 않을 수도 있다는 것이다.

데이터의 평균이 기대값이 되지 않는 데이터들....이걸 가지고 우리가 무얼 할 것인가?? 이런 세계를 어떻게 접근할 것인가??

3. Stationary vs Non-Stationary

앞서 시계열에서는 데이터의 평균이 기대값이 되지 않을 수 있다고 하였다. 여기서 잠깐...기대값과 평균이 다른가여?? 네...다릅니다.

정확히 말하자면 평균은 기대값을 구하기 위한 하나의 방법입니다. 물론 기대값이란 진짜 우리가 알고자 하는 진리의 그 값을 말하지요. 일반적으로 평균은 기대값으로 assign 합니다. 물론...in the limit 혹은 asymtotically...

그럼 이제 본론으로 돌아가서 데이터의 평균이 기대값이 되지 않는 시계열이 있다면 반대로 그게 되는 시계열도 분명이 있을터이지요.

이것을 기준으로 하여 Stationary 와 non-stationary시계열로 나눕니다. 물론 정의는 따로 있지요.

3.1. Definitions

Stationary time series란 strong sense에서는 데이터의 분포가 time invariant하다는 것을 가정하고, weak sense에서는 autocovariance function이 time invariance하면 됩니다, 이해가 상당히 어려우실 것입니다.

정의를 좀더 명확히 해보죠.

strong sense에서의 정의는 확률 밀도함수 Q(t)=P(...X(t+1),X(t),X(t-1)...)이 t를 어디를 잡든지 간에 변하지 않는다는 것입니다.즉 Q(t)=P(...X(t+1),X(t),X(t-1)...)=P(...X(t+s+1),X(t+s),X(t+s-1)...)=Q(t+s)입니다.

실제로 strong sense는 상당히 강한 개념이기 때문에 잘 쓰지를 않구요. weak sense를 씁니다. weak sense를 알려 먼저 autocovariance function을 알아야 합니다.

"autocovariance function"이란 수식으로 f(t,k)=E(X(t),X(t+k))라고 표현합니다.즉 아까 확률 밀도 함수의 2차 적률을 본 것이지요. 이게 t를 변화시켜도 변하지 않으면 Stationary라고 합니다. 아까의 분포와 연관시켜서 생각한다면 분산 공분산 행렬이 Circulant 하다고 해도 됩니다.

Common Misunderstandings:
  • Strong sense는 Weak Sense에 포함되는 것이 아닌가? 답: 아닙니다. 예를 들어 2차 적률이 존재하지 않는 코시 분포같은 것이 있지요. 이런 경우에는 autocovariance function이 존재하지 않습니다.
  • Stationary Series는 정규분포를 가정하나요? 답: 아닙니다. 물론 많은 경우 시계열에 가해지는 충격을 정규분포로 모형화 합니다. 이를 두고 Gaussian Process라고 하는데 그렇다고 해서 모든 Stationary series가 gaussian 이라고 할 수는 없습니다. 앞서 말한 코시 분포가 그 좋은 예이지요.

Non-Stationary Time Series란 Stationary 하지 않은 time series를 가리켜 nonstatioary라고 합니다. 이를 바라보는 관점은 여러가지가 있는데요. 경제학쪽에서는 Unit root라고 하는 프로세스로 주로 많이 연구하고 있구요. 공학쪽에서도 여러가지 다른 프로세스를 연구하고 있는 것으로 알고 있습니다. 오실로스코픽 프로세스나 웨이블릿 등등으로요.

3.2. Properties of Statioary & Non-Stationary Time Series

두가지 스리즈가 어떻게 다른지 특성을 보죠...

먼저 중요한 것은 Stationary 시계열인 경우 데이터를 평균내면 기대값으로 assign한다는 겁니다. 단지 좀 데이터가 엄청나게 많이 필요해요...

이 말의 의미는 멀까여...만약 시계열이 지 맘대로 왔다갔다하는 randomwalk라면 죽어도 그렇게는 안되죠. 머릿속에서 함 그려보세요...

혹시 통계시간에 리그레션 그려보신 분들은 리그레션 돌린 후 잔차를 생각해보면 쉬을 겁니다. 잔차는 대충 0주위로 왔다갔다해야죠...그래야 평균 0이다 하죠. 근데 그게 주식 움직이듯이 올라갔다 떨어지고 그러면 아마 대부분의 사람들은 어...리그레션 잘못 돌렸네 할 겁니다. 네...그렇습니다. Stationary time series는 0 혹은 기대값 근처에서 주기적인 움직임을 보여줍니다. 사인 코사인 함수의 움직임과 비슷한 움직임을 보인다는 거죠.이를 두고 Stationary Series 에서는 평균으로 회귀하는 성향이 있다고 합니다.
''

반면에 Non-stationary는 어떨까여...대표적인 non-stationary시계열이 바로 주식입니다. 이건 좀 올라가면 상당히 오랫동안 오르죠. 즉 추세가 있다는 것입니다.주기성요? 전혀 안보이죠...주가가 주기적이라면 저 아마 때돈 벌었을 겁니다. 그런데 이 추세가 지 멋대로 갑니다. 즉 확률적인 추세가 있다는 것이지요. 만약 그 추세를 우리가 알 수 있다면 아마 우리는 주식시장을 그렇게 고민하고 있지 않았겠지요. 다시 말하자면 Nonstationary Series에서는 Stochastic Trend가 있다고 합니다..


현재 non stationary에 관해서는 학계에서 일반적으로 받아들이고 있는 프레임이 없습니다. 즉 아직 연구단계의 분야이고, 반면에 stationrary는 거의 그 면면이 밝혀져있습니다. 혹시 공부해보고 싶으신 분은 non stationary 함 해보시길 권합니다.

3.3. Shock Anaysis in the Stationary & Non-Stationary Time Series

그럼 이 주기적인 움직임의 stationary series와 폭발하는 트렌드를 갖는 non stationary가 어떤 함의를 갖는지 살펴보겠습니다.

기본적으로 여기서는 선형 시계열을 가정하겠습니다.즉 시계열이라는 것이 여러 충격 혹은 에러들의 선형 결합으로 되어 있다는 것이지요. Y(t)=...+a(t-1)e(t-1)+a(t)e(t)이라고 생각합니다. 참고로 이는 월드 표현에 의한 것입니다. 월드 표현이 무엇인가는 너무 테크니컬한 것이라서 언급하기가 그렇구요.현재의 시계열은 과거의 여러 충격들의 합이다라고 생각하면 좋겠습니다.

Shock analysis는 다음과 같습니다.

t기에 1의 충격이 일어났다.그리고 그 전에와 그 이후에는 전혀 충격이 없었따. 그러면 Y(t+s)에는 어떤 영향을 미칠까를 분석하는 것입니다.물론 Y(t-1)=0 이겠지요.

위 식에서 생각해 보지요. t기에 1의 충격이 있으면 Y(t)=a(t)입니다. Y(t+1)=a(t-1)이구요. 이렇게 죽 나가는 것이 바로 Shock analysis입니다.

이게 왜 중요하냐 생각해 보지요. 지금 미국에서 테러 사건이 일어나서 우리나라 경제에 상당한 충격을 주었다. 그럼 이 충격이 향후 어떻게 우리나라 경제에 영향을 미치는가...이런 문제를 우리가 Shock analysis를 사용해서 분석할 수 있게 합니다.

이제 Statioanry 와 nonstationary를 살펴보면요.

Stationary인 경우 이 전에서 평균으로 회귀하는 경향이 있다고 하였습니다. 이 말은 t기에 충격이 일어나도 계속 가다보면 그게 0으로 없어져야 한다는 거죠. 따라서 이 충격의 영향이 Permanent하지 않습니다. 머 아까 미국의 테러이야기를 들어보면 언젠가 그 테러로 인한 영향은 사라지고 우리나라의 경제는 우리의 갈길을 간다 이렇게 해석할 수 있습니다.

그러나 ...nonstationary 인 경우는 다릅니다. 그 충격의 영향이 permanent합니다. 즉 미국의 테러는 우리나라의 경제에 영구적인 영향을 미쳐서 그 사건으로 인해 우리 경제의 운명은 180도 바뀌게 된다는 것입니다.

실제로 대부분의 경제 시계열에서는 nonstationary한 시계열이 많다고 합니다. 역시 인간의 운명은 스스로 결정하는 것인가요...??



4. Q & A

Q: "코시 분포"란 무엇인지 좀더 자세히 설명해주세요..
A: 코시 분포란 확률 밀도 함수가 1/((1+x^2)pi)로 정의되는 분포입니다. X,Y가 표준 정규 분포를 따른다고 할때 X/Y는 코시분포를 따릅니다. 이 코시분포인 경우 기대값이 존재하지 않으며 따라서 2차 적률도 당연히 존재하지 않습니다. 이거 그려보면 상당히 두꺼운 꼬리를 갖는 분포가 나오지요.



"; if (isset($options[timer])) print $menu.$banner."
".$options[timer]->Write()."
"; else print $menu.$banner."
".$timer; ?> # # ?>