時系列データの定常過程【①単位根過程とランダムウォーク】

時系列データの定常過程【①単位根過程とランダムウォーク】

○はじめに

こんにちは、LazyProgrammer(twitter:椎名🐍)です。

前回に引き続き時系列データの定常過程についてまとめていきます。なぜ定常過程が重要なのかについては、前回の記事をご一読ください(全文無料-3分程度)。用語には、Wikiを含むリンクも貼付けてありますので参考にしてください。また、不明な点等ございましたらお気軽にコメントください。気づき次第(スマホアプリが無いため)にはなってしまいますが、可能な限り返答していきます。

※前回の記事の最後に、3項目を本記事に書くという記載をしておりましたが、冗長になると読み手も途中で面倒くさくなったり読み飛ばしてしまったりする(特に自分がそうなので)と思うので、項目ごとに分割して書いていきます。その点、ご了承ください。

○本題

金融市場において、取引戦略は資産価値が”トレンド”または”平均回帰”のいずれかである場合に利益を生み出すことができます。そうでない場合、ランダムウォークに従うと言われています。また、詳細には扱いませんがARIMA(「Auto Regressive(自己回帰)」と「Moving Average(移動平均)」の「Integrated(統合・和分)」)モデルも単位根過程の一つとされています。

 今回は、単位根過程(別名:1次和分過程)とは何ぞや?から、定常か否かを判定する検定方法ランダムウォークについて記載します。

 

★単位根過程(または1次和分過程)

単位根過程は以下のように定義されています。

任意時間tにおける値y(t)が非定常であり、また、直前の値y(t-1)との差分

y(t) - y(t-1) = Δy(t)

が定常であるとき、y(t)は単位根過程である。

 では、時系列分析を行う上でどのような場合に単位根過程を用いるのか、代表的な2パターンを以下に示します。

  1. 単位根過程を用いたモデルについて考えるとき。
  2. 時系列データの回帰分析を行うとき。

ただし、「2.時系列データの回帰分析を行う」際、単位根過程に従う”統計的に”独立した二つの系列例  x(t):株価系列 - y(t):地震活動系列  があったとして、この情報に基づき回帰分析を行うと、あたかも有意な相関を見出してしまう「見せかけの回帰」となってしまうため、取り扱いには十分気を付けましょう。なお、この現象を避けるためには単位根検定を行う必要があります。

(非)定常性の最もよく知られているテストの二つは、DF(ディッキーフラー)検定ADF(拡張ディッキーフラー)検定で、pythonでは"statsmodels"にADFが導入されています。

ADFでは自己回帰モデルを使用し、複数の異なるラグ値にわたり情報量基準を最適化します。この検定の帰無仮説は、時系列を単位根で表現することができ、定常ではない(時間に依存する構造を持っている)ということです。対立仮説(帰無仮説を棄却する)は、時系列が定常であるということです。

この結果は、検定のp値を使用して解釈します。閾値(一般的には5%)を下回るp値は、帰無仮説を棄却する(定常である)ことを示しており、閾値を超えるp値が返された時は帰無仮説を棄却できない(非定常である)ことを示します。

# ADF検定

from pandas import read_csv

from statsmodels.tsa.stattools import adfuller

....

# 株価の前処理方法を示すPythonコードサンプルは有料部分に載せておきます。必要に応じてご活用ください。

 

★ランダムウォーク

例えば、あなたがコイントスの結果に基づき、表で右に一歩、裏で左に一歩進むかを決定するとします。その場合、あなたの歩いた軌跡はランダムウォークとなるわけです。正解(表か裏か)は50%の確率ですので、次のコイントスの結果を完全に予測することは不可能です。

株価はランダムウォークに従っておりますので、簡単に言うと生データのままでは丁半博打、予測不可能ということになります。

生株価(非定常)はドリフト項を持たないGaussian(ガウス) Random Walkに従います。以下が数式となり、出てくるガウス分布(Gauss distribution)はデータに対するノイズを表現します。

P0 = 任意の数値

P1 = P0 + e1 (ノイズ項e1は平均0、分散σ^2のガウス分布)

P2 = P1 + e2

.........

なお、工夫した株価(定常)はドリフト項を持つランダムウォークの一般式は次の通りです。(ここまでにヒントは散りばめましたので、工夫の答えは有料部分に載せておきます。)実際にこのモデルはブラックショール図方程式の基礎となっております。

Pt = Pt-1 + μ + e1 (ノイズ項e1は平均μ、分散σ^2のガウス分布)

※平均μであるということは、μが正数で分散の裾が短い場合、期待リターンを殆ど正にできる可能性もあるということです。

※追記
なお、データサイズが小さすぎる場合(例えば1ヶ月分のデータに対し大体30分以上のresampleをかけた場合など)は、どう頑張ってもp値は大きくなりますので、その点はご注意ください。例えば1ヶ月だけ使いたい場合はせいぜい1分くらいに留めましょう。

今回はここまでにします。いったん投稿して、気になる文章構成等があれば気づき次第訂正していきます。

○change log

  • 2021/02/13 投稿
  • 2021/04/09 一部追記
Remaining : 1423 characters / 1 images
600

Sign up / Continue after login

Campaign

Related stories

Writer

金融データに関する前処理・統計を主に投稿予定。インジケータを自作するとか、bot作るとかに役立つと思います。コード書き書きしてますので、記事の更新は小休憩中..。

Share

Popular stories

データサイエンスのお話

70

直近の暴落を受けて

42