データサイエンスのお話
○はじめに
こんにちは、LazyProgrammer(twitter:椎名🐍)です。Pythonと金融工学の勉強(独学ですが)をしておりますので、アウトプットを兼ねて、少しずつ投稿していこうと思います。よろしくお願いします。
PC環境から書き込んでおりますので、スマホからは若干見にくいことがあるかもしれません。そのへんも少しずつ改善していきますので、しばらくはご容赦ください。
※次の記事を現在執筆中です。
○本題
テーマは「定常性について」です。定常の意味は以下の通りです。
[名・形動]一定していて変わらないこと。 (※goo辞書より一部参照)
「時系列データが定常である」ということは、簡単にいうと未来の予測が立てやすくなるということですが、予測が将来的に100%的中するということは(現時点において)殆どありえないので注意が必要です。
ちなみに、日経平均株価や暗号通貨の値動きは生の情報のままでは定常過程ではありません。なぜなら、予測不可能で再現性の無いパターンとして恣意・不確実なノイズが含まれているからです。このような”非定常過程”の状態では、機械学習や深層学習でいくら最適化しようが、上手くいかないでしょう。もしかしたら一時上手くいくこともあるかもしれませんが、それは過剰適合(オーバーフィッティング)と呼ばれるもので、通常長くは続きません。
泥を美しい陶器に変える技術と同様に、chaosの中から堅牢性のある構造を見つける技術が必要です。正しい前処理技術(本テーマに沿うならば非定常データに定常性を持たせる)を有していれば、情報はきっと輝くでしょう。逆に、いくら膨大な情報を持っていても技術が無ければ、役に立たない粗大ゴミになり得るということです。
極端な例ですが、正しい処理ができなければ下図のように、データ(赤線)に対して予測(青線)は全く適応できていませんし、予測範囲(桃塗)も広すぎて論外です。
以上を踏まえて次回の記事では、もう少し踏み込んだ定常性の話と、定常性を確保するための処理(pythonコードも含め)について、下記の3項目について投稿しようと思います。
※追記
3項目一気に思いましたが、一つ目から長くなりそうなので分割させていただきます。
- 時系列分析の単位根過程(または1次和文過程)とランダムウォーク
- 対数差分を活用した解析をするために
- 非定常な系列を定常性を持った系列に変換する
○change log
- 2021/02/09 投稿
- 2021/02/10 非定常過程のデメリット等を追記
- 2021/02/14 リンク更新