時系列分析(ARIMAモデルの紹介)
今回は時系列分析について書いてみたいと思います。
気温や株価のように日々変動するデータ(時系列データ)をモデリングする際、時系列モデルが使われます。
時系列モデルでは以下の手法がよく使われています。
- Holt-Winters法(指数平滑化)
- Box-Jenkins法(ARIMA)
- 状態空間モデル
最近、ARIMAモデル(SARIMAXモデルを含む)について勉強をする機会があったので、今回はこちらを紹介したいと思います。
(長くなってしまったので、今回は時系列モデルとは?という部分の紹介、
次回でモデリングについて書いていきます。)
以下の書籍を参考にしています。
時系列分析と状態空間モデルの基礎: RとStanで学ぶ理論と実装
- 作者:真哉, 馬場
- 発売日: 2018/02/14
- メディア: 単行本
Box-Jenkins法とは
時系列分析のフレームワークのようなもの。
以下の手順でモデリングをする。
- データを分析できる形に変換する
- ARIMAなどのモデルを適用し、次数を同定(=モデルの形を特定)する
- パラメータを推定する
- 推定されたモデルを評価する
- 予測する
今回はARIMAモデルについて紹介し、次回、各ステップについて見ていきます。
ARIMAモデルとは
自身の過去のデータを用いて将来予測するモデル。
拡張したものにARIMAX,SARIMA,SARIMAXなどがある。
それぞれ、以下を組み合わせたものである。
- S :季節性(周期性変動)
- 夏はビールが売れる、などの影響を考慮できる
- AR :自己回帰
- 過去t期間のデータから受ける影響を考慮できる。
ARだけのモデルは以下の数式で表される。
- 過去t期間のデータから受ける影響を考慮できる。
- I :和分過程への適用
- 非定常データを分析する際に差分を取る。
- MA :移動平均
- 過去t期間の誤差から受ける影響を考慮できる。
MAだけのモデルは以下の数式で表される。
- 過去t期間の誤差から受ける影響を考慮できる。
- X :外生変数
- 回帰分析のように、変数を取り込める。
定常性
定常性、という言葉が出てきたが、ARIMAモデルは定常データに対して適用することを想定している。
定常性の定義は以下の通り。
期待値が地点tによらず一定であり、共分散も地点によらず、時間差kにのみ依存する、ということを示している。
(k=0の場合は分散となり、地点によらず一定である。)
定常性を持たないデータ(上昇トレンドがあるデータなど)を当てはめる場合は、地点間の差分を取るなどして、定常データにしてから当てはめを行う。
(一階の差分系列で定常にならない場合はさらに差分を取り、二階の差分系列で当てはめを行う。)
モデルの表記
何地点前までのデータを使うか、差分を何回取るかにより、同じARIMAモデルでもモデルの形が異なる。一般的に、添え字p,d,qを用いて以下のように表現する。
ARIMA
pはARの次数、dはIの次数、qはMAの次数を表す。
SARIMAモデルの場合、季節調整のために、さらにP,D,Q,sを追加して、以下のように表現する。
SARIMA
P:P周期前までのデータを参考にする
D:D階差分を取る
Q:Q周期前までの誤差を参考にする
おわりに
今回は、ARIMAモデルとは?という部分を紹介しました。
次回、対象データの定常性を確認し、上に挙げたようなp,d,qなどの次数を特定した後、モデリングを行うところまで確認していきたいと思います。