機械学習で株価分析にチャレンジ Part4

名称	定義	意味・目的
`ret_1`	1日リターン（%変化率） $$\displaystyle ret_1 = \frac{Close_t – Close_{t-1}}{Close_{t-1}})$$	短期の上昇・下落トレンドを捉える基本変化率。外れ値はクリップされている（上位2%、下位2%をカット）。
`ret_1_lag1`	`ret_1` の1日前の値	1日前の変化方向を参照するラグ。トレンドの継続性を見る。
`ret_1_lag5`	`ret_1` の5日前の値	5日前の変化方向を参照。短期反転を検出。
`ret_hv`	過去20日のヒストリカルボラティリティ $$\displaystyle ret_hv = \sqrt{\frac{1}{20}\sum_{i=0}^{19}(ret_{t-i}-\bar{ret})^2}$$	変動の大きさ。ボラが高いと予測リスクも上昇。

名称	定義	説明
`close_sma_ratio_5`	$$Close_t / SMA_5$$	5日単純移動平均との比率。短期過熱感を表す。
`close_sma_ratio_20`	$$Close_t / SMA_{20}$$	20日平均との比率。中期トレンドの相対位置。
`close_ema_ratio_5`	$$Close_t / EMA_5$$	指数移動平均との比率。より即時的なトレンド把握。
`bb_z`	$$\displaystyle BB_Z = \frac{Close_t – MA_{20}}{SD_{20}}$$	ボリンジャーバンドのZスコア。±2σを超えると過熱/売られすぎ。

名称	定義	説明
`rsi`	相対力指数（RSI, 14期間） $$\displaystyle RSI = 100 – \frac{100}{1 + \frac{avg(gain)}{avg(loss)}}$$	買われすぎ・売られすぎの度合い。70以上=買われすぎ、30以下=売られすぎ。
`atr_norm`	正規化ATR（14期間） $$\displaystyle ATR_norm = \frac{ATR_{14}}{Close_t}$$	変動レンジ（高値-安値など）を終値で正規化。価格スケールの違いを吸収。

名称	定義	説明
`vol_chg`	出来高の前日比変化率 $$\displaystyle vol_chg = \frac{Volume_t – Volume_{t-1}}{Volume_{t-1}}$$	売買活動の勢いを示す。上昇局面での出来高増加＝強気。
`Volume_lag_1`	1日前の出来高	出来高の短期推移。
`Volume_lag_5`	5日前の出来高	週単位の流動性傾向。

名称	定義	説明
`dow_sin`	$$\displaystyle \sin\left(\frac{2\pi \times dayofweek}{5}\right)$$	曜日周期（週5営業日）を円周上にマッピング。月曜と金曜の関係を連続的に表現。
`dow_cos`	$$\displaystyle \cos\left(\frac{2\pi \times dayofweek}{5}\right)$$	sinと組で曜日の位相を2次元的に表現。

名称	定義	意味・用途
`Close_lag_1`	$$Close_{t-1}$$	前日の終値。最も基本的な自己相関。
`Close_lag_2`	$$Close_{t-2}$$	2日前の終値。トレンド継続確認。
`Close_lag_3`	$$Close_{t-3}$$	3日前の終値。短期の反転傾向。
`Close_lag_5`	$$Close_{t-5}$$	5営業日前の終値。週単位の周期変動。

4.3 なぜ「Top-K」に絞るか？ — 多変量かつ時系列特有の観点から

4.3.1 Kを固定する意図

「TOP-K」の“K”を固定（例：14）するという設計には、以下のような理由があります：

モデルの過剰な複雑化を防ぐ：変数が100個もあると、決定木系でも枝が深くなり「偶然のパターン」を拾いやすくなる
運用維持のしやすさ：変数が多すぎると、データの欠損・仕様変更・特徴量計算コストが増える
解釈性の確保：14個程度なら「この14個が効いてるんだな」とモデルの傾向を把握しやすい
再現性・比較可能性：毎回変数数が変わると、モデルを再現・改善するたびに仕様が不安定になる
シグナルの安定性：多数変数を入れると“バラつきのある効き方”を拾いやすく、短期的なノイズに過剰反応してしまう

4.3.2 時系列データならではの注意点

自己相関・ラグ構造が多いため、似たような説明変数（例：Close_lag_1, Close_lag_2, Close_lag_3）が強く相関してしまう。
→ “似た変数を複数入れる”とモデルが冗長になり、学習が不安定化。
時間変化（レジームチェンジ）があるため、ある期間で有効だった特徴量が、別期間で使えない可能性がある。
→ 変数数を絞ると“普遍的に効きやすい変数”にフォーカスしやすい。
過去データと最新データの重みづけを入れている設計なので、変数の重要度にも「時間の古さ」が反影響する可能性あり。
→ 重要度で古い構造（例：長期ホールド系）ばかり残ると「現在の相場感」に合わない。

このような観点から、「厳選＋Top-K選択」は実務的には非常にバランスの良い設計と言えます。

4.4 実装：重要度Top-K選択の流れとコード対応

今回書いたコードにおける特徴量選択は以下のステップになっています。
select_topk_features関数を用いてtop_featsというリストに上位K個の特徴量を入れて返します。

# 重要度Top-K選択（H=MAIN_Hで一度だけ）
def select_topk_features(df, base_feature_cols, H, models, TOPK):
    df_tmp = df.copy()
    df_tmp['Target'] = make_target(df_tmp, H)
    df_train = df_tmp.dropna(subset=base_feature_cols + ['Target']).reset_index(drop=True)
    
    X = df_train[base_feature_cols].values
    y = df_train['Target'].values
    w, _ = make_weights(df_train)
    
    feats = base_feature_cols.copy()
    importances = None

    if models['lgbm_ok']:
        …（LightGBMでfeature_importance取得）…
    else:
        …（RandomForestでfeature_importances_取得）…

    imp_df = pd.DataFrame({'feature': feats, 'importance': importances})
    imp_df = imp_df.sort_values('importance', ascending=False)
    top_feats = imp_df['feature'].head(TOPK).tolist()
    return top_feats

4.4.1 各ステップの意味

対象地平 H＝MAIN_H（例：H=5）で“ターゲット付きの学習データ”を準備
→ 期間ずれや欠損を除外して、モデル学習可能な形に整形
特徴量行列 X と目的変数 y を取り出し、重み w を生成（直近重視設計）
→ モデルは「最新に近いサンプルを重視」して学習
モデル（LightGBM or RandomForest）を一度だけ学習して、feature importance を取得
importance 順にソートして、上位 TOPK（例：14個）を「本採用特徴量」としてリスト化
以降、モデル本番学習・予測時にはこの「top_feats」だけを使う

4.4.2 数式表現

特徴量選択を数学的に書くと

$$\text{importance}_j= \text{FI}(X_{\cdot j}, y, w)\quad (j = 1,2,\dots,m)$$

$$\text{TopK\_set} = \{\, j \;\big|\; \text{importance}_j \text{ が上位 K 件} }$$
$$\text{Selected\_features} = \{ X_{\cdot j} \mid j \in \text{TopK\_set} }$$

ここで

$X_{j}$：特徴量 j の列ベクトル
FeatureImportance：モデルから得られる“その特徴量の貢献度”
w：サンプルごとの重み（直近22営業日×2＋指数減衰）
“上位 K 件” は、$importancejimportance_{j}$ を降順ソートして上から K 件取る操作

4.4.3 なぜ “H=MAIN_Hで一度だけ” 行うのか？

複数地平（H∈{3,5,10}）それぞれに特徴量選択すると、変数数や精度差が出て運用が煩雑になる
H=5（標準）を基準に選べば「中期の予測」を中心とした特徴量設計が可能
H変動の影響を抑え、共通化された特徴量セットを持つことで運用・モデル切り替えが容易

4.5 注意すべき落とし穴と対策

特徴量選択を行う際に、初心者が陥りやすいミスや注意点があります。以下に代表的なものと対策を整理します。

4.5.1 過学習リスク：特徴量だけで目的変数を説明し尽くしてしまう

多数のラグ変数・出来高変数を無差別に入れると、「過去値の延長」になりやすく、未来の構造変化には弱くなる
対策：特徴量選択後、検証（CV:Cross Validation）やフォワードテストを必ず行う。変数数を抑えておく（例：K=14）ことで過剰化を防ぐ。本題からそれてしまうため、検証部分は省かせてください。

4.5.2 相関重複：似た特徴量を複数含めてしまう

例：ret_1_lag1, ret_1_lag2, ret_1_lag3などが強く相関していると、モデルが冗長になる
対策：まず相関マトリクスを確認、似ている変数をまとめる orなるべく共線性を抑える。

4.5.3 時系列リーク：未来情報が混ざることに注意

特徴量生成時に「今日から見た過去ラグ」以外の未来値を入れてはいけない
選択された特徴量が、未来にしか計算できない値（例：翌日の出来高予測など）になっていないかをチェック。

4.5.4 時間変化（レジーム）への弱さ

選ばれた特徴量が「過去のレジームでは効いたが今のレジームでは効かない」というケースがある
対策：定期的な特徴量入れ替え・再選択を検討する。モデル更新のスケジュールを持つ。

4.5.5 “Kの選び方” が恣意的にならないように

Kを極端に小さくすると必要な情報を捨ててしまう。逆に大きくすると変数が多すぎて意味が薄くなる。
対策：Kを変えて検証し、「特徴量数と精度のトレードオフ」を見る。たとえばK=10,14,20で比べてみる。

4.7 まとめ（この章の総括）

特徴量選択は、入力変数を「使えるものだけに絞る」非常に重要なステップです。
今回のモデル設計では、「Embedded方式 → feature importance による Top-K（14個）選択」を採用しており、時系列＋トレンド＋運用観点に非常に適した手法です。
選択の意図（K固定、H=5基準など）、実装手順（モデル学習→重要度抽出→上位K選定）、落とし穴（相関、過学習、リーク、レジーム変化）を理解しておくことが、モデルの安定運用・精度維持に繋がります。
次章では 第5章：RandomForestの直感とハイパーパラメータ に進み、モデルそのものの解説に入ります。

機械学習で株価分析にチャレンジ Part4

4.1 なぜ特徴量選択が重要なのか？