LightGBM で南関 ROI 200% 出たぞ! → 結局リーケージでした — データリーケージの落とし穴

機械学習で異常に高い ROI が出た時に疑うべき『データリーケージ』とは何か。本サイト開発時に実際に踏んだ罠と、未来情報の混入を検出する手順を解説。

「異常に高い ROI」は喜ぶ前に疑え

機械学習で競馬予想モデルを開発していると、ある瞬間に 異常に高い回収率 (ROI) が出ることがあります。本サイト開発初期にも、バックテストで「南関東 ROI 200%」が出て一瞬喜びました。

しかしこれ、ほぼ間違いなく データリーケージ。実運用したら ROI 60% に転落、という典型パターンです。「うまく行きすぎ」は喜ぶサインではなく、バグを疑うサイン でした。

データリーケージとは、機械学習モデルが 本来知り得ないはずの「未来情報」を学習データに混入 してしまうバグです。

例えば「過去のレース結果から勝率を予想」という設定で、誤って「このレースの着順情報」が特徴量に入っていたら、モデルは未来カンニングをしているだけ。バックテストでは異常に高い精度が出ますが、実運用では当然使えません。

本サイトで踏んだリーケージの例:

リーケージを検出する最も信頼できる方法は Walk-Forward Validation:

Walk-Forward Validation の流れ

1. データを時系列で分割
2. 古いデータで学習、新しいデータで予測
3. 「予測時点で知り得る情報だけ」で特徴量を再計算
4. 異常な ROI が出たら必ず特徴量を疑う

機械学習エンジニアの間で「too good to be true は too good to be true」(うますぎる結果は本当にうますぎる) という格言があります。バックテスト ROI 200% は喜びではなく、特徴量チェックの開始合図です。