機械学習を一言で言うと
ニュースやネット記事で毎日のように「AI」「機械学習」という言葉を見ます。なんとなく「すごい技術」というイメージはあっても、「結局、機械学習って何ができるの?」と聞かれると、ちゃんと説明できる人は意外と少ない。
機械学習を一言で定義すると 「過去のデータから未来を予測する技術」 です。もう少し正確に言うと「過去のデータに含まれる パターン を学習し、新しいデータに対して同じパターンが当てはまるかを推定する技術」。
本記事では、機械学習で解ける問題の 3 タイプ と できないこと を、競馬以外の身近な例も交えて解説します。LightGBM などの具体アルゴリズムは出てきません。「機械学習」という技術全体が何を扱えるのか がこの記事のテーマです。
① 分類 — 〇 か × かを判定する
最もシンプルなタイプ。入力に対して、いくつかのカテゴリのどれに属するかを判定する問題です。
- 迷惑メール判定: メール本文 → 「迷惑メール」or「普通のメール」
- 医療診断: 患者の症状・検査結果 → 「病気あり」or「病気なし」
- 画像認識: 写真 → 「犬」「猫」「鳥」など
2 択を選ぶのを 二値分類、3 つ以上から選ぶのを 多値分類 と言います。競馬で言うと「この馬は 1 着になるか / ならないか」を判定するのが分類問題ですが、競馬は「1 レースで 1 頭しか 1 着にならない」制約があるので、純粋な分類より少し複雑な構造になります(後述のランキング学習の方が向いている)。
② 回帰 — 数字を予測する
分類が「カテゴリを当てる」のに対して、回帰は 具体的な数字を予測する タイプの問題です。
- 不動産価格予測: マンションの広さ・駅徒歩・築年数 → 「家賃 95,000 円」
- 株価予測: 過去の株価・経済指標 → 「明日の株価 12,450 円」
- 天気予報: 気圧・湿度・気象データ → 「明日の最高気温 22.5℃」
競馬で言うと「この馬の単勝オッズはいくらになるか」を予測するのが回帰問題。Stride AI でも内部で、AI が推定する「真の勝率」と「市場の実際のオッズ」の差を計算するために、回帰モデルを使っています。
③ ランキング学習 — 順位を予測する
3 つ目が ランキング学習。多くの人にとって馴染みが薄いですが、実は Google 検索結果や Amazon のおすすめ商品の並び順 に使われている超重要な技術です。
- Google 検索: 検索ワード → 関連 Web ページを「関連が深い順」に並べる
- Amazon のおすすめ: ユーザの閲覧履歴 → 商品を「買いそうな順」に並べる
- YouTube ホーム画面: 視聴履歴 → 動画を「見たくなる順」に並べる
ランキング学習の特徴は「1 個 1 個に点数を付ける」のではなく、1〜N 位の順番そのものを学習する こと。
そして 競馬予想はランキング学習と相性最高 です。1 レースに馬が 8〜16 頭出て、そのレースの中で「1 着・2 着・3 着…」の順番を当てたい。レース間で能力比較するより、レース内での相対順位 を予測する方が現実に近い。Stride AI が使っている LightGBM の lambdarank という目的関数は、まさにこのランキング学習の代表的な手法です。
機械学習で「できない」3 つのこと
機械学習は万能ではありません。できないことが 3 つ あります。
- 突発事項スタートの不備、落馬、馬場の急変、騎手のミスなど、事前に観測できない要素は予測できない
- 過去にないパターン歴史的に初めての状況。過去データに含まれないので「何が起きるか」を判断できない
- データの偏り(バイアス)過去データに偏見が含まれていれば、AI もそれを学習してしまう。「過去データに何が含まれているか」を理解した上で使う必要がある
競馬 AI への応用 — Stride AI が何をしているか
- 過去 10 万レースのデータを集める馬の通算成績、距離・トラック別、騎手成績、ローテーション、馬場状態、オッズ等
- ランキング学習で「レース内の順位」を最適化LightGBM lambdarank を使用
- 新しいレースの各馬の「真の勝率」を推定
- 推定勝率 × 単勝オッズで期待値を計算
- 期待値プラスの馬だけを推奨
機械学習は「この馬が確実に勝つ」を当てる魔法ではなく、「この馬の真の勝率はだいたいこれくらい」を推定する道具です。あとはその推定を、控除率を超える期待値プラスの馬券抽出に使う。これが「機械学習で競馬は勝てるのか」の答え:すべて当てるは不可能、期待値プラスを抽出するはできる。
まとめ
- 機械学習を一言で: 「過去のデータから未来を予測する技術」
- 解ける問題の 3 タイプ: 分類 / 回帰 / ランキング学習
- 競馬予想は ランキング学習 との相性が最高
- 機械学習でできないこと: 突発事項 / 未経験パターン / データバイアス
- 競馬 AI は「真の勝率を推定する道具」、期待値プラス抽出に使う
- 過信しない、理解して使う のが正解
本記事の 完全版 (4,500字) は note で公開中です。3 タイプそれぞれの詳細な例、なぜ過去パターンから未来が分かるのか、機械学習を魔法と思わない姿勢など、詳しくは note 版をご覧ください。
