ピッチモデリング指標の解説

Fri, 24 Oct 2025 00:00:00 +0000

ピッチモデリング指標の解説

Stuff+、BotCmd、PitchPro、近年よく聞くようになったこれらの指標は一般的に「Pitch Modeling（ピッチモデリング）」指標と呼ばれています。

モデリング自体は昔からある概念ですし、もちろん野球においてもモデリングの性質を持った指標は多いです。

ただ、今回解説する、主に投手の出力（プロセス）に基づいたモデリングは、長年セイバーメトリクスを支えてきた打席や投球の結果（アウトカム）に基づいたモデリングとは意味合いに違いがあります。

ピッチモデリング指標とあえて表現する背景にはこのような文脈もあり（多分）、またそれが、プロセス情報の入手が困難だった時代に構築されたモデリング指標とは一線を画す存在となる理由でもあります。

機械学習とは

ピッチモデリング指標は機械学習を活用しています。

そもそも機械学習とは『データから規則性を学習し、未知のデータに対して予測や推定を行う手法』の総称です。

これには線形回帰やロジスティック回帰といった、セイバーメトリクスの文脈で初期から活用されてきた分析手法も含まれます。

ただ、それらをわざわざ機械学習と呼称することは少なく、一般的には Random Forest（ランダムフォレスト）や Neural Network（ニューラルネットワーク）といった、より複雑なアルゴリズムを指していることが多いです。

セイバーメトリクスファンは k-Nearest Neighbor algorithm（k近傍法、k-NN）は聞き馴染みがあるでしょう。

現在主流のピッチモデリング指標は全て、機械学習の手法の一つ、Gradient Boosting Decision Tree（勾配ブースティング決定木、GBDT）を活用しています。

GBDTとは

GBDTは有り難いことに名前がその手法を表しています。『勾配』を使って『ブースティング』を行う『決定木』といった感じですね。

GBDTは初めて聞く方も多いとは思いますので、名前に沿ってできるだけ簡潔にまとめます。

Gradient（勾配）

GBDTのゴールを表しているのがこの語句です。

ここで言う勾配も屋根や道路で使われる傾きと同じような意味です（スカラーではなくベクトルですが）。

そして機械学習における勾配とは、損失関数（予測誤差の大きさを表す関数）の増加方向と大きさを表すベクトルであり、GBDTでは勾配と逆方向に進む＝誤差を減らすことをゴールとする勾配降下法をこの後紹介するブースティング決定木によって実現しています。

勾配降下法については、線形回帰をはじめとし、多くの機械学習で採用されている、言わば土台のようなものです。

GBDTはその勾配降下法の中身が特殊です、という話をこれからしていきます。

Boosting（ブースティング）

ブースティングは『弱い学習器を逐次的に学習・統合することで、全体として高性能なモデルを作る』手法です。

この手法の主眼は、前のモデルの系統的な誤差（バイアス）を後のモデルが修正していくことにあります。

また、弱い学習器を多数使用することで、それぞれのモデルが違う方向に間違ってくれるため、結果的にノイズが平準化され、過学習を防ぐことができます。

GBDTは、このブースティングの過程に先に述べた勾配降下法を取り入れたという点で、機械学習において革新的なアルゴリズムとなりました。

ちなみに、ブースティングのような複数のモデルを組み合わせる手法＝アンサンブル学習には、**モデルの安定性や信頼区間を得ることに焦点を置いている Bagging（バギング）**と呼ばれるものもあります。

逐次的に学習するブースティングとは対照的に並列に学習することで分散（バリアンス）が低減されます。

モデルの性能を高める（バイアスを低減する）ことに焦点を置いているブースティングとともに、統計学的に無視できない観点ですので記憶の片隅に入れておくことをおすすめします。

▶︎フレーミング指標の解説でバギングについても少しだけ触れています

CSAA: Baseball Prospectus

Decision Tree（決定木）

最後に弱学習器としてブースティングに使用している決定木の説明です。

決定木は一言で言うと『条件分岐の繰り返しで予測する』手法です。

上記のイメージ図からも想像できるとは思いますが、決定木は弱学習器を多数作るブースティングにかなり向いています。

分岐の数（深さ）を制限するだけで簡単かつ確実に弱学習器を作れます。上記の図で言うと、最初の pfx_z の条件で分岐を終えるだけで（全くの無能ではない）弱い予測モデルができることは想像しやすいと思います。

また、条件分岐という特徴により特徴量（≒説明変数）のスケーリングが不要になりますし、非線形な関係はもちろん、カテゴリ変数や段階的な関係も捉えやすくなります。野球分析に向いている匂いがプンプンしてきました。

GBDTはブースティングの学習器として決定木を採用し、その高い実用性を実現しています。

野球におけるGBDTの強み

では先述したGBDTの特徴は野球分析においてどのような強みを持つでしょうか。

以下に野球分析において有り難い要素を並べてみました。

特徴量のスケーリングが不要
- 決定木では特徴量の大小関係（順序）に基づいて分割する
欠損値や外れ値の処理が比較的優れている
- 分割に焦点を置く決定木では分布や外れ値の影響を受けにくい
段階的な変数に強い
- 決定木は条件分岐を繰り返す構造なので特徴量間の複雑な関係性に強い
特徴量の交互作用を捕捉できる
- 決定木は条件分岐ごとに異なる特徴量を選ぶため、モデル全体として特徴量間の主要な交互作用を捕捉できる（ライブラリによって制約はある）
カテゴリ変数に強い
- ダミー変数化せずに直接利用でき、次元の増加が抑えられ、多重共線性を起こしにくい（ライブラリによって差はある）
表形式データに強い
- 条件分岐がベースにある決定木と表形式データは相性が良い
無駄な特徴量を入れても精度が落ちにくい
- 勾配に基づいて誤差を修正するため、予測に影響を与えない特徴量は後の条件分岐で選択されにくくなる
大規模データに強い
- 現代のライブラリでは計算効率が極限まで高められている
特徴量重要度を明確に示せる
- GBDTはモデル全体で、各特徴量がどれだけ損失を減少させたか、または予測に寄与したかを累積的に評価できる
解釈性がそこまで低くはない
- 全体像を把握するのは困難だが、他の複雑なアルゴリズムと比較して、予測結果の筋道は比較的理解しやすい
多クラス分類に対応できる
- 勾配降下法の汎用性とブースティングの逐次的な修正により、複数の確率を同時に予測できる

まず注目するポイントとしては事前のデータ整形のプレッシャーが抑えられる点でしょう。

ホームアドバンテージ on Solving Baseball Blog

ピッチモデリング指標の解説