ピッチモデリング on Solving Baseball Blog

ピッチモデリング指標の解説

Fri, 24 Oct 2025 00:00:00 +0000

ピッチモデリング指標の解説

Stuff+、BotCmd、PitchPro、近年よく聞くようになったこれらの指標は一般的に「Pitch Modeling（ピッチモデリング）」指標と呼ばれています。

モデリング自体は昔からある概念ですし、もちろん野球においてもモデリングの性質を持った指標は多いです。

ただ、今回解説する、主に投手の出力（プロセス）に基づいたモデリングは、長年セイバーメトリクスを支えてきた打席や投球の結果（アウトカム）に基づいたモデリングとは意味合いに違いがあります。

ピッチモデリング指標とあえて表現する背景にはこのような文脈もあり（多分）、またそれが、プロセス情報の入手が困難だった時代に構築されたモデリング指標とは一線を画す存在となる理由でもあります。

機械学習とは

ピッチモデリング指標は機械学習を活用しています。

そもそも機械学習とは『データから規則性を学習し、未知のデータに対して予測や推定を行う手法』の総称です。

これには線形回帰やロジスティック回帰といった、セイバーメトリクスの文脈で初期から活用されてきた分析手法も含まれます。

ただ、それらをわざわざ機械学習と呼称することは少なく、一般的には Random Forest（ランダムフォレスト）や Neural Network（ニューラルネットワーク）といった、より複雑なアルゴリズムを指していることが多いです。

セイバーメトリクスファンは k-Nearest Neighbor algorithm（k近傍法、k-NN）は聞き馴染みがあるでしょう。

現在主流のピッチモデリング指標は全て、機械学習の手法の一つ、Gradient Boosting Decision Tree（勾配ブースティング決定木、GBDT）を活用しています。

GBDTとは

GBDTは有り難いことに名前がその手法を表しています。『勾配』を使って『ブースティング』を行う『決定木』といった感じですね。

GBDTは初めて聞く方も多いとは思いますので、名前に沿ってできるだけ簡潔にまとめます。

Gradient（勾配）

GBDTのゴールを表しているのがこの語句です。

ここで言う勾配も屋根や道路で使われる傾きと同じような意味です（スカラーではなくベクトルですが）。

そして機械学習における勾配とは、損失関数（予測誤差の大きさを表す関数）の増加方向と大きさを表すベクトルであり、GBDTでは勾配と逆方向に進む＝誤差を減らすことをゴールとする勾配降下法をこの後紹介するブースティング決定木によって実現しています。

勾配降下法については、線形回帰をはじめとし、多くの機械学習で採用されている、言わば土台のようなものです。

GBDTはその勾配降下法の中身が特殊です、という話をこれからしていきます。

Boosting（ブースティング）

ブースティングは『弱い学習器を逐次的に学習・統合することで、全体として高性能なモデルを作る』手法です。

この手法の主眼は、前のモデルの系統的な誤差（バイアス）を後のモデルが修正していくことにあります。

また、弱い学習器を多数使用することで、それぞれのモデルが違う方向に間違ってくれるため、結果的にノイズが平準化され、過学習を防ぐことができます。

GBDTは、このブースティングの過程に先に述べた勾配降下法を取り入れたという点で、機械学習において革新的なアルゴリズムとなりました。

ちなみに、ブースティングのような複数のモデルを組み合わせる手法＝アンサンブル学習には、**モデルの安定性や信頼区間を得ることに焦点を置いている Bagging（バギング）**と呼ばれるものもあります。

逐次的に学習するブースティングとは対照的に並列に学習することで分散（バリアンス）が低減されます。

モデルの性能を高める（バイアスを低減する）ことに焦点を置いているブースティングとともに、統計学的に無視できない観点ですので記憶の片隅に入れておくことをおすすめします。

▶︎フレーミング指標の解説でバギングについても少しだけ触れています

CSAA: Baseball Prospectus

Decision Tree（決定木）

最後に弱学習器としてブースティングに使用している決定木の説明です。

決定木は一言で言うと『条件分岐の繰り返しで予測する』手法です。

上記のイメージ図からも想像できるとは思いますが、決定木は弱学習器を多数作るブースティングにかなり向いています。

分岐の数（深さ）を制限するだけで簡単かつ確実に弱学習器を作れます。上記の図で言うと、最初の pfx_z の条件で分岐を終えるだけで（全くの無能ではない）弱い予測モデルができることは想像しやすいと思います。

また、条件分岐という特徴により特徴量（≒説明変数）のスケーリングが不要になりますし、非線形な関係はもちろん、カテゴリ変数や段階的な関係も捉えやすくなります。野球分析に向いている匂いがプンプンしてきました。

GBDTはブースティングの学習器として決定木を採用し、その高い実用性を実現しています。

野球におけるGBDTの強み

では先述したGBDTの特徴は野球分析においてどのような強みを持つでしょうか。

以下に野球分析において有り難い要素を並べてみました。

特徴量のスケーリングが不要
- 決定木では特徴量の大小関係（順序）に基づいて分割する
欠損値や外れ値の処理が比較的優れている
- 分割に焦点を置く決定木では分布や外れ値の影響を受けにくい
段階的な変数に強い
- 決定木は条件分岐を繰り返す構造なので特徴量間の複雑な関係性に強い
特徴量の交互作用を捕捉できる
- 決定木は条件分岐ごとに異なる特徴量を選ぶため、モデル全体として特徴量間の主要な交互作用を捕捉できる（ライブラリによって制約はある）
カテゴリ変数に強い
- ダミー変数化せずに直接利用でき、次元の増加が抑えられ、多重共線性を起こしにくい（ライブラリによって差はある）
表形式データに強い
- 条件分岐がベースにある決定木と表形式データは相性が良い
無駄な特徴量を入れても精度が落ちにくい
- 勾配に基づいて誤差を修正するため、予測に影響を与えない特徴量は後の条件分岐で選択されにくくなる
大規模データに強い
- 現代のライブラリでは計算効率が極限まで高められている
特徴量重要度を明確に示せる
- GBDTはモデル全体で、各特徴量がどれだけ損失を減少させたか、または予測に寄与したかを累積的に評価できる
解釈性がそこまで低くはない
- 全体像を把握するのは困難だが、他の複雑なアルゴリズムと比較して、予測結果の筋道は比較的理解しやすい
多クラス分類に対応できる
- 勾配降下法の汎用性とブースティングの逐次的な修正により、複数の確率を同時に予測できる

まず注目するポイントとしては事前のデータ整形のプレッシャーが抑えられる点でしょう。

予測スイング率との乖離から投球戦略を考える

Tue, 08 Apr 2025 00:00:00 +0000

投手と打者の対戦が大きな要素を占める野球において、投手が打者に対してどの程度警戒しているかという視点をたまに見かけます。

ただ、それをBB％やZone%という結果から推定する方法は、その結果が生成されるまでのプロセス情報が入手できる今の時代では正直ワクワクしません。

ということで、Pitching+のようなピッチモデリング指標の算出過程を活用します。

例えばハーパーはZone%や3-0率といった結果からお化けみたいな打撃成績を残していない近年も投手から恐れられている印象を抱きますが、少し視点を変えてみるということです。

多くのピッチモデリング指標はその算出過程において、投球の特性からスイング率を予測する工程が存在します。この予測スイング率は打者の情報に影響されません。つまり、打者にとってその予測スイング率との乖離がスイング積極性であり、投手にとってその乖離に対応した予測スイング率の投球をすることに合理性が生まれます。

ちょっとTangoの図っぽくしてみた

上記の図は、x軸に予測スイング率、y軸にその予測からの乖離を示したものです。

例で出したハーパーはZone%と同じように打者の情報を含まない予測スイング率は極端に低いです。しかし、その予測からの乖離もトップクラスに大きく、回帰直線を引くと異常値として目立つほどではないでしょう。対してソトは予測からの乖離は負の方向に大きく、投手はある程度大胆なアプローチをする合理性が生まれますが実際には予測スイング率もかなり低くなっています。

上記の図は打者の実際のスイング率と予測スイング率からの乖離の関係です。もちろんこれらはかなり強く相関しますが、その回帰線からの逸脱具合から歪みのある打者の存在も確認できるかと思います。

もちろんこのような思考にはピッチモデリング指標を利用しない方法もありますが、結果を補正して目的とした成分を抽出する手法よりその結果が出るまでのプロセス情報から目的とする成分を抽出する方が理論的には美しいと思います。問題としてはブラックボックス化しやすいことによる万人への解釈性や再現性といったところかと思います。

ピッチクロックが球質に及ぼす影響

Sun, 07 Apr 2024 00:00:00 +0000

2023年、MLBにピッチクロックが導入されました。このピッチクロックが野球にもたらす影響について、日本人を中心に様々な批判材料が構築されていましたが、その中でもとりわけ多くの支持を集めていたのが「投手の身体への悪影響」でしょう。

確かに、旧来の投球間隔が投手の身体的悪影響に対して限界的なラインで凌いでいたものならば、その投球間隔を狭めることは投手に身体的悪影響を及ぼすでしょう。

また特に、旧来の投球間隔が長くより多くの投球間隔の短縮を迫られる投手の方が身体的悪影響は現れやすいでしょう。

実際に2022年から2023年の投球間隔の短縮幅とピッチモデリング指標の変化が以下です。

- -

とりあえず関係性はないと言えるレベルです。

ちなみに、投球間隔の減少幅とILに登録された率や総日数についても特にその主張を裏付けるものとはなっていません。

確かspotracを参照したはず