CSAA: Baseball Prospectus

Baseball Prospectus CSAA（ver.1）解説

捕手のフレーミング評価は野球分析の中では比較的単純で、期待されるストライク率（数）と比較して当該捕手がどの程度ストライクを増やしたかを算出するだけです。この大まかな枠組みはWOWYの時代から各投球座標にアクセスできる現代まで変わってはいませんし、これからも変わることはないでしょう。

今回は、そのストライク獲得貢献の推定について、Baseball Prospectusの手法をなぞっていけば、少し野球に詳しくなれると思うのでやっていきます。

貢献とは誤差

野球ファンの100%がご存じであるように、“理論上は”ストライク判定率は投球座標で決まります。公認野球規則にもそのような記述があるはずです。

ただ、“実際の”ストライク判定率は投球座標“だけ”で説明できないのも野球ファンの99%はご存じであると思います。

その『誤差』が捕手のフレーミング貢献ですが、当然その誤差を生み出したのは捕手のみではありません。その誤差を各要素に適切に分配することが、捕手のフレーミング貢献の精度向上にも不可欠であることも理解いただけると思います。

投球座標のみで説明できない誤差と一口に言っても、その誤差にもタイプがあります。ここでは大まかに2つに分けます。

固定効果

例えばイニングの表裏。ホームチームが守備をするイニングの表と攻撃をするイニングの裏ではストライク確率に“違い”が生じます。

イメージとしては“違い”を明示したい要素です。野球的には他にはピッチカウント、打者や投手の利き手とかですかね。

普通の線形回帰の説明変数が固定効果という認識でも大丈夫です。

ランダム（変量）効果

ここからが肝です。

例えば球審。 MLBでは1シーズンで100人ほどの審判が球審を担当します。この球審というグループの中で各球審のストライク判定率には“ブレ”が生じています。

イメージとしては個体差が存在している集団です。野球的には他には投手や打者といったところでしょう。

普通の線形回帰の変数とは違い、それぞれを集団に属する（母集団の傾向から）ブレを持った個体として扱います。

このタイプ分けがサンプルサイズの異なる変数が互いに絡み合う野球において重要になってきます。

ランダム効果の特性とGLMMの役割

Baseball Prospectusは、誤差を各要素に分配するフェーズで一般化線形混合モデル（GLMM）を利用しています。GLMMではその名の通り、固定効果とランダム効果を組み合わせたモデルを構築できます。

先ほども言ったとおり、野球分析でもよく見る普通の線形モデル（LM、GLM）では、各効果を独立した固定の効果として扱います。ただそれでは実務的な問題と理論的な問題が生じます。

実務的な問題は、捕手100人、球審100人、投手800人、打者1000人をそれぞれ固定効果として扱うような激重モデルの運用は現実的に困難ということです。

理論的な問題としては、固定効果として扱うと、言うなれば完璧な説明を遂行したがるので、それぞれの選手や審判で信頼性が異なるプロ野球において、過剰に責任を帰属してしまいます。簡単な例を挙げます。

捕手A　5000球　平均 +1% のストライク確率誤差
捕手B　2500球　平均 +2% のストライク確率誤差
捕手C　1000球　平均 +5% のストライク確率誤差
この3選手のフレーミング貢献は本当に同じなのか？

固定効果として扱うと上記の『結果』を全て捕手に“そのまま”帰属します。ただ観測される誤差には「捕手に帰属すべきか分からない」誤差も含まれています。文字通りの運や、モデルの限界や、考慮していない他の要素などです。そしてその誤差が占める割合は傾向として、サンプルサイズの小さい捕手ほど大きくなります。

GLMMでは、ランダム効果として扱うと、それぞれの捕手を捕手という（正規分布を持った）グループの中の一つの個体として扱います。これにより、サンプルサイズが小さかったり、一貫した誤差を生み出していないような個体に対して、その分布の傾向を取り入れる量を多くすることができます。いわゆる平均への回帰が、個体に合わせて合理的に働きます。

そして、LMやGLMは多重共線性への対応が上手くないというのも聞いたことがある方は多いかと思います。

現実的なプロ野球のデータ構造では、それぞれを独立した変数と仮定している固定効果のみを扱ったモデルでは、各効果の推定が不安定になります。

大きな共線性があるのは、例えば投手×捕手でしょう。投手の効果を推定したい場合に観測されている誤差には捕手の効果が相当割合混ざります。この時、固定効果として扱うモデルでは、完璧な説明を遂行したいがために各効果の切り分けが困難になります。

ランダム効果として扱うと、各効果を母集団からのブレとして扱うので上記のような信頼性の低い誤差に対して、母集団の傾向を合理的に取り入れることができます。

そして、投手より組む相手の範囲が広く、サンプルサイズも大きい、より信頼性の高い捕手の効果を投手の効果の推定に利用できる点も強みです。

Baseball Prospectus CSAA

文章ばかりで飽きてきたと思うので、モデル例を見て実感を掴んでいただければと思います。

2015年のBaseball Prospectusの記事やFanGraphsでBaseball ProspectusのCSAAについての記述がある記事を参考にします。

まず用意するのは、ベースとなるストライク確率です。記事によると、投球位置、カウント、球種、球場を効果として盛り込んだPitchInfo提供のものを利用しているので以下のようになるでしょう。

1
2
3
4
5
# ベースとなるストライク確率を算出
cs_prob_model <- gam(
 cs ~ s(relative_x, relative_z) + count + pitch_category + home_team,
 family = binomial, data = pitch_data, na.action = na.exclude
)

投球座標を利用するストライク確率予測では、GAM（一般化加法モデル）のような交互作用や非線形性を捉えられるモデルが適しています。実際のところは知りませんが、投球位置は相対的投球座標に、球種は合理性を失わない程度にカテゴリーとして分類しています。

この cs_prob と上記のモデルで考慮しなかったイニングの表裏を固定効果、投手、打者、審判、捕手、捕手と cs_prob の交互作用をランダム効果として、GLMMを構築します。

1
2
3
4
5
6
7
8
9
# GLMMで最終的な予測
csaa_model <- glmmTMB(
 cs ~ cs_prob + inning_topbot + 
  (1 | catcher_id) + (1 | catcher_id:cs_prob_bin) +
  (1 | pitcher_id) + (1 | batter_id) + (1 | umpire_id),
 family = binomial(link = "probit"),
 data = pitch_data,
 verbose = TRUE
)

基本的にフレーミングで差がつくのはShadow Zoneと呼ばれる際どい（ストライク確率が極端な値でない）領域です。捕手と cs_prob の交互作用項はその領域でのフレーミングを重点的に抽出することが可能になります。

また、PitchInfoの提供データが使えない僕たちはGLMMに固定効果をてんこ盛りにして大丈夫ですし、むしろその方が理論としてはすっきりするのではないのでしょうか。投球座標からの誤差をGLMMで全て分配していく感じですね。

1
2
3
4
5
6
7
8
csaa_model <- glmmTMB(
 cs ~ cs_prob + inning_topbot + count + pitch_category + home_team +
  (1 | catcher_id) + (1 | catcher_id:cs_prob_bin) +
  (1 | pitcher_id) + (1 | batter_id) + (1 | umpire_id),
 family = binomial(link = "probit"),
 data = pitch_data,
 verbose = TRUE
)

と、ここまでBaseball ProspectusのCSAAを解説してきました。この後は、そのモデルが実際のところどう機能しているかを見てきたいと思います。

モデルを採点する

では、理論的な話はここら辺にして、実際に機能しているかを考えていきましょう。

今回のCSAAで特徴的なのはランダム効果でしょうから、比較対象は固定効果のみのモデル α とします。モデル β がモデル α にランダム効果も追加したモデルですね。

ただランダム効果（各選手の効果）をモデルから直接取り出せるモデル β に対して、モデル α が提供するのはただの期待ストライク率です。なので、モデル α で推定される各選手の効果はその期待ストライク率からの差分ですね。

また後ほど触れますが、注意点として現在のBaseball ProspectusのCSAAは純粋なGLMMではないので、今回は僕が算出したものを使っています。

評価観点

二つの重要な評価観点を中心に採点していこうと思います。

評価観点は『記述性』と『一貫性』です。

記述性は対象を説明できる度合です。記述性の対象は、投球座標から期待されるストライク率からの差分を当該選手に帰属したものとします。失点率の記述性が高い防御率が、投手の正しい貢献指標ではないように、記述性は高ければ良いものではないです。

一貫性はその指標自体の相関です。ここでは（モデルの性質上）年度間での相関です。一貫性は基本的には高ければ良いですが、今回のように測りたい貢献や能力がある場合、その記述性とのバランスも必要になります。これは、年度間相関は高い球速という指標を投手の失点抑止力の貢献推定には使わないという具体例で理解いただけると思います。

ではモデルの差を見ていきましょう。

捕手

まずは捕手のフレーミング貢献です。

捕手	モデルα	モデルβ
記述性	0.94	0.91
一貫性	0.56	0.61
一貫性（移籍前後）	0.53	0.51
一貫性（小サンプル）	0.46	0.49
1300機会数以上の捕手が対象（MLB 2015 - 2019）小サンプルは前年300機会数以上1300未満

ランダム効果を考慮しないモデル α の方が記述性は高く一貫性は低い、理論通りの傾向が確認できます。ただ固定効果のみのモデルでも十分に運用可能かなという所感ではあります。

打者

では打者のボール獲得貢献です。捕手は捕球の仕方という強力な因果があるものの、打者や投手はここら辺は議論の余地がありますね。

構えや打力、打順、選球眼の審判からのイメージなど仮説はいくらでも降ってきます。

打者	モデルα	モデルβ
記述性	0.94	0.92
一貫性	0.51	0.55
一貫性（移籍前後）	0.51	0.55
一貫性（小サンプル）	0.29	0.36
500機会数以上の打者が対象（MLB 2015 - 2019）小サンプルは前年50機会数以上500未満

こちらもモデル β の記述性は低く、一貫性は高くなる傾向が確認できます。ただ打者に関してもそこまでの差はないかなという所感です。もちろん、固定効果のみのモデルなら平均への回帰はしときたいですけどね。

投手

では投手のストライク獲得貢献です。

投手	モデルα	モデルβ
記述性	0.96	0.85
一貫性	0.50	0.54
一貫性（移籍前後）	0.47	0.52
一貫性（小サンプル）	0.40	0.44
500機会数以上の投手が対象（MLB 2015 - 2019）小サンプルは前年50機会数以上500未満

観測される誤差に捕手の効果が多く含まれる投手に関しては、打者よりも大きな記述性の落ち込みが確認できます。これは期待通りの傾向ですし、なんならもっと記述性が落ちても良いんじゃないかという感覚すらあります。投手と捕手に被りが多いデータ構造から、どちらも同じように記述性が高いのはかなりの問題がありますので、投手に関しては絶対に（捕手を考慮しない）固定効果モデルでは評価したくないですね。

そして一貫性についても理論通り、モデル β の方が向上しています。

審判

審判	モデルα	モデルβ
記述性	0.98	0.96
一貫性	0.63	0.66
一貫性（小サンプル）	0.25	0.34
1300機会数以上の審判が対象（MLB 2015 - 2019）小サンプルは前年300機会数以上1300未満

審判に関しても同様の傾向が確認できました。

他のフレーミング指標

今回書く予定はなかったですが、せっかくなので他のフレーミング指標についてもざっと触れておきます。

まずはFanGraphsで長くフレーミング指標を引っ張っているFRMという指標、いわゆるSteamerのフレーミング指標です。

SteamerもBaseball Prospectusとかなり近い算出方法を用いており、ランダム効果を扱うGLMMです。ただし、大きな違いとして捕手のランダム効果をモデル内で推定せず、あくまでもGLMMから算出されたストライク期待値からのズレを捕手に帰属させています。もちろんこれは理論的には穴があり、その補正として最後に手動で平均への回帰を盛り込んでいます。

次はSIS（BIS）、DRSと言った方が伝わりやすいでしょうか。Fielding Bibleのフレーミング指標です。

Fielding Bibleも目指しているところはBaseball Prospectusに近い部分はあります。誤差を各要素（捕手、打者、投手、審判）に分配するという思想ですね。ただその手法はなかなか原始的なものを採用しているようです。イメージとしては、誤差を各要素に均等に分配するところからスタートして、そこから算出された各個体の効果を最低限考慮して、もう一度分配していくような感じです。また後付けでいろいろ投手×捕手の共線性に対処していたりしますが、詳細に書くとキリがないので気になる方は参考文献のリンクから読んでみてください。他のフレーミング指標に対して分散が極端に小さくなる要因が分かるかと思います。

最後は、大人気データサイトBaseball Savantです。

こちらはBaseball Prospectusとは対称的な、実にTangoらしい、ゾーン分割で必要最低限の補正をした簡素なものです。もちろんそれで十分な評価が行えるのが捕手のフレーミングではありますが、流石に近日アプデが入るようです。

しかし、これまたTango節と言ったところで上記の混合モデル的アプローチとは似ても似つかない、1球単位での解釈性を追い求めたモデルと言えそうです。境界線からの距離や打者と投手の利き手により期待されるストライク確率との差分を全て捕手に帰属します。後付けの平均への回帰もやらないとのことです。フレーミングだからできる甘えという気がしなくもないですが、GLMMではできない条件付きの得意・不得意（とここでは言っておきます）の可視化に特化していると言えます。

新フレーミング指標 これは打者視点だけど、こんな感じらしい高めのトップはやっぱり2017年MVPのあの人やねhttps://bsky.app/profile/tangotiger.com/post/3lnyatdpwqk2b

Baseball Savantはセイバーメトリクス初心者の方も多く利用するサイトだと思いますので、ここまで読んでくださっている方に、この注意喚起が伝わればと思います。

では先ほどの評価観点で各サイトのフレーミング指標についても見ておきましょう。

フレーミング指標	今回のやつ	Baseball Prospectus	FanGraphs	Baseball Reference	Baseball Savant
記述性	0.91	0.88	0.88	0.85	0.92
一貫性	0.61	0.63	0.62	0.56	0.47
一貫性（移籍前後）	0.51	0.51	0.52	0.50	0.45
一貫性（小サンプル）	0.49	0.46	0.44	0.28	0.49

1300機会数以上の捕手が対象（MLB 2015 - 2019） 小サンプルは前年300機会数以上1300未満

理論通り、今回取り上げたBaseball Prospectusの旧フレーミング指標に近いものと現フレーミング指標、そしてFanGraphsのFRMはかなり似た傾向を示しています。Baseball Savant（アプデ前）に関しては記述性は高く一貫性は低いという納得感のある傾向ですが、Baseball Referenceに関しては記述性が低いのに一貫性も高くないという微妙な感じに。（まあ、一番独自性は強く数理モデルとも言いにくく、 rWARに採用されてもないので良いですがアプデの噂はないんでしょうかね）

おわりに

今回はBaseball Prospectus、とりわけJonathan Judgeが手がける多くの指標の基礎となる、ランダム効果を扱う線形混合モデルについてまとめてみました。

そこまで事前知識を持っていなかったけど、ここまで読み進めていただいた、優しい物好きな方々のほとんどは引っ掛かっている箇所があるかと思います。

GLMMでは、ランダム効果として扱うと、それぞれの捕手を捕手という（正規分布を持った）グループの中の一つの個体として扱います。

これえぇの？って話ですよね

LMMやGLMMでは基本的には（一応例外もあります）、各ランダム効果を正規分布と仮定します。

これけっこう怖いですよね。もしCSAAが xwOBAのような分布を持っていたら、上位層をかなり過小評価してしまう、なんてことにもなります。

その怖さに立ち向かう理論の代表格はやはり、ベイズ推定でしょう。ベイズ推定は簡単に言うと各効果に事前に分布を明示し、それに従って分布的な推定をします。GLMMのような、正規分布を仮定し、各効果を点推定するモデルより（ちゃんと設計すれば）不確実性とともに実態を捉えられます。

ただベイズ的アプローチには毎日の更新が求められるデータサイトでは、実務的な障壁があります。そこでCSAAでは、事前分布を明示せずとも、ベイズ推定のようにモデルとして分布を推定せずとも、ベイズ的な事後分布に近い、不確実性を含んだ分布を導き出すBayesian Baggingを取り入れています。

Bayesian Baggingを取り入れる過程の、実務的かつ理論的奮闘が気になる方は参考文献を覗いてみてください。

やっていることはそこまで難しいことではなく、リサンプリングしてGLMMを複数回実行し、一律ではない観測データの揺らぎから、擬似的に事後分布を推定します。例えば、 xwOBAのような右に裾が長い分布を正規分布と仮定すると、上位層が過剰に平均に回帰されます。Bayesian Baggingによって、その一貫した特徴を観測し、柔軟に実態に即した分布を判断するというイメージです。

正直フレーミングに関してはここまで拘る必要性は薄いですが、この手法や目的を知っていることは、もっとベイズ味のあるBaseball Prospectusの指標を理解する上で少し役立つと思うので最後に紹介しておきました。

参考文献

Moving Beyond WOWY: A Mixed Approach To Measuring Catcher Framingn - Baseball Prospectus
Bayesian Bagging to Generate Uncertainty Intervals: A Catcher Framing Story - Baseball Prospectus
Statcast: Update to Catcher Framing - Tangotiger Blog
Catcher Framing, Slice and Dice - Tangotiger Blog
FanGraphs Pitch Framing - FanGraphs
Pitch Framing Park Factors - FanGraphs
Who Is Responsible For A Called Strike? - Joe Rosales, Scott Spratt