[{"content":"コマンド力の推定を捕手の構えという情報なしで行います。\nコマンド力を「目標とした座標に投げられる能力」と定義すると、それの推定に必要なのは投手が当該投球において目標とした座標の推定です。 目標とした座標は捕手の構えと一致することが多いですが、投手も捕手も考えなしに目標座標は決めていないはずです。 ピッチカウント、打者、球種、その投手の特性、点差や塁状況などがそれを決定する要素となっているでしょう。\n本格的なモデルを組まずともこれらの考え方を活かした簡素なコマンド指標を作ることはできます。\n今回実行するにあたり条件とした要素は「ピッチカウント」「球種」「打席の左右」です。 それらの条件を揃えたデータセット内での投球座標の散らばりを見ることでコマンド力の推定を行います。\n1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 library(tidyverse) years \u0026lt;- 2021:2025 Name \u0026lt;- read_csv(\u0026#34;name.csv\u0026#34;) %\u0026gt;% select(Name, MLBAMID) df \u0026lt;- map_dfr(years, ~read_csv(paste0(.x, \u0026#34;.csv\u0026#34;)) %\u0026gt;% mutate(year = .x)) # 新しい列を作成 df \u0026lt;- df %\u0026gt;% mutate( # 打者ごとに正規化する relative_x = plate_x / 0.833, relative_z = (plate_z - strike_zone_bottom) / (strike_zone_top - strike_zone_bottom), pitch_count = paste0(balls, \u0026#34;-\u0026#34;, strikes) ) %\u0026gt;% select(year, pitcher_id, bat_side, pitch_count, plate_x, plate_z, relative_x, relative_z, pitch_type, arm_angle) # ユークリッド距離的散らばりを計算 df_dist \u0026lt;- df %\u0026gt;% group_by(pitcher_id, pitch_count, pitch_type, bat_side, year) %\u0026gt;% mutate( mean_x = mean(plate_x, na.rm = TRUE), mean_z = mean(plate_z, na.rm = TRUE), distance = sqrt((plate_x - mean_x)^2 + (plate_z - mean_z)^2) ) %\u0026gt;% select(year, pitcher_id, bat_side, pitch_count, pitch_type, arm_angle, distance) %\u0026gt;% ungroup() # 投手ごとのサマリー df_dist_summary \u0026lt;- df_dist %\u0026gt;% group_by(year, pitcher_id) %\u0026gt;% summarize( mean_distance = mean(distance, na.rm = TRUE), sd_distance = sd(distance, na.rm = TRUE), min_distance = min(distance, na.rm = TRUE), max_distance = max(distance, na.rm = TRUE), IQR_distance = IQR(distance, na.rm = TRUE), p25_distance = quantile(distance, 0.25, na.rm = TRUE), p75_distance = quantile(distance, 0.75, na.rm = TRUE), pitches = n(), .groups = \u0026#39;drop\u0026#39; ) %\u0026gt;% group_by(year) %\u0026gt;% mutate(pitches_rank = percent_rank(pitches)) %\u0026gt;% filter(pitches_rank \u0026gt;= 0.5) %\u0026gt;% ungroup() %\u0026gt;% left_join(Name, by = c(\u0026#34;pitcher_id\u0026#34; = \u0026#34;MLBAMID\u0026#34;)) かなり簡単な考え方と計算ですが理論的にはBB%のようなコマンド力を語る際に登場しやすい指標よりもコマンド力を推定するにおいてはノイズは小さくなります。 コマンド関係の指標との相関や2025年の上位下位20投手を以下に示します。\n四分位範囲を選んだのは、真にコマンドの良い投手をなるべく過小評価したくないという考えからです。 今回条件とした要素以外にも投手や捕手は点差や塁状況、打者の特徴によって目標座標を変えていることは想定できます。 今回指定した条件の傾向から大きく外れる局面はそう多くはないと考えられるますが、平均値はもちろん標準偏差もそれらの少ない局面の影響を受けてしまいます。 四分位範囲とすることで外れ値的な目標座標を計算から除外し、コマンド最上位層の過小評価を簡便ではあるが是正することを試みました。\n次回以降は基本的な考え方は受け継ぎつつも、数理モデルへの落とし込みや散らばり方の傾向に合わせた投球戦略などのステップに進めればと思います。\n","date":"2025-11-11T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_01/","title":"コマンド力の推定"},{"content":"ピッチモデリング指標の解説 Stuff+、BotCmd、PitchPro、近年よく聞くようになったこれらの指標は一般的に「Pitch Modeling（ピッチモデリング）」指標と呼ばれています。\nモデリング自体は昔からある概念ですし、もちろん野球においてもモデリングの性質を持った指標は多いです。\nただ、今回解説する、主に投手の出力（プロセス）に基づいたモデリングは、長年セイバーメトリクスを支えてきた打席や投球の結果（アウトカム）に基づいたモデリングとは意味合いに違いがあります。\nピッチモデリング指標とあえて表現する背景にはこのような文脈もあり（多分）、またそれが、プロセス情報の入手が困難だった時代に構築されたモデリング指標とは一線を画す存在となる理由でもあります。\n機械学習とは ピッチモデリング指標は機械学習を活用しています。\nそもそも機械学習とは『データから規則性を学習し、未知のデータに対して予測や推定を行う手法』の総称です。\nこれには線形回帰やロジスティック回帰といった、セイバーメトリクスの文脈で初期から活用されてきた分析手法も含まれます。\nただ、それらをわざわざ機械学習と呼称することは少なく、一般的には Random Forest（ランダムフォレスト）や Neural Network（ニューラルネットワーク）といった、より複雑なアルゴリズムを指していることが多いです。\nセイバーメトリクスファンは k-Nearest Neighbor algorithm（k近傍法、k-NN）は聞き馴染みがあるでしょう。\n現在主流のピッチモデリング指標は全て、機械学習の手法の一つ、Gradient Boosting Decision Tree（勾配ブースティング決定木、GBDT）を活用しています。\nGBDTとは GBDTは有り難いことに名前がその手法を表しています。『勾配』を使って『ブースティング』を行う『決定木』といった感じですね。\nGBDTは初めて聞く方も多いとは思いますので、名前に沿ってできるだけ簡潔にまとめます。\nGradient（勾配） GBDTのゴールを表しているのがこの語句です。\nここで言う勾配も屋根や道路で使われる傾きと同じような意味です（スカラーではなくベクトルですが）。\nそして機械学習における勾配とは、損失関数（予測誤差の大きさを表す関数）の増加方向と大きさを表すベクトルであり、GBDTでは勾配と逆方向に進む＝誤差を減らすことをゴールとする勾配降下法をこの後紹介するブースティング決定木によって実現しています。\n勾配降下法については、線形回帰をはじめとし、多くの機械学習で採用されている、言わば土台のようなものです。\nGBDTはその勾配降下法の中身が特殊です、という話をこれからしていきます。\nBoosting（ブースティング） ブースティングは『弱い学習器を逐次的に学習・統合することで、全体として高性能なモデルを作る』手法です。\nこの手法の主眼は、前のモデルの系統的な誤差（バイアス）を後のモデルが修正していくことにあります。\nまた、弱い学習器を多数使用することで、それぞれのモデルが違う方向に間違ってくれるため、結果的にノイズが平準化され、過学習を防ぐことができます。\nGBDTは、このブースティングの過程に先に述べた勾配降下法を取り入れたという点で、機械学習において革新的なアルゴリズムとなりました。\nちなみに、ブースティングのような複数のモデルを組み合わせる手法＝アンサンブル学習には、**モデルの安定性や信頼区間を得ることに焦点を置いている Bagging（バギング）**と呼ばれるものもあります。\n逐次的に学習するブースティングとは対照的に並列に学習することで分散（バリアンス）が低減されます。\nモデルの性能を高める（バイアスを低減する）ことに焦点を置いているブースティングとともに、統計学的に無視できない観点ですので記憶の片隅に入れておくことをおすすめします。\n▶︎フレーミング指標の解説でバギングについても少しだけ触れています\nCSAA: Baseball Prospectus Decision Tree（決定木） 最後に弱学習器としてブースティングに使用している決定木の説明です。\n決定木は一言で言うと『条件分岐の繰り返しで予測する』手法です。\n上記のイメージ図からも想像できるとは思いますが、決定木は弱学習器を多数作るブースティングにかなり向いています。\n分岐の数（深さ）を制限するだけで簡単かつ確実に弱学習器を作れます。 上記の図で言うと、最初の pfx_z の条件で分岐を終えるだけで（全くの無能ではない）弱い予測モデルができることは想像しやすいと思います。\nまた、条件分岐という特徴により特徴量（≒説明変数）のスケーリングが不要になりますし、非線形な関係はもちろん、カテゴリ変数や段階的な関係も捉えやすくなります。野球分析に向いている匂いがプンプンしてきました。\nGBDTはブースティングの学習器として決定木を採用し、その高い実用性を実現しています。\n野球におけるGBDTの強み では先述したGBDTの特徴は野球分析においてどのような強みを持つでしょうか。\n以下に野球分析において有り難い要素を並べてみました。\n特徴量のスケーリングが不要 決定木では特徴量の大小関係（順序）に基づいて分割する 欠損値や外れ値の処理が比較的優れている 分割に焦点を置く決定木では分布や外れ値の影響を受けにくい 段階的な変数に強い 決定木は条件分岐を繰り返す構造なので特徴量間の複雑な関係性に強い 特徴量の交互作用を捕捉できる 決定木は条件分岐ごとに異なる特徴量を選ぶため、モデル全体として特徴量間の主要な交互作用を捕捉できる（ライブラリによって制約はある） カテゴリ変数に強い ダミー変数化せずに直接利用でき、次元の増加が抑えられ、多重共線性を起こしにくい（ライブラリによって差はある） 表形式データに強い 条件分岐がベースにある決定木と表形式データは相性が良い 無駄な特徴量を入れても精度が落ちにくい 勾配に基づいて誤差を修正するため、予測に影響を与えない特徴量は後の条件分岐で選択されにくくなる 大規模データに強い 現代のライブラリでは計算効率が極限まで高められている 特徴量重要度を明確に示せる GBDTはモデル全体で、各特徴量がどれだけ損失を減少させたか、または予測に寄与したかを累積的に評価できる 解釈性がそこまで低くはない 全体像を把握するのは困難だが、他の複雑なアルゴリズムと比較して、予測結果の筋道は比較的理解しやすい 多クラス分類に対応できる 勾配降下法の汎用性とブースティングの逐次的な修正により、複数の確率を同時に予測できる まず注目するポイントとしては事前のデータ整形のプレッシャーが抑えられる点でしょう。\n例えば、機械学習において知名度の高いニューラルネットワークでは事前のスケーリングが必須になりますし、深層学習（ディープラーニング）ではより高度な正規化が求められます。野球データにおいて特徴量ごとに適した正規化を行うのはそれだけで骨が折れます。\nそしていわゆる重み付けではなく条件分岐で誤差を減らしていくので、利き手の左右や球場といったカテゴリ変数、そしてピッチカウントと打者の積極性といった（非線形かつ滑らかでない）段階的な変化、またArm Angle × IVBといった交互作用への対応に強くなります。\n算出方法 では実際にモデルを組んである程度の流れも説明していきます。\n訓練データとテストデータ 訓練データは2021〜2023年の欠損値を除くMLBのデータとします。\n2024〜2025年をテストデータとし、記述性や予測性を評価します。\nサブモデル サブモデルは以下の4つとします。\nもちろん、わざわざサブモデルに展開せず、直接得点価値を推定する手法も間違いではないですし、実際にその手法を取っている野良のセイバリストもいます。ただ現状、主要データサイトのピッチモデリング指標は全て野球をサブモデルに展開しています。\n理由としてはいくつかありますが、まずは精度の向上という点。\nサブモデルに展開することでサブモデルごとに最適な特徴量や閾値が選択されます。 スイング時や見逃し時では重要となる特徴量は当然変わってきますので精度向上には必要です。\nまた野球において各イベントは均衡しておらず、発生確率に差異が生じます。サブモデルへの展開でその不均衡を穏やかにすることができます。\nデバックがしやすいのもメリットでしょう。\nそして解釈性の向上も理由の一つです。\n順序立てて予測していくことで、各段階での特徴量重要度から野球に対する理解度の向上を望めます。\nまた得点価値の予測ではなく、各事象の確率予測という点では、選手のタイプや状況によって変化するレバレッジへの対応への一助となる可能性を秘めています。\n特徴量 使用した特徴量は以下です。\nもちろんこれは一例であり、目的によって特徴量の取捨選択はできますし、更なる精度向上のために各サブモデルで特徴量を変える選択肢もあります。\n◆ Stuff モデル\n打席 身長 アームアングル 球速 加速度（x軸、z軸） リリースポイント（x軸、z軸） 変化量から予測される回転軸と実際の回転軸の差 回転効率 主要速球との球速差 主要速球との加速度差（x軸、z軸） ◆ Location モデル\n打席 投球座標（x軸、z軸） ◆ Pitch モデル\n打席 身長 アームアングル 球速 加速度（x軸、z軸） リリースポイント（x軸、z軸） 変化量から予測される回転軸と実際の回転軸の差 回転効率 主要速球との球速差 主要速球との加速度差（x軸、z軸） 投球座標（x軸、z軸） 利き手調整済み、ピッチカウント効果は事前に補正\nそして先述したようにGBDTでは特徴量重要度を算出することができます。\nただ特徴量重要度にももちろん欠点はあります。\n基本的な手法ですと、条件分岐に出現しやすい多カテゴリや大スケールの特徴量を過大評価してしまったり、未知のデータを対象としているわけではないので実際のモデル性能への貢献度とするのはリスクがあったり……。\n上記の図はそれらの欠点を改善した算出方法ではありますが、それでも特徴量間の交互作用を捉えきれなかったり、あくまでも全体的な話で個別的な解釈には使えなかったり……。\nライブラリ ライブラリの選択です。\nGBDTの有名なライブラリは XGBoost、LightGBM、CatBoost の三者かと思います。\n同じGBDTでも各ライブラリには違いがあります。\n（流石に退屈だと思うので）この違いについては割愛しますが、例えば決定木の説明で出したイメージ図は XGBoost が近いです。\nLightGBM は木が対称に広がっていかず重要な枝だけ深くなったりします（もちろん過学習のリスクは上がる）。\n対して CatBoost は特徴量の選択や閾値の設定まで対称とするので過学習には強くなりやすいです。\nその結果、処理速度は LightGBM が強く CatBoost が弱かったり。\nただ、全体的な精度については優劣はないものと思っていただいて構いません（プレイヤーの設定やデータの特徴次第）。\n各サブモデルを先に示した特徴量で実行します。\n今回は（微差ではありますが）一番来シーズンの予測精度が高かった CatBoost を採用しました。\n得点価値予測 得られた各イベントの予測確率と各イベントの得点価値、そして打球イベントの予測得点価値を組み合わせて全体的な予測得点価値を算出します。\nStuff モデルは投球座標の影響を減らしたいので、スイング結果モデルと打球価値モデルのみ考慮します。\n性能 主要データサイトのピッチモデリング指標と比較した性能を見ておきましょう。とりあえず指標名は「Pitch New」、「Stuff New」としておきます。\nまずは記述性です。\n目的変数は同年の Run Value（レバレッジあり）とします。\n指標名 相関係数 PitchPro 0.530 Pitching+ 0.504 Pitch New 0.495 StuffPro 0.478 botOvr 0.455 botStf 0.433 Stuff+ 0.429 Stuff New 0.411 2024〜2025 MLB（1000球以上）| n = 537 Data: FanGraphs, Baseball Prospectus, Baseball Savant\n記述性についてはそれほど拘りたくありません。\nもちろん、ここに載せないほど低い Location モデルたちはそもそもの野球的な意味を問われてしまいますが、プロセス情報に基づいたモデリング指標である以上、アウトカム情報に基づいたそれより記述性は低くならないなら、それはどちらかの指標に不備がある可能性が高いです。\n簡単に言うと、アラエスのコンタクトやウォルナーの空振りをより記述するモデルが野球的に正しいとは言えません。\n次に一貫性です。\n目的変数は翌年の同指標とします。\n指標名 相関係数 Stuff New 0.863 botStf 0.843 StuffPro 0.809 Pitch New 0.783 Stuff+ 0.765 botOvr 0.688 Pitching+ 0.681 PitchPro 0.673 2024〜2025 MLB（1000球以上）| n = 153 Data: FanGraphs, Baseball Prospectus, Baseball Savant\n不備の少ない設計では、記述性と一貫性は基本的にはトレードオフとなります。\n記述性で一番評価が低かった Stuff New や Pitchカテゴリーではそこまで高くなかった Pitch New の一貫性が目立ちます。\n最後に予測性です。\n目的変数は翌年の Run Value（レバレッジあり）とします。\n指標名 相関係数 Pitch New 0.408 Pitching+ 0.395 Stuff New 0.392 StuffPro 0.379 botStf 0.377 PitchPro 0.358 Stuff+ 0.343 botOvr 0.294 2024〜2025 MLB（1000球以上）| n = 153 Data: FanGraphs, Baseball Prospectus, Baseball Savant\n予測性は実質的に記述性と一貫性の総合評価です。\n記述性はそこまで高くなかった Pitch New と Stuff New の評価が高くなっています。\n記述性と予測性のバランスが良い Pitching+ や StuffPro は感情的にも機能的にも有り難いでしょう。\n逆に言うと、Pitch系のカテゴリーでは記述性も低く予測性も低い BotOvr は何らかの見直しは必要かもしれません。\nピッチモデリング指標を活かした分析 では軽くではありますが、ピッチモデリング指標の活かし方についても触れておきます。\nこの note 内で『革命的な指標』だとか、『一線を画す存在』だとか仰々しい表現をしましたが、「メイソン・ミラーの Stuff 凄い！」だけで終わることが多い現状ではその域には達していないでしょう。\nピッチモデリング指標の強み 先に述べた通り、ピッチモデリング指標の強みは『主に投手の出力情報に基づいている』点です。\nくどいようですが、これが意味するのは他の選手（や調整次第では他の環境）の情報が薄いという点です。\n責任の所在を明らかにしやすい野球という競技においても、当該選手のみによって生み出される情報は限られるものでした。\nその点でトラッキングデータは革命であり、その中でも高精度なホークアイデータを活用したピッチモデリング指標は、過去に難しかったアウトカムの分解、いわゆる責任分配、さらには因果推論まで進むためのペダルとなるべきだと考えています。\n有効活用しているセイバリストの紹介 自身でモデルを構築しアウトプットするセイバリストが増えた近年においても、その観点において精力的だなと感じる方はほとんどいないです。\n例を挙げておきます。\nTTOPの分解 -TTOPの分解\nPitching Bot 開発者の Cameron Grove によるTTOP（周回効果）の分解は有名かと思います。\n投手と打者と守備者とその他環境によって生み出される周回効果（対戦回数が増えるほどRVが増加する）から、投手のプロセス情報を抽出することによって、打者の\u0026quot;慣れ\u0026quot;が関係するという仮説に近づくことができます。\nPFの分解 -PFの分解\nプロセス情報を活かした分析において群を抜いて精力的だと感じているのが、PitchPro、StuffPro 開発者の Stephen Sutton-Brown（SSB）。\n上記の例では、空振りPark Factor が大きい T-Mobile Park と Tropicana Field はその因果は全く違う可能性が示唆されています。\nSSBについてはこれはほんの一例で、ピッチモデリング指標を活かした責任分配から投球戦略、また打者におけるプロセス要素の強い変数を活かした分析等、個人的にかなり理想に近いアウトプットをしていると感じています。\nもちろん、その精力さ故に交絡因子の見落とし等もあるとは思いますが、その点についてトップクラスの Tom Tango を心の中に飼い、アクセル（SSB）とブレーキ（Tango）をうまく使いながら探究を深めていきたいなと最近は考えています。\nホームアドバンテージの責任分配 では、簡単にではありますが、自分もメジャーなテーマをプロセス情報を活かして調べてみます。\n他の競技と同様、野球にもホームアドバンテージがあることはよく知られているかと思います。\nおおよそホームチームの勝率が 53% 〜 54% となる傾向で、例えばこれを Pythagenpat に組み込むと1試合あたりのPitch Valueは +0.14 〜 +0.19 ほどとなります。\n2024年と2025年では以下のようになっています。\n年 ホーム勝率 ホームPV/G 2024 52.2% 0.124 2025 54.3% 0.157 Data: Baseball Reference\nこの Pitch Value の差を投球、打撃、守備に配分してみましょう。\n算出方法は以下です。\n◆ 投球 ホームでの予測 Pitch Value - アウェイでの予測 Pitch Value\n◆ 打撃 ホームでの xRun Value - ホームでの予測 Run Value - アウェイでの xRun Value - アウェイでの予測 Run Value\n◆ 守備 ホームでの xRun Value bip - ホームでの Run Value bip - アウェイでの xRun Value bip - アウェイでの Run Value bip\n予測 Pitch（Run）Value は Pitch New で予測した Pitch（Run）Value xRun Value は打球部分（垂直打球角度、水平打球角度、飛距離）を k-NN でモデリングしたもの\n投手が投球を始めてからイベントが確定するまでのプロセスは、投手 ⇒ 打者 ⇒ 守備です（厳密に言うと気候等の環境や審判が介入する）。\n投手と打者のプロセス情報（ピッチモデリング、打球モデリング）をそれぞれの段階で切り離すことで、より野球的な責任分配が可能になります。\n多少の誤差は生じますのでそれらを正規化した比率が以下です。\n年 投球 打撃 守備 2021 24.7% 40.4% 34.8% 2022 32.9% 45.2% 22.0% 2023 20.1% 49.8% 30.1% 2024 30.2% 63.9% 5.9% 2025 17.7% 55.8% 26.5% 1シーズンあたり7万球ほどあるとは言え、2021〜2023年は学習データである点に注意 Data: Baseball Savant\n年によってバラつきはありますが、一貫して打撃の貢献割合が大きくなっています。\n様々な側面から語られるホームアドバンテージですが、ホーム球場で投手がより良い投球をしている以上に打者がより良い打撃をしている可能性が高そうです。\n示唆される要因としては、バックスクリーンを含むボールの見え方への慣れ、球場特有の変化量への慣れでしょうか。\nもちろん、この算出方法が考慮していない要素は多々あります（例えば打撃は審判の影響が 3%程度入っていそう）。\nただ、それらを考慮するのもプロセス情報の入手とモデルへの組み込み、そして切り離しで可能になります。一応、過去に似たことはやっていたります。\n▶︎ポストシーズンの低いBABIPはどこから？？\nポストシーズンの低BABIPの要因 強みを活かした分析あれこれ 今回はピッチモデリング指標の活用法として、責任分配に主眼を置きましたが、他にも活かせる文脈は存在します。\n対象階層でのアウトカムが存在しない投手 実際にしているアナリストも多いですが、マイナーリーガーやアマチュアの投手など、対象階層（MLB等）での結果が存在しない投手の評価です。\n正直なところ対象階層での結果が存在する投手は K-BB% なり SIERA なり見てれば良いですが、そうでない投手の場合、対象階層での貢献を予測する上で所属階層のノイズ（打者が極端に変化球に弱い等）を除去できる指標の優位性が際立ちます。\nそれらに通ずる話として、怪我復帰後やフォーム変更後等、対象階層でのサンプルの信頼性が低いと判断できる場合もアウトカムに頼らない指標の利用価値は高まります。\n特徴量の操作 先述しましたが、目的によって特徴量の取捨選択ができる点も強みです。\n例えば、Tropicana Field を本拠地にしている投手と Coors Field を本拠地にしている投手を特徴量として変化量が入っているピッチモデリング指標で評価して良いでしょうか？\nマウンドからホームに追い風が吹かない屋内球場とそもそもの空気密度の小さい高地の球場において、変化量という特徴量には能力を測る上でノイズとなる環境要素が強く含まれてしまいます。\n目的が投手の能力を推定することであるなら、上記の問題に対処する必要はあります。MLBの投手なら PF で補正するというのも手段の一つとなりますが、このような事例はマイナーやアマチュア、海外リーグの投手の評価をする際に必ず直面する問題です。\nそのような投手の能力を評価するという目的のもとに、環境に左右されにくいプロセス情報を駆使したモデルを構築できるのも強みです。\nまたピッチモデリング指標に対して、「球種構成」「ピッチトンネル」「シークエンス」等が考慮されていないという反応もいくつか見受けられます。\nただ、それらに関してもモデルに組み込むことは可能ですし、実際に「主要速球との球速差」等を特徴量に含めているピッチモデリング指標は多いです。\nそして、あくまでも Pitch レベルに主眼を置いたモデル（現状はそのようなモデルも多い）と球種構成等 Pitching 的な要素も考慮に入れたモデルを比較して、その乖離が大きい投手を探るといった使い方ができるのも魅力です。\n球種別の評価 これはピッチモデリング指標の特徴というよりかは、アウトカム情報に基づく指標の網羅性の話になってきますが、役割の違う球種を一元的に評価できるモデリング要素の強い指標がまだ少ないです（その精査もやっていきたいですね）。\n集計されたスタッツをモデリングする指標が多い中、モデリングされたスタッツを集計するという特徴は球種別の評価には（注意点はありますが）適しています。\nおわりに 今回はピッチモデリング指標について冗長にならない程度に解説をしてみました。\n比較的新しく、難しい指標だからこそ陥る短絡的な使用法への警笛も兼ねた note となりましたが、どんな指標にも算出方法がある限り、その使用法はリーダーボードを眺めるだけで留まるものではないという点に相違はありません。\n野球の構造的な理解から、あらゆる指標の算出方法の背後にある演繹的、帰納的な理論を読み取り、またそれをさらなる野球の構造的な理解に活かす。\nその積み重ねがお馴染みの FanGraphs のリーダーボードや Baseball Savant の選手トップページをまた違った色に染めてくれるものとも思います。\n現状、そのような『野球の探究』について知見を集めるためには英語文献にも触手を伸ばす必要はありますが、この度新刊が出版された「デルタ・ベースボール・リポート」はそのジャンルの貴重な日本語文献枠でしょう。\n今回紹介したようなモデリング指標を使った考察も掲載されていますので、最後にそちらの宣伝とともにこの note を締めたいと思います。\n-デルタ・ベースボール・リポート 8\n参考文献 Understanding Machine Learning: From Theory to Algorithms - Shalev-Shwartz, S., Ben-David, S. (2014) Greedy function approximation: A gradient boosting machine. - Friedman, J. H. (2001) XGBoost: A Scalable Tree Boosting System - Chen, T., \u0026amp; Guestrin, C. (2016) LightGBM: A Highly Efficient Gradient Boosting Decision Tree - Ke, G., et al. (2017) CatBoost: unbiased boosting with categorical features - Prokhorenkova, L., et al. (2018) PitchingBot Pitch Modeling Primer - FanGraphs Introducing StuffPro and PitchPro - Baseball Prospectus Stuff+ is updated! ","date":"2025-10-24T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/breakdown/pitch_modeling/","title":"ピッチモデリング指標の解説"},{"content":"Tangotiger Blogにて定期的にxwOBAにおいてSpray Angleは過剰適合してしまうという主旨の記事が上がります。\n実際、全体の傾向として未知のデータに対する予測力においてLaunch SpeedとLaunch Angleに加えてSpray Angleを説明変数に加えるとモデルの精度は落ちます。\nただ、よく話題になるように個別事例においてはその傾向から良い意味でも悪い意味でも逸脱する打者も当然見られます。\nxwOBAモデルにおける真の意味での誤差を見極め、Spray Angleを含めた情報の取捨選択をアップデートしていくことが最終的な目標となります。\nLaunch SpeedとLaunch Angleのみを説明変数としたxwOBAからSpray Angleの三方向（Pull、Cent、Oppo）のみの情報を付したモデル、Spray Angle（値）の情報を付したモデルの比較を以下に示します。\n-\n基本的にその年のwOBAの記述力はSpray Angleという情報を付与するほど、翌年のwOBAに対する予測力は付与しないほど上がります。\nSpray Angle有のモデルと無のモデルで差が出た上位下位の打者20人を以下に示します。\n- -\n複数年で登場する打者が存在するようにSpray Angleの情報が必要な打者も存在する可能性は十分にあります。 ただこれらの誤差には当然球場や対戦相手の偏りも含まれていますので、それらを考慮しながらサンプルサイズにおける誤差も抽出し、最終的には帰属できていない要素を定量化できればと思います。\n","date":"2025-10-11T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_02/","title":"xwOBAの改良"},{"content":"フレーミングという捕手の技術と言いますか貢献と言いますか、現代までの野球において決して無視のできない要素があります。\nフレーミングという貢献はストライク・ボール判定が投球座標のみで決まらず、かつその誤差が各要素に分配できる一貫した誤差であることによって存在しています。 当然ではありますが、この貢献は第一にストライク・ボール判定が完全に投球座標で決まるようになれば存在しなくなりますし、第二に一貫した誤差が各要素で観測されないことでも存在しなくなります。\n第一の不存在事由は周知の通り審判の判定精度の上昇とABSの部分的導入で成立に近づいてはいる状態です。 第二については、フレーミング貢献が再認識、定量化された黎明期以降、特にその多くを担っている捕手はフレーミングの鍛錬の質も量も増しているでしょうし、フレーミングが苦手な捕手の出場機会も減っているでしょう。 これは捕手という集団におけるフレーミング貢献の分散の抑制が期待されます。実際にMLBでもNPBでも捕手のフレーミング貢献の分散は縮小傾向にはありそうです。\nという状況を誤審率推移とともに確認してメモ書きとしておきます。\n-\n","date":"2025-10-04T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_03/","title":"MLB誤審率推移"},{"content":"かなり雑ではありますがメモにはこのレベルの雑なものも置いておきます。\nMLBは2026年からABSの導入が決定し、それに伴いストライクゾーンの刷新も行われます。 野球規則に則った現状のストライクゾーンはあくまでも打撃姿勢におけるストライクゾーンですが、いろいろ事情はあるでしょう、2026年以降は身長によってストライクゾーンが定められることが決定しました。 これにより打撃フォームだと、しゃがみ系の打者より突っ立ち系の打者の方がストライクゾーンが小さくなります。 身体的特徴だと、膝下が長い打者より短い選手が、腰位置が低い打者より高い打者が、顔が長い打者より顔が短い打者の方がストライクゾーンが小さくなります。\nそんな感じでストライクゾーン小さくなる打者の上位下位を出してみたという話です。\n- -\nBaseball SavantがPitch単位で設定しているストライクゾーンが縦に何cm小さくなるかを計算しています。 ベリンジャーやイエリッチは（身長に対して）極端なストライクゾーンでも有名でしょう。\nただ注意点として打者の体感として格差が生じるかというと、現状の審判は打者の個別ゾーンに対応できていませんので悪い意味で現行のものと別物にはならないでしょう。 以下に実際の試合のストライク・ボール判定において、ストライク確率が50％となる高さを打者別に推定したソーンとの比較を示します。\n- -\nベリンジャーやイエリッチがこちらのリストに登場しないことからも理論と実態の乖離を窺えるかと思います。 そこも含めて打者へのフィードバックを適切に行わないと、ジャッジが低めの誤審をチャレンジしないとかアルトゥーベが高めの誤審をチャレンジしないとか、そんな状況になる可能性は十分にあります。\n","date":"2025-09-24T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_04/","title":"ストライクゾーン改定の影響を受ける打者"},{"content":"Baseball SavantのBat Trackingに追加されたIntercept Pointから打者のタイミング情報を推し量ってみます。 Intercept Pointはその名の通り、バットとボールの接点（もしくはそれに近い点）であり、基準をホームベースではなく打者に置いたものも取得できます。 打者のタイミングにおいては後者の方が適切ですので今回はこちらを使用します。\n周知の通り、打者はタイミングを投手方向にずらされる、いわゆる泳いだ打撃になるスイングでは「想定より投球が遅い」状態であることが多く、 タイミングを捕手方向にずらされる、いわゆる差し込まれた打撃になるスイングでは「想定より投球が速い」状態であることが多いです。\n投手視点で見ると、そのズレをどちらの方向にどの程度発生させるかが投球評価における構成要素の一つとなります。\nトラッキングデータの対象範囲の拡大が進む現代において、投手の多角的な出力情報はStuff+をはじめとするピッチモデリング指標のような文字通りの予測的指標 （xFIPやSIERAは予測的性能は高いが統計学的に純粋な予測モデルとは言い難い）を生み出しました。 打者側の反応が多角的に見えるBat Trackingは「空振り」や「ファウル」といった結果の構成要素の分解にも役立ちます。\n投球はまず打者のスイングの有無で分岐します。それにより、見逃し時により多くストライクを獲得し、スイング時にどれだけ得点価値の低いイベントを誘発させられるかかという評価軸に分解できます。 そしてスイング時の評価にBat Trackingは活用できます。\nスイング時の投球評価を変化量の想定とのズレを主としたxz平面とタイミングの想定とのズレを主としたy軸に分解します。 今回はそのy軸のズレの話です。\n多数の要因によってy軸のズレは発生しますが必ず考慮しなければならないのが投球コース及びそれに対応するx軸でのIntercept Pointです。 また絶対値を使うとJ.ターナーは常に泳いだ打撃、ゴールドシュミットは常に差し込まれた打撃と評価してしまうので各打者内で標準化します。\nということでIntercept Point(x)を固定効果として設定し、GAMでIntercept Point(y)の予測をします。 その予測値との差分をTiming Deviationとして評価します。\n以下にTiming Deviationの分布、空振り率、得点価値との関係を示します。\n-\n納得感はありつつも興味深いのは打者は得点価値（多くは打球価値から生み出される）が最大化されるタイミングではなく空振り率が最小化されるタイミングでスイングをしているという点です。 感覚的ではあるでしょうが、打者はコンタクトを優先的に考え、チャンスがあれば普段より前方の、Bat Speedが最大化しAttack Angleが最適化されるタイミングで捉えるといった感じでしょうか。 また、選球を正しく行うためにはいわゆるチェックポイントを打者側に近づけた方が良いわけで、打球価値が最大化されるタイミングより程度はあれど差し込まれるタイミングの方が合理的でしょう。\nこれらの点を踏まえると、投手視点ではただタイミングを打者の基準から外すだけではなく、少し泳ぎ気味のタイミングにあるスイートスポットを避ける投球がより必要になるかと思われます。 この観点では半速球と呼ばれるような主要FastballとBreakingやOffspeedの架け橋となる球種は危険なようにも思えますが、それらの球種はチェックポイントまでに打者が球種を誤認しやすいわけで、 すると今回取り上げなかったxz平面でのズレにつながる話かなとも思います。実際に主要な球種がFFとCHの最強投手スクーバルはxz平面よりy軸のズレが傑出していますし、主要な球種にFCがある最強投手 クロシェはy軸よりxz平面でのズレが傑出しています。\nまだまだラフの段階ではありますが、例えば先ほどの図にBat Trackingの他の要素や球種やピッチカウントといった無視のできない条件も加味していけば、さらに精度高く野球を理解できるかなと思います。\n","date":"2025-09-23T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_05/","title":"Bat Trackingから打者のタイミングを推し量る"},{"content":"2025年のYearly Savant UpdateではBat Trackingがさらにその対象範囲を広げました。 打者のスイング情報がより増えたということは投球の分析が深まるということですので、新たに追加された変数を利用して投球の分析を行います。\n投球はまず打者のスイングの有無で分岐します。今回はそのスイング有に対する分析を行います。\nスイング時の投球の基本的な目標は打者が標準とする打点（Intercept Point）とバットの芯からズレることです。 そのズレをxz平面とy軸に分解します。xz平面はSavantだと選手トップページのMovementのやつです。\n-\nこの図、人気ですけど見ての通り現実の野球とは違う「平面」であることは忘れたくないですよね\n投球のDeceptionを指標化する 以前の記事で紹介したこの指標を使います。\ny軸はいわゆる「奥行き」で、緩急、タイミングが関わってくる視点です。\nこちらはIntercept Point(x)を固定効果として設定し、GAMでIntercept Point(y)の予測、その予測値との差分をTiming Deviationとして指標化します。\n-\nスクーバルを可視化するとこんな感じになります。 FFはより速く、CHはより遅く打者が感じています。\nxz平面のズレとy軸のズレの関係性を示した図が以下になります。\n-\nxz平面のズレはy軸にも表れますし、y軸のズレはxz平面にも表れますのである程度の正の相関がある図になっています。\nスクーバルはxz平面ではなくy軸のズレを主として失点を抑止していることが分かります。またセールのような投球フォームから軌道まで特殊な投手は打者が普段とは全く違ったスイング軌道で対応しようとしていることも示唆されています。\nもっと精査し、得点価値とも結びつけられると、さらに高精度に野球を記述できる観点かと思います。\n","date":"2025-09-06T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_06/","title":"Bat Trackingから投球を分析する"},{"content":"Pull Air%が流行語となりバットトラッキングの普及でIntercept Pointに焦点を当てた分析も増えてきました。\n単純化される前に少し釘を刺しておきますがIntercept Pointの変化とwOBAの変化には関連性はありません（r = 0.046）。\nIntercept Pointが後ろになろうがBat Speedを上げられるかの方が圧倒的に重要です（r = 0.252）。\nIntercept PointとBat SpeedとxwOBAの変化の関連性を示したものを置いておきます。\n","date":"2025-09-01T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_07/","title":"Intercept Point × Bat Speed × xwOBA"},{"content":"野球データにおける典型的な選択バイアスを一つ紹介します。\n上記の図は打球速度、打球角度から期待される飛距離からの乖離をホームラン打球と非ホームラン打球で比較したものです。\n例えば平均的なボールの特性について調査する際に、ホームラン打球に絞って調査すると、その時点でボールの個体値は飛びやすいものに偏るでしょう。\nこのような選択バイアスは野球分析において無数に存在しますので、それを無意識化でも留意できる程度のセンスは常に持っていたいと日々思っています。\n","date":"2025-09-01T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_08/","title":"ホームラン打球の分析と選択バイアス"},{"content":" スイングの多様性と打球価値について 上記の記事で投球に合わせたスイングをすることは打球価値という視点で見るとマイナスに働きやすい可能性を取り上げました。\nただ野球は非打球イベントもあるのが面白いところです。\n打球価値は一貫したBat Pathの方が、空振り率は多様なBat Pathの方が優れています。\n当てるだけならスイング軌道をその投球に合わせることが有効に働くが、価値の高い打球を生み出すにはスイング軌道が乱されない方が総合的には有利に働く。それっぽい結果ではあるでしょう。\nこのような全体傾向を把握したのちにそこから展開して細部を掘っていきたいですね。例えば空振りはカウントによってその価値が変わりますので、カウントによるBat Pathの多様性の差が大きい打者を調べてみるのも面白そうです。\n","date":"2025-08-24T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_09/","title":"投球に合わせたスイングをすることのジレンマ"},{"content":"打者のDHペナルティは有名ですが、投手はDHに影響を受けているのでしょうか？\n投手は基本的に強打者に対してその出力を上げています。 例えば2025年に対面したStuff+の最高値はジャッジでした。\nジャッジという打者情報が投手の警戒度を上げるようにDHというポジションは投手の警戒度を上げるでしょうか。\nこちらは固定効果としてDHか否か、ランダム効果としてそのシーズンの打者を設定したLMMの結果です。\nサンプルサイズの暴力によりDHというポジションが球速を0.01mph程度は上昇させることが示唆されています。 交絡因子となっている可能性もある打順等の効果についても調べてみたいですね。\nちなみに速球に限定したらその効果が顕著になります。 とは言ってもトリビア程度ですが。\n","date":"2025-08-10T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_10/","title":"指名打者というポジションを投手は意識するか"},{"content":"\n犠牲フライ局面におけるフライ率です。 この局面においてフライの価値は平常時より高くなりますので打者はフライを普段より狙い、投手は普段より抑制する意思が働きます。\n結果としては打球イベントにおけるフライ割合は下がっており、投手の戦略の効果も示唆されます。また非打球イベントも含めるとフライ割合は上がるように、打者はこの局面において三振を回避する戦略が投手のそれに勝っていることも示唆されます。\n深掘りも手軽にできそうなテーマではありそうなので犠牲フライ局面に限らず投手と打者の攻防を数字から覗いてみたいものです。\n","date":"2025-08-04T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_11/","title":"犠牲フライ局面でのフライ割合"},{"content":"Arm Angleは投球コースの分布や変化の分布においてかなり重要な要素です。 今回はそれのトリビア程度のテーマを。\nこのGIFはArm Angleごとの各投手の速球の平均球速からの乖離を集計したものです（利き手やピッチカウントは補正済み）。 正直分かりにくいですが、球速が最大化するのは通常より腕が加速したときということなのか所謂引っかけた際に最大化していそうです。\nそして投げおろし型は低めにサイド寄りは対角という傾向はあるかなと思います。\n大きな効果はないかもしれませんが、投球コースの分布や変化の分布も含めArm Angleの適正化は育成面において重要な要素ですので共通する理論を把握していたいものです。\n","date":"2025-08-03T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_12/","title":"投手の力むポイント"},{"content":"特に結論は出ていませんがTrajekt Arcのような球質再現マシンはプロ野球を大きく変えるのでしょうか。\n球質再現マシンに効果があるならば打者は投手に対して以前より“慣れ”た状態で対戦しているはずです。 そして慣れには限界効用の逓減もあると考えられます。\n1巡目と2巡目、3巡目のwOBA差\n2021年以降に変化が観測できれば面白いですが、正直言い切れるレベルの効果を抽出するのは難しいです。 事前に何巡目相当の球数を体験して打席にいっているのかは分かりませんし、慣れによる効果を測るために制御するべき要素が多すぎます。\n先発投手も慣れに対抗する術を磨いていますのでそれらの考慮もしなければならないでしょう。面白いテーマだとは思いますので時間が取れたときに考えてみたいと思います。\n","date":"2025-07-30T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_13/","title":"高性能打撃マシンの効果について"},{"content":"はじめに ホームランダービーの季節が近づくとダービーの悪影響を憂うファンが散見され、気が向いたセイバリストがそれを検証した記事を出すというのは最早お決まりの流れとなっています。\nとは言え、近年は先行研究を引用して「ダービーは後半戦の成績に影響しないよ」だけで終わっている節があると個人的に感じていますし、日本語での分析はnamikiさんのものしか認知していませんので、貴重な日本人セイバーメトリクス好きとして再検証していきます。\nMLBは2015年シーズンからStatcastシステムを全面導入し、打球速度や Sprint Speed といった選手の能力に迫ることのできる指標やプレーの細部をより深く説明できる情報を入手できる環境が整いました。\nそしてタイムリーなことに、MLBのホームランダービーのレギュレーションがアウト制から時間制になったのも2015年です。\nアウト制の頃のホームランダービーでも\u0026quot;ダービーは打撃に悪影響を及ぼす\u0026quot;といった言説は確認できますが、時間制になったことでその勢力に加勢した方々も少なくないでしょう。\n日本人的には、標高1600mで息を切らし、（休憩はありますが）5分間で68もの\u0026quot;ホームラン狙いの\u0026quot;スイングをした、2021年大谷翔平が後半戦に打撃成績を落としたことは記憶に新しい方も多いのではないでしょうか。\n前説が長くなりましたが、ダービーが時間制になり、Statcastデータも入手できる2015年以降に絞ってホームランダービーの影響について調べてみたいと思います。\nダービー出場者は後半戦に成績を落としているか はじめに、ダービー出場者が後半戦に成績を落としているかという基本的な前提を検証していきます。\n念のため、下記に2015年以降のダービー出場者の一覧を記載します。\n参考程度に前半戦のHR%とwRC+も（HR%の平均は約3%）\n前後半の成績比較 まずは単純に、前後半の成績をダービーに出場していなかった選手と比較してみます。（打席数がある程度揃うようにサンプリングしています）\n色付きは統計的有意性あり（有意水準 0.05）\nダービー出場者の後半戦の成績下降が確認できます。 ただ有意な差が確認できたのはHR%とそれに付随する長打率、wRC+ の成績下降です。ダービー出場者は後半戦に打球部分の打撃成績が低下していることが確認できます。\n対して、ダービー非出場者は後半戦の成績低下は確認できません。 むしろ、HR%の上昇傾向が確認できます。\nダービーの時期が毎年7月中旬であることを記憶している方は、7月下旬から8月といった気温の高い（空気密度の小さい）時期が含まれる後半に打撃成績が落ちるといった現象は観測されないと察していたでしょう。\nでは打球部分で成績を落としていたダービー出場者は具体的にどのような打球プロファイルの変化があったのでしょうか。\n色付きは統計的有意性あり（有意水準 0.05）\n有意な差が確認できるのはHR/FBとPull%（引っ張り率）、基本的な打球分類に変化はありませんがフライ打球がスタンドインする確率が2%ほど下がることにより、HR%が減少しています。\n引っ張り打球が増加する傾向がありますが、この傾向に負の側面を感じるか、その逆を感じるかは意外と分かれる気はします。少なくともセイバーメトリクスに興味のある最近のMLBファンなら正の側面を感じるでしょう。\n対して、ダービー非出場者はもちろん、夏場が多く含まれる後半戦にHR/FBが下降するといった傾向は確認できませんでした。\n大きな差ではありませんが**FB%（フライ率）**が増加し、結果的にHR%も増加する傾向にあるようです。基本的にFBは打者の\u0026quot;勝ち\u0026quot;であり、打席を積み重ねていき\u0026quot;慣れ\u0026quot;てくる後半戦にそのような傾向が観察できることに意外性はありません。（対戦投手に対する慣れが蓄積されやすいNPBではもう少し強く傾向が出ているかもしれません）\nと、ここまでダービー出場者と非出場者の前後半の成績を簡単に比較してきました。\n実際のところ、ダービー出場者は後半戦に成績を落としています。 ただ、この結果をもってして『ホームランダービー』の悪影響として結論付けるのは早計でしょう。\n成績が似ている選手との比較 では、肝にいきましょう。\nどのような検証でも必要になるのが、条件を揃えるということです。\n例えばテレビ視聴率からその番組の人気度を測りたいのなら、時間帯や曜日、裏番組などを揃えないと不公平ということは最低限の情報リテラシーのある方なら理解しているはずです。\nということで、ホームランダービーの影響を測りたい今回はどうでしょうか。\n知りたいのはダービー非出場の成績ではありません。ダービー出場者がダービーに出場していなかった仮想世界です（もしくはその逆も）。\nもちろんそんな世界は用意できないので、ダービーに出場していた\u0026quot;かも\u0026quot;しれない、ダービー出場者と前半戦の成績が似ているダービー非出場者を抽出します。\n方法としては代表的なものでもいくつかありますが、今回は結果的に一番類似度が高く抽出できた、ユークリッド距離を使います。\n抽出した類似選手216人の前半戦成績を以下に示します。\nではこのダービー出場者に似ているダービー非出場者は後半戦に成績を落としているのでしょうか。\n色付きは統計的有意性あり（有意水準 0.05）\nダービー出場者と同じくHR%、長打率、wRC+で有意な差が確認できました。\nエンタメ性重視で選手の健康など考えず、打撃フォームにも悪影響が出るはずのホームランダービーを欠場しても成績が下降してしまっています。\nでは、打球部分も見てみましょう。\n色付きは統計的有意性あり（有意水準 0.05）\nここが、今回注目するポイントです。\nダービー出場者と同じようにHR/FBが下降していますが、Pull%の増加は観察できません。\nホームランダービーはスローボールをどれだけスタンドインさせるかを競う、言わば、人外でない限りどれだけ引っ張りフライを打てるかの競技ですから、その影響と考えやすい結果ではあります。\nではダービー出場者と非出場者の前後半の成績変化の違いに統計的有意性はあるでしょうか？\n色付きは統計的有意性あり（有意水準 0.05）\n察していたとは思いますが、Pull%にのみ、有意な差が確認できます。 少なくともPull%の変化はダービー出場者とそれに類似度の高いダービー非出場者との間で有意に差がありそうです。\nちなみに、箱ひげ図でPull%の変化を比較したものが以下になります。\n赤がダービー出場者\nPull%の変化の集団間の差異が、偶然では説明しづらいという状態が視覚的にイメージできるかなと思います。\n打球の変化の影響を考える ここまでは FanGraphs、BIS 提供の整えられたデータを使って分析してきました。ここからは Statcast データを用いてPull%、そして水平打球角度の変化についてもう少し考えてみます。\nPull%の推移比較 まずはPull%の推移を比較してみます。\n赤がダービー出場者\nダービー非出場者の安定感に対して、ダービー出場者は後半戦の前半にPull%が増加しています。ダービーの影響と考えやすい結果ではあります。\nただ、前半戦の前半も視界に入れると、また別の交絡因子の存在の可能性も否定できないかと思います。もちろん、もっと期間を分割することは可能ですが、それは信頼性の低下とセットではありますので、一旦次に行きます。\n10分類における変化 ダービー出場者が後半戦に引っ張りが増えることは確認できました。\nでは、引っ張りと言ってもどのような引っ張りが増えたのでしょうか？\nMLBで近年注目度が高まり、上昇傾向にある引っ張りフライが代表的ですが、ゴロやフライといった打球分類の中でも水平角度によってその打球価値には差が生まれます。\nPU（ポップフライ）以外のGB（ゴロ）、LD（ライナー）、FB（フライ）を水平角度でも分割し、打球価値の違いを見ておきましょう。\nPull Cent Oppo PU .018 FB .870 .313 .237 LD .739 .592 .621 GB .209 .277 .370 wOBA by Batted Ball Type（2021 - 2024 MLB） Data: Baseball Savant\n特にFBでの打球価値の差が顕著になっているのが確認できます。一口にPull%が増加したと言っても、FBのPull%が増加したのか、GBのそれかでは野球的にプラスにもマイナスにもなるということが伝わったかと思います。\nでは、この10分類の前後半の割合変化を見てみましょう。\nダービー出場者は特にPull GB%が増加していることが分かります、とするのは微妙でしょう。そもそもの発生確率の高いPull GBは後半戦に1.05倍になっていますが、Pull FBも1.08倍になっています。\n野球的な価値に落とし込んでも、Pull GBが1.2%増加することによる損失は、Pull FBが0.6%増加することによる利益を相殺できないのは先に示した表で十分に分かるかと思います。\n対してPull%の増加傾向が確認できなかったダービー非出場者は価値の高いPull FBが減少し、価値の低いPull GBが増加しています。\n本当に『ホームランダービー』に\u0026quot;悪\u0026quot;影響はあるのでしょうか？\n少なくとも打球分類的な視点では軽微とはいえ、むしろ好影響の可能性すら示唆されています。\n水平角度が及ぼす打球価値の変化 では、「ホームランダービーが後半戦の水平角度に影響を及ぼす」という前提で、「ダービー出場者がダービーに出場していなかった」仮想世界と**「ダービー非出場者がダービーに出場していた」仮想世界**を作ってみましょう。\n以下、今回の手法です。思ったより長い文章になったのでしんどくなったら結果まで飛ばしてください。\nまず、ダービーに出場していなかった（していた）場合の後半戦の期待水平打球角度を各打球ごとに算出します。\nダービー出場者は非出場者と比べて水平打球角度が後半戦に平均して1度ほど下がります（基本的に水平打球角度は流し方向がプラスとして運用される）。\nこの平均値を利用しても良いんですが、局所的に水平打球角度が変化している場合にも対処するため、水平打球角度の各パーセンタイル区間の変化を適用します。\n具体的にはダービー出場者、非出場者でそれぞれ水平打球角度のパーセンタイル値を取得し、各パーセンタイル区間で前後半の水平打球角度の変化を集計します。それをダービー出場者の後半戦にはダービー非出場者の変化傾向を、ダービー非出場者の後半にはダービー出場者の変化傾向を取り入れます。\nそして xwOBAcon を利用します。\n一般的に xwOBAcon と聞くと、Baseball Savant が公開している、打球速度と垂直打球角度の2つを説明変数とした k-NN（k近傍法）から期待される wOBAcon（にゴロや弱い打球においては GAM で Sprint Speed を考慮したもの）を思い浮かべるかと思います。\nここでは、打球速度と垂直打球角度に加えて、水平打球角度も変数に加えた 3VxwOBAcon を使います。\nそして、後半戦の各打球の水平打球角度について、実際の水平打球角度とは別に先ほど述べたダービーに出場していなかった（していた）場合の期待水平打球角度も使います。\nそうして求めた Adjusted（Adj.）3VxwOBAcon と実際の 3VxwOBAcon を比較し、ダービー出場によって変化する水平角度による打球価値への影響を測ります。\nAdjusted（Adj.）3VxwOBAcon と 3VxwOBAcon を比較したものが以下です。\n1st Half 3VxwOBAcon 2nd Half 3VxwOBAcon 2nd Half Adj. 3VxwOBAcon Derby .433 .414 .412 Non-Derby .418 .403 .405 ホークアイデータ（2021 - 2024）のみで学習 Data: Baseball Savant\nダービー出場者の後半戦の 3VxwOBAcon が .414に対して、ダービーに出場していなかった場合に期待される 3VxwOBAcon は .412です。\nダービー非出場者がダービーに出場していた場合の 3VxwOBAcon も実際の .403に対して .405となっています。\n平均して1度程度の水平角度の変化はほとんど打球価値に影響を及ぼさないことが分かります。\nむしろ、先に述べた通り、水平角度が下がることは良い影響を及ぼす可能性の方が高いでしょう。\n打球速度の変化 ちなみに、ここまで触れてこなかった打球速度の変化ですが、こちらも後半戦に統計的に有意に下がるものの、高類似度のダービー非出場者も同じように下がっています。\nAdj. EVの前後半の変化の比較\nもちろん数多の先行研究でも触れられていることではありますが、やはり随所に平均への回帰を感じることのできる結果になっています。\nホームランダービーに出場する選手は基本的に前半戦にホームランを多く打った選手であり、その\u0026quot;結果\u0026quot;には後半戦にも不変の能力以外の誤差が含まれています。あえて大衆に伝わりやすい表現を使うと、この場合の誤差は上振れ方向の誤差である可能性が高いです。その不安定な誤差により平均への回帰が起こります。\nこれはホームランダービーだけに限らず、\u0026ldquo;上振れた\u0026quot;選手が選ばれやすい WBC 等の影響を考察する際にも忘れてはいけない視点です。\nまとめ まだまだ調べ足りないですが、納期（ホームランダービー：日本時間 7/15 午前9時）も過ぎてしまったのでまとめます。\nダービー出場者は後半戦に成績を落とす ダービーに出場していたかもしれない高類似度選手より成績を落とすとは言えない ただ高類似度選手より引っ張り打球が増える傾向にある この引っ張り打球の増加は打球の価値、被打球の価値に有意に悪影響を及ぼしていない 今回ホームランダービーの分析をするにあたり、改めて先行研究をザッと見返しましたが、引っ張り打球の増加について述べてある文献が少なかった（個別事例はいくつか紹介されていた程度）ので、note にまとめてみました。\nホームランダービーに限らず、ある出来事がもたらす影響、その影響の損益について分析する際にヒントとなる視点がこの note に隠れていることを願って、筆を置くことにします。\nおまけ 先ほど深堀りしなかったPull%の期間推移ですが、期間を8分割するとこうなります。\n赤がダービー出場者\nこの推移を見ると、「ホームランダービーがきっかけになって引っ張りが増える」というよりは、**「引っ張りの上昇傾向がある選手ほどダービーに出場する」だったり、「ダービー出場を意識し始めてからPull％が上昇する」**といった、直接的ではないダービーの影響の可能性もあるのではないかと思えてきます。\n先行研究の多いテーマではありますが、まだまだ調べる余地は残っているかもしれません。\nまたダービーだけに限りませんが、引っ張りが増えることの影響もまだまだ深堀りできるはずです。\n予定としてはこの note で引っ張りが増えるリターンの大きい打者や逆にリスクの大きい打者の特徴まで調べる気でいました。はい。\nまたそれは次に気が向いたときにしますが~~（そんな分かりやすい傾向はなさそうでした）~~、ここまで読んでくださった、僕と同じAspiring Saberistにも期待しておきます（ ﾟ∀ﾟ ）\n先行研究 ホームランダービー参加者は後半戦に調子を崩すのか。 - Namiki Home Run Derby or Crystal Ball? - Jade Abrica Post-Home Run Derby Slumps and All-Fields Hitters - Ryan P. Morrison Does the Home Run Derby Affect Player Performance? - Dylan Drummey Home Run Derby Curse: Fact or Fiction? - Marcus Jaiclin, Joseph McCollum The Home Run Derby and Second Half Production: A Meta-Analysis of All Players from 1985 to 2013 - Chjwill Is there a Home Run Derby Curse? - Daniel E. O’Leary Can the Home Run Derby help swings? - Devan Fink We Were Wrong About the Home Run Derby Curse - Saul Forman \u0026lsquo;Home Run Derby curse\u0026rsquo;: Urban legend, or cause for concern for MLB\u0026rsquo;s heavy-hitters? - Liam Bradford Home Run Derby Participation in Major League Baseball Players: Is There Associated Injury Risk and Impact on Second-Half Performance? - Steven DeFroda, Steven Staffa, Tim Keeley, Peter Kriz Hierarchical Bayesian Modeling of Hitting Performance in Baseball - Shane T. Jensen, Blake McShane, Abraham J. Wyner The Home Run Derby Curse - J.P. Breen ","date":"2025-07-15T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/analysis/homerun-derby/","title":"ホームランダービーに悪影響はあるか"},{"content":"有名な周回効果について、脇道にそれた話題を。\n周回効果に慣れが関わることはまず間違いないですが、その現象が存在するということが実際には打席によって離散しているとは考えづらいでしょう。\n上図は同打席内において当該球種が2球投げられた際のRun Valueの変化です。\nこれを見るとBreaking系の球種の方が打者は慣れによる恩恵を受けやすく、Fastball系、Offspeed系は比較して慣れによる恩恵を受けにくい球種となっています。 大きい変化ほど意外性という面で投手有意に働いている感覚はあります。意外性は見方を変えると慣れによるリスクの高さでもありますので経験則的には腑に落ちる結果となっています。 見事なくらいKCとCU、STとSLの数値が近く面白い結果だなと思いますが、同じFastball系でもFFとSIの差が大きい部分について深堀してみたいとも思いました。\n","date":"2025-06-07T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_14/","title":"打者が慣れやすい球種"},{"content":"フライボール革命という言葉が普及するにつれそれに対するいろいろな持論が展開されていますが、多くあるものとしてパワーのない打者に焦点を当てたものがあります。\nでは前提として打球速度の重要性が打球角度によって変わる様を確認しておきましょう。\nwOBAを目的変数、打球角度を制御変数として打球速度の係数を算出したものです。\n周知の通り、ゴロやポップフライは打球速度にほぼ影響を受けません。 打球角度28°前後のフライ打球は打球速度の影響を濃く受けます。\nこの打球角度による打球速度の重要性という視点がフライボール革命の核です。\nこの大前提を理解、把握した上でSweet Spot内かつ打球速度に影響を受けづらい打球角度17°前後を目指す鍛錬は合理性はあるように感じますが、 打球速度が重要となる打球角度も隣接している以上、打球速度を向上させられればその許容範囲が広がるということですので打球速度革命から簡単には逃れるべきではないと考えています。\nちなみに同じ打球速度でもその分布が上図に沿うような分布の方が打球価値としては正しくなります。\n自身の打球速度の出力分布を重ねた例がこちらです。 Y.ディアスよりギャロの方が打球価値としては正しい分布をしています。 ただ、上記の分布にはバット軌道は密接に関わりますし、それは非打球にも影響を及ぼすので一概には言えないという難しさを秘めています。 各選手の才能を見抜き適切なバット軌道を作っていく作業が必要にはなってくるでしょうが、バット軌道の変更は可逆性は低いものと認識していますので育成初期段階でその才能を見極める必要があるということを考えるとまだまだ安定度の高い打者育成は難しいのかなとも思います。\nフライボール革命は変なボールを使うなどしない限り、野球にとって普遍的な理論を見つめなおした革命ですので自分には当てはまらないと理解を放棄する野球選手はいてほしくないなと考えてもいます。\n","date":"2025-06-01T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_15/","title":"打球角度によって変わる打球速度の重要度"},{"content":"基本的に打球の飛距離は打球速度と垂直打球角度によって決まりますが、打球には重量の他にも抗力や揚力が作用しますのでそれらに影響を与える回転数や回転軸も少し影響します。\n上記は水平角度と打球速度と垂直打球角度から期待される飛距離からの追加距離の関係です。\n基本的に打者は軽い引っ張りの時に飛距離が最大化されます。 打球というのは左右非対称なバット軌道から生み出されますので綺麗なセンター返しより少し引っ張り気味の方が回転軸が打球方向に対して素直になり適した揚力が働くものと思われます。\n","date":"2025-05-30T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_16/","title":"打球の伸びと水平角度"},{"content":" 投球のDeceptionを指標化する 上記の記事で紹介した打者の予測投球コースからのズレを可視化してみます。\n少し表記ミスはあります\n実際のバットの通過点は取得できませんが、Bat Pathからでもこのように野球が記述できるのがセイバーメトリクスの楽しいポイントの一つです。\n","date":"2025-05-27T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_17/","title":"Bat Trackingから打者のズレを可視化する"},{"content":"-投球のDeceptionを指標化する\nDeception Scoreのリーグ平均値を球種、プラトーン別にまとめます。\nBreaking系の球種や速球でもシンカーは「右vs右」や「左vs左」といった同手に対して強く、スプリットやチェンジアップといったOffspeed系の球種はプラトーンによる有利不利が確認できません。\nこのような傾向に自身の積み重ねた知識理解から違和感を覚えないか、といったレビューは常にしたいですし、今回で言うとカッターのプラトーン格差の無さの中身や速球と遅球でズレる価値の違いなど、違和感を覚えた箇所への修正的アプローチも積み重ねたいと思います。\n","date":"2025-05-25T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_18/","title":"球種、プラトーン別のDeception"},{"content":"試合を見ても、各々イメージしていただいても簡単に分かることではありますが、打者は投球コースによってスイングの形状を変えます。\nこの現象自体に革新さはありませんが、トラッキングデータの進化により各スイングの形状を測定できるようになった現代ではその現象を革新的に利用できます。\n打者が投球コースに合わせたスイングをするということは、スイングの形状から打者が予測した投球コースを推定できるということです。\n配球戦略という文脈でも投球の質という文脈でも打者の予測からのズレは言わば目標値のような使われ方はされつつも、空振りや打球イベントといった結果からしか語られないジレンマのようなものもありました。\nバットトラッキングはそのジレンマの解消に一歩近づく可能性を秘めています。\n打者ごとに標準化したBat Pathを投球コースで可視化したものが以下になります。\n綺麗に高めほどフラットに外角ほどフラットになっていることが分かります。 このアプローチに潜むバイアスに対処し、予測投球コースの推定の精度を高められれば特に投手の評価について新たな深みを与えられると思います。\n","date":"2025-05-24T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_20/","title":"Bat Pathと投球コース"},{"content":"-Bat Pathと投球コース\n上記の記事のBat Pathから推定した打者の予測投球コースと実際の投球コースのズレを投手指標化してみました。\n単回帰×2による予測投球コースからの乖離\n打者のズレを指標化してるものですのでもちろん空振りとの相関はある程度確認できます。 そして意外と空振りと独立して語られる打球速度の抑制力ですが、理論的にはバットの芯から外すという共通目的からその程度の差によって生まれる二者ですので空振り率に及ぶほどの相関も見せています。\n次は一貫性と予測性です。 年度間での比較ができるサイズは揃っていないので2024年のデータを投手ごとに分割しそれらの一貫性と予測性を調べました。\n一貫性はこの手の指標ではかなり強いと言えるでしょう。 一貫性がないと次に進めませんので少なくとも打者の予測からズレる力のある程度の一貫性を確認できたのは良かったです。\n予測性もxwOBAconをこの程度予測できるのは強いですがまだ野球の摂理に抗えるほどではないかと思います。\n多変量GAMによる予測投球コースからの乖離\n","date":"2025-05-24T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_19/","title":"投球のDeceptionを指標化する"},{"content":"高めと低め、内角と外角に対してスイングの形状は変わりますし、変えることは理論的には正しいです。 では実際にBat Pathの標準偏差とxwOBAconには関係性があるのでしょうか。\n結果としてスイングに多様性がない打者ほどxwOBAconは高くなっています。 少なくともMLBという階層においては全ての投球への順応性より自身が対応できるコースへの確実性が打球価値へは好影響を及ぼす可能性がありそうです。\nPath SDの中央値付近に高xwOBAcon帯がある可能性も考えましたが、実際は線形に近い分布をしており、打球のみに絞って考えるとほとんどの打者は必要以上に順応性を求めていると言えるでしょう。 図にある名前を見ればわかるようにあくまでも打球のみに絞って考えるとですが。\n","date":"2025-05-22T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_21/","title":"スイングの多様性と打球価値について"},{"content":"\n上記はBat Path上位40％と下位40％のグループの2023年と2024年の各指標の相関です。\nK%やBB%は特に有意差は観測できませんが、一般的に高価値でありながらその中では不安定なSweet Spot%とそれを内包するxwOBAconの安定度に差が見られます。 縦振りの流行には垂直打球角度の重要性の再確認も背景にあり、垂直方向における打球の操作性を求めたスタイルとしての地位はとりあえずは揺るがなそうです。\n","date":"2025-05-20T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_22/","title":"縦振り vs 横振り"},{"content":"不器用な打者と器用な打者の対比において恐らくその芸術性から芯で捉えることの重要性を説く方を見かけます。 一概に言えないというのが安牌な答えではありますが、たまに「芯で捉えた打球の方が伸びやすい」といった言説も見かけますのでそれについて調べます。\nこの図は真芯率と打球速度と打球角度から期待される飛距離との乖離の関係性を示した図です。\n特に面白い話はなく芯で捉えることの影響は無視できそうです。\n","date":"2025-05-19T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_23/","title":"芯で捉えた打球は伸びやすいか"},{"content":"Baseball Prospectus CSAA（ver.1）解説 捕手のフレーミング評価は野球分析の中では比較的単純で、期待されるストライク率（数）と比較して当該捕手がどの程度ストライクを増やしたかを算出するだけです。この大まかな枠組みはWOWYの時代から各投球座標にアクセスできる現代まで変わってはいませんし、これからも変わることはないでしょう。\n今回は、そのストライク獲得貢献の推定について、Baseball Prospectusの手法をなぞっていけば、少し野球に詳しくなれると思うのでやっていきます。\n貢献とは誤差 野球ファンの100%がご存じであるように、“理論上は”ストライク判定率は投球座標で決まります。公認野球規則にもそのような記述があるはずです。\nただ、“実際の”ストライク判定率は投球座標“だけ”で説明できないのも野球ファンの99%はご存じであると思います。\nその『誤差』が捕手のフレーミング貢献ですが、当然その誤差を生み出したのは捕手のみではありません。その誤差を各要素に適切に分配することが、捕手のフレーミング貢献の精度向上にも不可欠であることも理解いただけると思います。\n投球座標のみで説明できない誤差と一口に言っても、その誤差にもタイプがあります。ここでは大まかに2つに分けます。\n固定効果 例えばイニングの表裏。 ホームチームが守備をするイニングの表と攻撃をするイニングの裏ではストライク確率に“違い”が生じます。\nイメージとしては“違い”を明示したい要素です。野球的には他にはピッチカウント、打者や投手の利き手とかですかね。\n普通の線形回帰の説明変数が固定効果という認識でも大丈夫です。\nランダム（変量）効果 ここからが肝です。\n例えば球審。 MLBでは1シーズンで100人ほどの審判が球審を担当します。この球審というグループの中で各球審のストライク判定率には“ブレ”が生じています。\nイメージとしては個体差が存在している集団です。野球的には他には投手や打者といったところでしょう。\n普通の線形回帰の変数とは違い、それぞれを集団に属する（母集団の傾向から）ブレを持った個体として扱います。\nこのタイプ分けがサンプルサイズの異なる変数が互いに絡み合う野球において重要になってきます。\nランダム効果の特性とGLMMの役割 Baseball Prospectusは、誤差を各要素に分配するフェーズで一般化線形混合モデル（GLMM）を利用しています。GLMMではその名の通り、固定効果とランダム効果を組み合わせたモデルを構築できます。\n先ほども言ったとおり、野球分析でもよく見る普通の線形モデル（LM、GLM）では、各効果を独立した固定の効果として扱います。ただそれでは実務的な問題と理論的な問題が生じます。\n実務的な問題は、捕手100人、球審100人、投手800人、打者1000人をそれぞれ固定効果として扱うような激重モデルの運用は現実的に困難ということです。\n理論的な問題としては、固定効果として扱うと、言うなれば完璧な説明を遂行したがるので、それぞれの選手や審判で信頼性が異なるプロ野球において、過剰に責任を帰属してしまいます。簡単な例を挙げます。\n捕手A　5000球　平均 +1% のストライク確率誤差 捕手B　2500球　平均 +2% のストライク確率誤差 捕手C　1000球　平均 +5% のストライク確率誤差 この3選手のフレーミング貢献は本当に同じなのか？\n固定効果として扱うと上記の『結果』を全て捕手に“そのまま”帰属します。 ただ観測される誤差には「捕手に帰属すべきか分からない」誤差も含まれています。文字通りの運や、モデルの限界や、考慮していない他の要素などです。 そしてその誤差が占める割合は傾向として、サンプルサイズの小さい捕手ほど大きくなります。\nGLMMでは、ランダム効果として扱うと、それぞれの捕手を捕手という（正規分布を持った）グループの中の一つの個体として扱います。 これにより、サンプルサイズが小さかったり、一貫した誤差を生み出していないような個体に対して、その分布の傾向を取り入れる量を多くすることができます。いわゆる平均への回帰が、個体に合わせて合理的に働きます。\nそして、LMやGLMは多重共線性への対応が上手くないというのも聞いたことがある方は多いかと思います。\n現実的なプロ野球のデータ構造では、それぞれを独立した変数と仮定している固定効果のみを扱ったモデルでは、各効果の推定が不安定になります。\n大きな共線性があるのは、例えば投手×捕手でしょう。投手の効果を推定したい場合に観測されている誤差には捕手の効果が相当割合混ざります。この時、固定効果として扱うモデルでは、完璧な説明を遂行したいがために各効果の切り分けが困難になります。\nランダム効果として扱うと、各効果を母集団からのブレとして扱うので上記のような信頼性の低い誤差に対して、母集団の傾向を合理的に取り入れることができます。\nそして、投手より組む相手の範囲が広く、サンプルサイズも大きい、より信頼性の高い捕手の効果を投手の効果の推定に利用できる点も強みです。\nBaseball Prospectus CSAA 文章ばかりで飽きてきたと思うので、モデル例を見て実感を掴んでいただければと思います。\n2015年のBaseball Prospectusの記事やFanGraphsでBaseball ProspectusのCSAAについての記述がある記事を参考にします。\nまず用意するのは、ベースとなるストライク確率です。 記事によると、投球位置、カウント、球種、球場を効果として盛り込んだPitchInfo提供のものを利用しているので以下のようになるでしょう。\n1 2 3 4 5 # ベースとなるストライク確率を算出 cs_prob_model \u0026lt;- gam( cs ~ s(relative_x, relative_z) + count + pitch_category + home_team, family = binomial, data = pitch_data, na.action = na.exclude ) 投球座標を利用するストライク確率予測では、GAM（一般化加法モデル）のような交互作用や非線形性を捉えられるモデルが適しています。 実際のところは知りませんが、投球位置は相対的投球座標に、球種は合理性を失わない程度にカテゴリーとして分類しています。\nこの cs_prob と上記のモデルで考慮しなかったイニングの表裏を固定効果、投手、打者、審判、捕手、捕手と cs_prob の交互作用をランダム効果として、GLMMを構築します。\n1 2 3 4 5 6 7 8 9 # GLMMで最終的な予測 csaa_model \u0026lt;- glmmTMB( cs ~ cs_prob + inning_topbot + (1 | catcher_id) + (1 | catcher_id:cs_prob_bin) + (1 | pitcher_id) + (1 | batter_id) + (1 | umpire_id), family = binomial(link = \u0026#34;probit\u0026#34;), data = pitch_data, verbose = TRUE ) 基本的にフレーミングで差がつくのはShadow Zoneと呼ばれる際どい（ストライク確率が極端な値でない）領域です。 捕手と cs_prob の交互作用項はその領域でのフレーミングを重点的に抽出することが可能になります。\nまた、PitchInfoの提供データが使えない僕たちはGLMMに固定効果をてんこ盛りにして大丈夫ですし、むしろその方が理論としてはすっきりするのではないのでしょうか。投球座標からの誤差をGLMMで全て分配していく感じですね。\n1 2 3 4 5 6 7 8 csaa_model \u0026lt;- glmmTMB( cs ~ cs_prob + inning_topbot + count + pitch_category + home_team + (1 | catcher_id) + (1 | catcher_id:cs_prob_bin) + (1 | pitcher_id) + (1 | batter_id) + (1 | umpire_id), family = binomial(link = \u0026#34;probit\u0026#34;), data = pitch_data, verbose = TRUE ) と、ここまでBaseball ProspectusのCSAAを解説してきました。この後は、そのモデルが実際のところどう機能しているかを見てきたいと思います。\nモデルを採点する では、理論的な話はここら辺にして、実際に機能しているかを考えていきましょう。\n今回のCSAAで特徴的なのはランダム効果でしょうから、比較対象は固定効果のみのモデル α とします。モデル β がモデル α にランダム効果も追加したモデルですね。\nただランダム効果（各選手の効果）をモデルから直接取り出せるモデル β に対して、モデル α が提供するのはただの期待ストライク率です。なので、モデル α で推定される各選手の効果はその期待ストライク率からの差分ですね。\nまた後ほど触れますが、注意点として現在のBaseball ProspectusのCSAAは純粋なGLMMではないので、今回は僕が算出したものを使っています。\n評価観点 二つの重要な評価観点を中心に採点していこうと思います。\n評価観点は『記述性』と『一貫性』です。\n記述性は対象を説明できる度合です。 記述性の対象は、投球座標から期待されるストライク率からの差分を当該選手に帰属したものとします。失点率の記述性が高い防御率が、投手の正しい貢献指標ではないように、記述性は高ければ良いものではないです。\n一貫性はその指標自体の相関です。ここでは（モデルの性質上）年度間での相関です。一貫性は基本的には高ければ良いですが、今回のように測りたい貢献や能力がある場合、その記述性とのバランスも必要になります。 これは、年度間相関は高い球速という指標を投手の失点抑止力の貢献推定には使わないという具体例で理解いただけると思います。\nではモデルの差を見ていきましょう。\n捕手 まずは捕手のフレーミング貢献です。\n捕手 モデルα モデルβ 記述性 0.94 0.91 一貫性 0.56 0.61 一貫性（移籍前後） 0.53 0.51 一貫性（小サンプル） 0.46 0.49 1300機会数以上の捕手が対象（MLB 2015 - 2019）小サンプルは前年300機会数以上1300未満 ランダム効果を考慮しないモデル α の方が記述性は高く一貫性は低い、理論通りの傾向が確認できます。ただ固定効果のみのモデルでも十分に運用可能かなという所感ではあります。\n打者 では打者のボール獲得貢献です。 捕手は捕球の仕方という強力な因果があるものの、打者や投手はここら辺は議論の余地がありますね。\n構えや打力、打順、選球眼の審判からのイメージなど仮説はいくらでも降ってきます。\n打者 モデルα モデルβ 記述性 0.94 0.92 一貫性 0.51 0.55 一貫性（移籍前後） 0.51 0.55 一貫性（小サンプル） 0.29 0.36 500機会数以上の打者が対象（MLB 2015 - 2019）小サンプルは前年50機会数以上500未満 こちらもモデル β の記述性は低く、一貫性は高くなる傾向が確認できます。 ただ打者に関してもそこまでの差はないかなという所感です。 もちろん、固定効果のみのモデルなら平均への回帰はしときたいですけどね。\n投手 では投手のストライク獲得貢献です。\n投手 モデルα モデルβ 記述性 0.96 0.85 一貫性 0.50 0.54 一貫性（移籍前後） 0.47 0.52 一貫性（小サンプル） 0.40 0.44 500機会数以上の投手が対象（MLB 2015 - 2019）小サンプルは前年50機会数以上500未満 観測される誤差に捕手の効果が多く含まれる投手に関しては、打者よりも大きな記述性の落ち込みが確認できます。これは期待通りの傾向ですし、なんならもっと記述性が落ちても良いんじゃないかという感覚すらあります。 投手と捕手に被りが多いデータ構造から、どちらも同じように記述性が高いのはかなりの問題がありますので、投手に関しては絶対に（捕手を考慮しない）固定効果モデルでは評価したくないですね。\nそして一貫性についても理論通り、モデル β の方が向上しています。\n審判 審判 モデルα モデルβ 記述性 0.98 0.96 一貫性 0.63 0.66 一貫性（小サンプル） 0.25 0.34 1300機会数以上の審判が対象（MLB 2015 - 2019）小サンプルは前年300機会数以上1300未満 審判に関しても同様の傾向が確認できました。\n他のフレーミング指標 今回書く予定はなかったですが、せっかくなので他のフレーミング指標についてもざっと触れておきます。\nまずはFanGraphsで長くフレーミング指標を引っ張っているFRMという指標、いわゆるSteamerのフレーミング指標です。\nSteamerもBaseball Prospectusとかなり近い算出方法を用いており、ランダム効果を扱うGLMMです。ただし、大きな違いとして捕手のランダム効果をモデル内で推定せず、あくまでもGLMMから算出されたストライク期待値からのズレを捕手に帰属させています。もちろんこれは理論的には穴があり、その補正として最後に手動で平均への回帰を盛り込んでいます。\n次はSIS（BIS）、DRSと言った方が伝わりやすいでしょうか。Fielding Bibleのフレーミング指標です。\nFielding Bibleも目指しているところはBaseball Prospectusに近い部分はあります。誤差を各要素（捕手、打者、投手、審判）に分配するという思想ですね。ただその手法はなかなか原始的なものを採用しているようです。 イメージとしては、誤差を各要素に均等に分配するところからスタートして、そこから算出された各個体の効果を最低限考慮して、もう一度分配していくような感じです。また後付けでいろいろ投手×捕手の共線性に対処していたりしますが、詳細に書くとキリがないので気になる方は参考文献のリンクから読んでみてください。他のフレーミング指標に対して分散が極端に小さくなる要因が分かるかと思います。\n最後は、大人気データサイトBaseball Savantです。\nこちらはBaseball Prospectusとは対称的な、実にTangoらしい、ゾーン分割で必要最低限の補正をした簡素なものです。もちろんそれで十分な評価が行えるのが捕手のフレーミングではありますが、流石に近日アプデが入るようです。\nしかし、これまたTango節と言ったところで上記の混合モデル的アプローチとは似ても似つかない、1球単位での解釈性を追い求めたモデルと言えそうです。境界線からの距離や打者と投手の利き手により期待されるストライク確率との差分を全て捕手に帰属します。後付けの平均への回帰もやらないとのことです。フレーミングだからできる甘えという気がしなくもないですが、GLMMではできない条件付きの得意・不得意（とここでは言っておきます）の可視化に特化していると言えます。\nこれは打者視点だけど、こんな感じらしい高めのトップはやっぱり2017年MVPのあの人やねhttps://bsky.app/profile/tangotiger.com/post/3lnyatdpwqk2b\nBaseball Savantはセイバーメトリクス初心者の方も多く利用するサイトだと思いますので、ここまで読んでくださっている方に、この注意喚起が伝わればと思います。\nでは先ほどの評価観点で各サイトのフレーミング指標についても見ておきましょう。\nフレーミング指標 今回のやつ Baseball Prospectus FanGraphs Baseball Reference Baseball Savant 記述性 0.91 0.88 0.88 0.85 0.92 一貫性 0.61 0.63 0.62 0.56 0.47 一貫性（移籍前後） 0.51 0.51 0.52 0.50 0.45 一貫性（小サンプル） 0.49 0.46 0.44 0.28 0.49 1300機会数以上の捕手が対象（MLB 2015 - 2019） 小サンプルは前年300機会数以上1300未満\n理論通り、今回取り上げたBaseball Prospectusの旧フレーミング指標に近いものと現フレーミング指標、そしてFanGraphsのFRMはかなり似た傾向を示しています。Baseball Savant（アプデ前）に関しては記述性は高く一貫性は低いという納得感のある傾向ですが、Baseball Referenceに関しては記述性が低いのに一貫性も高くないという微妙な感じに。（まあ、一番独自性は強く数理モデルとも言いにくく、 rWARに採用されてもないので良いですがアプデの噂はないんでしょうかね）\nおわりに 今回はBaseball Prospectus、とりわけJonathan Judgeが手がける多くの指標の基礎となる、ランダム効果を扱う線形混合モデルについてまとめてみました。\nそこまで事前知識を持っていなかったけど、ここまで読み進めていただいた、優しい物好きな方々のほとんどは引っ掛かっている箇所があるかと思います。\nGLMMでは、ランダム効果として扱うと、それぞれの捕手を捕手という（正規分布を持った）グループの中の一つの個体として扱います。\nこれえぇの？って話ですよね\nLMMやGLMMでは基本的には（一応例外もあります）、各ランダム効果を正規分布と仮定します。\nこれけっこう怖いですよね。もしCSAAが xwOBAのような分布を持っていたら、上位層をかなり過小評価してしまう、なんてことにもなります。\nその怖さに立ち向かう理論の代表格はやはり、ベイズ推定でしょう。ベイズ推定は簡単に言うと各効果に事前に分布を明示し、それに従って分布的な推定をします。GLMMのような、正規分布を仮定し、各効果を点推定するモデルより（ちゃんと設計すれば）不確実性とともに実態を捉えられます。\nただベイズ的アプローチには毎日の更新が求められるデータサイトでは、実務的な障壁があります。 そこでCSAAでは、事前分布を明示せずとも、ベイズ推定のようにモデルとして分布を推定せずとも、ベイズ的な事後分布に近い、不確実性を含んだ分布を導き出すBayesian Baggingを取り入れています。\nBayesian Baggingを取り入れる過程の、実務的かつ理論的奮闘が気になる方は参考文献を覗いてみてください。\nやっていることはそこまで難しいことではなく、リサンプリングしてGLMMを複数回実行し、一律ではない観測データの揺らぎから、擬似的に事後分布を推定します。 例えば、 xwOBAのような右に裾が長い分布を正規分布と仮定すると、上位層が過剰に平均に回帰されます。Bayesian Baggingによって、その一貫した特徴を観測し、柔軟に実態に即した分布を判断するというイメージです。\n正直フレーミングに関してはここまで拘る必要性は薄いですが、この手法や目的を知っていることは、もっとベイズ味のあるBaseball Prospectusの指標を理解する上で少し役立つと思うので最後に紹介しておきました。\n参考文献 Moving Beyond WOWY: A Mixed Approach To Measuring Catcher Framingn - Baseball Prospectus Bayesian Bagging to Generate Uncertainty Intervals: A Catcher Framing Story - Baseball Prospectus Statcast: Update to Catcher Framing - Tangotiger Blog Catcher Framing, Slice and Dice - Tangotiger Blog FanGraphs Pitch Framing - FanGraphs Pitch Framing Park Factors - FanGraphs Who Is Responsible For A Called Strike? - Joe Rosales, Scott Spratt データソース MLB Baseball Savant FanGraphs Baseball Prospectus ","date":"2025-05-06T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/breakdown/csaa/","title":"CSAA: Baseball Prospectus"},{"content":"投手と打者の対戦が大きな要素を占める野球において、投手が打者に対してどの程度警戒しているかという視点をたまに見かけます。\nただ、それをBB％やZone%という結果から推定する方法は、その結果が生成されるまでのプロセス情報が入手できる今の時代では正直ワクワクしません。\nということで、Pitching+のようなピッチモデリング指標の算出過程を活用します。\n例えばハーパーはZone%や3-0率といった結果からお化けみたいな打撃成績を残していない近年も投手から恐れられている印象を抱きますが、少し視点を変えてみるということです。\n多くのピッチモデリング指標はその算出過程において、投球の特性からスイング率を予測する工程が存在します。この予測スイング率は打者の情報に影響されません。 つまり、打者にとってその予測スイング率との乖離がスイング積極性であり、投手にとってその乖離に対応した予測スイング率の投球をすることに合理性が生まれます。\nちょっとTangoの図っぽくしてみた\n上記の図は、x軸に予測スイング率、y軸にその予測からの乖離を示したものです。\n例で出したハーパーはZone%と同じように打者の情報を含まない予測スイング率は極端に低いです。しかし、その予測からの乖離もトップクラスに大きく、回帰直線を引くと異常値として目立つほどではないでしょう。 対してソトは予測からの乖離は負の方向に大きく、投手はある程度大胆なアプローチをする合理性が生まれますが実際には予測スイング率もかなり低くなっています。\n上記の図は打者の実際のスイング率と予測スイング率からの乖離の関係です。 もちろんこれらはかなり強く相関しますが、その回帰線からの逸脱具合から歪みのある打者の存在も確認できるかと思います。\nもちろんこのような思考にはピッチモデリング指標を利用しない方法もありますが、結果を補正して目的とした成分を抽出する手法よりその結果が出るまでのプロセス情報から目的とする成分を抽出する方が理論的には美しいと思います。 問題としてはブラックボックス化しやすいことによる万人への解釈性や再現性といったところかと思います。\n","date":"2025-04-08T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_24/","title":"予測スイング率との乖離から投球戦略を考える"},{"content":"同じ投手と何度も対戦することで打撃成績が向上する効果、周回効果について、慣れの側面から少し脇道に逸れたテーマです。\n同試合内で何度も対戦する投手はほぼ先発投手です。つまり打者は慣れにおいて先発投手にフォーカスを合わせます。\nという前提から、先発投手の次に対戦する投手にも先発投手の慣れは引き継がれている可能性があります。\nということで簡易的ですが調べてみました。\nまずは先発投手と二番手投手の利き手の相違で成績が変わるのかというテーマ。\n正直なところ、MLBのサンプルサイズに甘えてはいますが先発投手の慣れは中継ぎにも引き継がれていそうです。\n次は同じ利き手においても投球フォームの類似度で成績は変わるのかというテーマ。\nこちらもそれっぽい結果が出ています。同じ利き手より違う利き手、高類似度より低類似度の二番手投手の方が打者を抑えられています。\n今回のように、周回効果という定説の中にある要素を抽出して、その要素から展開できる他の仮説への適用は野球の探究の楽しい部分かなと思います。\n","date":"2025-04-03T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_25/","title":"打者の慣れはリリーフにも引き継がれるか"},{"content":"MLBにおいてストライクゾーンの形状は変化していることを明確に確認できます。\n2008年以降、MLB30球場にPITCHf/xが設置されMLBの審判評価は大きな変革期を迎えます。 その結果としてよりルールに沿ったストライクゾーンが整えられてきました。 イチロー松井が活躍していた時代に「MLBはアウトコースが広い」といった定説がありましたが、現在においては嘘と言えるでしょう。\n","date":"2025-01-21T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_26/","title":"ストライクゾーンの形状の変化"},{"content":"データの加工整理に潜む罠について、少し珍しい誤謬があったので自戒も込めて紹介します。\n-The Age of Volatility\nMLBにおける得点環境の変動について考察する上記の記事ですが、決定的なミスが存在します。\n文中では主論を導くためのデータとして、恐らくBaseball Savantから取得した「打球分類ごとの得点確率や発生イベント確率の推移」を使用しています。\nFB（上）、LD（下）について1B、2B、3Bの確率推移を調べています\nこの記事における主論は外野守備の向上が得点環境に無視できない影響を与えていることですので、グルーピング自体はミスではありません。 ただ、推移を見る以上、大前提としてそのグルーピングの定義が統一されていることが必要です。\n-\n上記の記事はそのグルーピングの変遷について疑義を投げかけています。\n三社のリーグ打球種類割合変遷\nこの記事にある上記画像のように、FangGraphs(BIS)とBaseball Reference、Baseball Savantでは打球分類に差異が生じます。 問題となるのはその変遷で、BISに対して他二社は2013年に突飛的な変化が観測できます。2013年にリーグ全体として急激なLD率の上昇が真の意味で存在したのでしょうか。\nもちろん、大きなルール変更等によってこのようなリーグ環境が突飛的に変化することはありますが（ピッチクロックに伴う規定によって盗塁企図や成功率の突飛的な変化が近年の代表例）、2013年にLDが増えるルール変更は起きていないはずです。 という前提と他社との比較衡量の結果、上記記事に賛同し、2013年にFBの一部がLDに分類される定義変更が起こっていると考えています（公式の見解がないのでこの温度感ですが）。\nこの定義変更を考慮せずにその分類内の指標の年度推移を利用すると今回のような誤謬が生じます。\n以前にはFBと分類されていたLDと比較すると価値の低い打球がLDに分類されることでLDの価値が突飛的に下がり、よりLDに近いFBがFBと分類されなくなりFBの価値も突飛的に下がります。\n今回の例ほど極端な問題は引き起こしませんが、NPBにおける投手の速球の平均球速推移は定期的に話題に上がります。ただその定義は年度を跨いで統一されていません。スピードガンからトラックマン、ホークアイといった測定機器の変遷はもちろん、スピードガンの中でも時期によってその調整が異なる場合がありますし、もしかしたら球種分類も速球と変化球の境目が年度によって変遷しているかもしれません\n","date":"2024-11-14T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_27/","title":"取り扱い注意なデータについて"},{"content":"今回取り上げるのはポストシーズンの野球の話です。\nポストシーズンや短期決戦において個人的に注目しているのが様々な野球ファンから語られる様々なポストシーズン論です。\nある野球ファンは「小技の重要性が上がる」とか、またある野球ファンは「投手の重要性が上がる」とか、あるセイバーオタクは「ポストシーズンは運」とか、多様な野球論を目にすることのできる楽しい時期でもあります。\nこれらの議論が成り立つのは、ポストシーズンとレギュラーシーズンに類似点だけでなく相違点も存在する（と認識されている）ためです。\n今回はその相違点のうち、BABIPについて紐解いていければと思います。\nレギュラーシーズンとポストシーズンの違い では簡単にレギュラーシーズンとポストシーズンの野球の違いをおさらいしておきます。\nホークアイデータを使う可能性を考えて対象年度は2021年以降としておきます（2020年の特例シーズンは対象外）。\n各イベント発生率の違いが以下です。\n※2021年以降、野手のみ\n大きな違いはK%とBIP（インプレー打球）の結果でしょう。\nポストシーズンではとにかく三振が増え、BIPの結果が悪くなります。\nレギュラーシーズンのBABIP .2926…に対して、ポストシーズンのBABIPは .2810…、差にして .0116…が生じています。対象ポストシーズンのBIPは7,483ですので、レギュラーシーズンを基準とするとポストシーズンにおいて7,483 × 0.01158 ≒ 87 のアウトが期待値より発生しています。この87の追加アウトの発生源を推測してみようというのが主題です。\n打球によるBABIPの低下 投手と打者については責任分配がややこしいので今回は打球によって低下したBABIPを考えます。\nポストシーズンにおいてのBIPの変化は代表的な4分類から十分に確認できます。以下がBaseball Savantの四分類の割合の比較です。\nGB% LD% FB% PU% BABIP レギュラーシーズン 45.2 24.5 23.0 7.3 .293 ポストシーズン 44.3 23.7 23.2 8.8 .281 ※2021年以降、野手のBIPのみ\n周知の通り、4分類においてBABIP Valueの高さはLD（ライナー）（.622） \u0026gt; GB（ゴロ）（.245） \u0026gt; FB（フライ）（.122） \u0026gt; PU（ポップフライ）（.016）です。\nそしてポストシーズンのBIPにおいてはBABIP Valueの高いLD、そこそこのGBの割合は減り、BABIP Valueの低いPUの割合は増えています。\n投手、打者にどう責任を分配するかはさておき、打球によってポストシーズンのBABIPが低下していることは明らかです。\n例えばこの4分類を使った簡単な xBABIPを求めると、レギュラーシーズンの xBABIP .2926…に対してポストシーズンでは .2859…となり87の追加アウトのうち58%の50個ほどを説明できます。\nただ打球種類の他に打球方向も見ていくと少し変わってきます。\n上記表は4つの打球種類と3つの打球方向で打球を12に分類したものです。\nゴロにおいてはBABIP Valueの低い（.190）引っ張りが減少しているように打球方向に関してはBABIPに有利に働く変化を見せており、この12分類の xBABIPでは .2870…、87の追加アウトのうち48%の42個ほどに落ち着きます。\nまだあります。\nポストシーズンはレギュラーシーズンより多少ですが打球速度が速いです。打球速度とBABIPは非線形な関係ではありますが、基本的には打球速度の速さは有利に働きます。上記のような打球分類でも打球速度は結果的に区切られますが、大雑把ではあります。\nそこで文明の利器を使います。\n変数間の交互作用を考慮できるGAM（一般化加法モデル）や距離の計算を通じて暗黙的にそれらの関係性を捉えられるkNN（k近傍法：k-nearest neighbor algorithm）によって、レギュラーシーズンの打球を訓練データとして説明変数（特微量）を打球速度、垂直打球角度、水平打球角度としてポストシーズンの xBABIPを求めると .2911…、追加アウトの15%ほどしか説明できません。\n投手と打者が関与できるのは打球発生までであることを考えると、BABIPの低下は投手と打者では15%ほどしか説明できない可能性があります。\nポストシーズンはレギュラーシーズンより気温が大きく下がりますので、打球速度ほど飛距離が伸びない影響は考慮しない予測モデルでは実際のポストシーズンの環境とは乖離が生じるのは当然です。\nそこで気温等の打球の飛びやすさも自然に反映させられるように打球速度を飛距離に置き換えました。そうすると xBABIPは .2880…、追加アウトのうち42%ほどを説明できるようになりました。\nつまり投手と打者の影響以上にポストシーズンの飛距離が伸びにくい環境が作用していると推定されたということです。\nややこしくなってしまいましたが、ポストシーズンのBABIP低下の4割強は投手、打者、それから気温等によって引き起こされる打球の変化によって引き起こされることが推定されました。\nちなみにゴロのBABIPに関わってくる打者の走力ですが、少なくともSprint Speedが速い選手がポストシーズンに偏るといった傾向は見られませんでした（普通に考えたら短期決戦では一塁到達は速くなりそうですが）。\n守備によるBABIPの低下 では次にOAAの登場によって取っ掛かりやすくなった守備の影響度推定をやってみます。\nポストシーズンでのOAAについては開示されていませんので、レギュラーシーズンのOAAを利用します。\n選手、シーズン、ポジションでグループ化し、それぞれイニングあたりのOAAを算出します。それをポストシーズンに適用し全選手のOAAを合算します。また先ほど表で示したようにレギュラーシーズンとポストシーズンではK%やBB%に差があるのでOAA対象打球の量にも差が生じます（ポストシーズンではイニングあたりOAA対象打球は4.4%ほど減少すると推定）のでそこも考慮します。\nOAA（レギュラーシーズン） 人数 割合（%） \u0026gt; 0 244 46.4 = 0 92 17.5 \u0026lt; 0 190 36.1 ※2021年以降、OAA対象ポジション（投手、捕手以外）\nそうして算出されたポストシーズンのOAAは15でした。87の追加アウトのうち17％ほどを説明できます。ちなみに、レギュラーシーズンに当該ポジションを守っていない選手については計算上OAAが0と仮定されていますが、その割合は0.4%ほどです。\nもちろん、純粋な運動量にも依存する守備能力は162試合を見据えるレギュラーシーズンより一戦必勝のポストシーズンの方が向上する可能性は否めませんが、この推定は難しいんじゃないかなと。\n球場によるBABIPの低下 BABIPは球場の影響も無視できません。例えば縦変化量が出にくく（PUを誘発させづらい）フェアゾーンが広大なクアーズフィールドと縦変化量が出やすくファウルゾーンが広いトロピカーナフィールドではBIP安打の出やすさは違います。\n最初は球場要因は無視できるでしょうと思っていましたが毎年ポストシーズンに出場しているチーム（LAD）とそうじゃないチーム（COL）を思い浮かべたときに無視できないかもと思いました。\n対戦相手、球場の偏りが大きいMLBはPark Factorの算出が面倒くさいので今回は簡便な方法で許してください（Park Factorに関しては今オフに深掘りしようと思っているので…）。\nということで単純に分母を、\nアウェイでのBABIP × 14 / 15 + ホームでのBABIP × 1 / 15\nとして算出したBABIP Park Factorが以下です。\n球場の形状の影響もありますが、気温や湿度や気圧による変化量の抑制増進でBABIP Valueの低いFB、PUの発生しやすさに球場の環境の影響が介在することも読み取れる結果になったと思います。\nではポストシーズンのホーム球場での試合数とともに見てみます。\n3年加重平均PFは当該シーズンを5、前後年を4として算出したPark Factorです。単純な4年平均PFも一応並記していますが大きな違いはないです。\nここから2021年以降のポストシーズンにおいてのBABIP PFを求めると、99.2。2021年以降のレギュラーシーズンを基準としたBABIPにして .2902…と87の追加アウトのうち21%ほどの18の追加アウトが球場によって生まれたと推定できます。\nまとめ では軽くまとめておきます。\nポストシーズンにおけるBABIP低下の理由\n打球が変化する（投手＆打者で15%、気温等で30%弱） アウト獲得能力の高い選手が出場する（15〜20%） BABIPが低くなりやすい球場に偏った（20%） Random VariationもありますがBIP7500ならそこまで大きくないと思います\n詰めの甘い箇所もありますが、ポストシーズンの低いBABIPは打球の変化が要因であり、守備、球場の影響も無視できない程度には存在していそうです。\n打球部門、守備部門、球場部門とそれぞれ細部を詰めたり、非公開データを入手できるとまた変わるでしょうが、バランス関係は大きくは変わらないのではないかと思います。変わるとしたら守備ですかね。\n※22年からポストシーズン出場枠が拡張され、23年からシフトが規制された影響でポストシーズンの方がシフト規制されたBIPの割合が多少増えていますが、シフトによるBABIP低下を多く見積もって計算しても誤差レベルでした。\n※OAAは守備位置を能力として扱いませんのでポストシーズンほど適切な位置取りができているのであれば、その分のBABIP低下量を見逃していますが、チームDRSのポジショニング指標を集計してもポストシーズン出場チームに大きなアドバンテージは見られませんし、ポジショニングが結果的に良かったチームがポストシーズンに出場していたという事象をもってしてポストシーズンにおいても同等の追加アウトをもたらせられるという推定はOAAのそれよりも危険に思えます。\n関連記事 Outpitching Peripherals in the Postseason - Davy Andrews Baseball Therapy: Are Three-True-Outcomes Players Better in the Playoffs? - Russell A. Carleton 打球の変化について【少しだけ】 ここからは深掘りしていくと大変そうな打球の変化について余談程度の温度感で少しだけ調べてみます。打球の変化というか投手の変化ですね。\nまずは球種割合の変化について。\n（）内はポストシーズンでの投球割合\nレギュラーシーズンにおいて一番投球されているフォーシーム（FF）の割合がポストシーズンでも増えています。そのフォーシームについてBABIPに関わる部分を少し調べてみます。\nレギュラーシーズンではスイーパー（11.0%）に次いでPUの割合が高いフォーシーム（8.9%）ですがポストシーズンにおいてはさらにPU率が上昇（11.1%）し、一番PU率が高い球種となっています（2021年以降）。\n何が変化しているのでしょうか。\n平均球速はもちろん上昇していますが、PU率という点で見たときに大きなfactorとなる投球コースを見てみます。\nよく分からないと思いますが、細かく言うと1cmくらい高めには投げられています。\nでは次、IVB（重力変化を無視した縦変化量）ですね。\nこちらは2cmほど上昇しています。\nそしてリリースポイントの高さも1cmほど下がっています。\n大したことないようでVAAとして見ると 0.2°ほど小さくなっています。\nGAMでVAAのみを使ったPU率予測モデルを作り、ポストシーズンに適用すると予測PU率は10.03%となり、PU率変化の60%以上を説明できます。打者より投手の変化の方が大きい気がしてきましたね。\nちなみに投手の変化といっても球速やIVBは個人間でも上昇する傾向があるのに対して、投球コースやリリースポイントの高さはその傾向は薄いです。\nまた、IVBの上昇は気温の低さを主とした空気密度の高さの影響はあるでしょうし実際の気温、湿度、気圧等を入手するか、回転数や回転軸等から変化量を推定し、投手由来の変化とは切り分けたいところです。\n▶︎ セイバー界の大御所物理学者の空気密度の話\nBaseball At High Altitude - Alan Nathan てなことを一生調べられてしまうので5000字に到達する前に中途半端に終わらせますけど、一般公開されたホークアイデータも今年で5年目？とデータ量も言い訳できないくらい増えたことですし、特に投手と打者の対戦という観点を忘れずに今オフは野球への理解を深められればと思います。\n","date":"2024-11-04T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/analysis/ps-babip/","title":"ポストシーズンのBABIPについて"},{"content":"\nただの身長と90th EVの散布図です。 身長は定数みたいなものですので、特に育成面においてはその定数を考慮する必要があるだろうなとは常々思っています。\n鍛錬量と成長度というのは完全には線形ではないでしょうし、恐らく対数関数的な曲線を描くものもあると思います。\nその時、いわゆる伸びしろを評価して有限のリソースを分配する必要がありますので、身長はもちろんですが、その他の定数項を考慮して現状の成長度を見誤らないことは必要となるでしょう。\n","date":"2024-09-26T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_28/","title":"身長 × パワー"},{"content":"テーマは最強打者について。\nとりあえず見てもらいたいのが以下のヒストグラム。\n今シーズンのMLBの球速分布を示しています。\n速球の山と変化球の山が確認できるかと思います。\n最強打者達はこの山のどのあたりを得意にしているのか、（相対的に）苦手にしているのか、といったところに興味が湧きましたので簡単に見ていきます。\n対象としたのは2015年以降（2020年を除く）の規定打席到達打者。\n最強打者は wRC+ が最高の打者でいいとして、n 数の確保のため 95 パーセンタイル以上の wRC+ を持つ打者を最強打者の一人として集めました。各シーズン 7、8人ほどですね。\nそして各シーズンで球速帯をそれぞれ投球数が等しくなるように六分割します。\nその各球速帯におけるRun Valueの結果を比較してみました。（wRC+ で打者を選んでおいてRVを調べる？？まあ、RVで強打者を選ぶのも結果球のみを分析の対象にするのも微妙でしょう）\n球速帯（パーセンタイル） 全体 〜16.7 16.7〜33.3 33.3〜50.0 50.0〜66.7 66.7〜83.3 83.3〜 RV / 100（パーセンタイル） 96.2 79.9 76.4 79.7 82.0 80.6 76.5 Data : Baseball Savant\n一番の傑出力を見せたのは球速帯が 50〜66.7パーセンタイルの範囲。\nこの球速帯は遅めのフォーシーム、シンカーが大部分を占め、残りを速めのカッターやスライダー、チェンジアップなどが占めています。\n対して、相対的に対応を苦手としているのが豪速球蔓延る球速帯とスライダー、チェンジアップ、スプリットが大部分を占める球速帯です。\n一応例として、今シーズンの球速帯グループの分布を示しておきます。\nData : Baseball Savant\n最強打者達は上図で言う黄色の部分を得意とし、その両隣もそこそこに、ただもう一段階離れたら流石に対応力は落ちてしまうよと、でも遅すぎる球速帯なら対応できるよと、そんなところでしょうか。\n今回は軽めの note にしたかったので早々に切り上げますけど、面白い見方だなと思いました（絶対他に似たようなことやってる人いますけどね）。\n例えば年々高速化しているのが野球界ですから、次の最強打者は上図で言うオレンジを得意としている打者なんじゃないかとかね。\n豪速球に強いと良い意味で話題になりやすいけど、実際どうなん？とかね。\n今回はパーセンタイルで見ましたけど、絶対値で範囲を区切った見方もすればもう少し深い考察もできるでしょうし。\n","date":"2024-09-22T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/analysis/strongest-hitters-velocity-article/","title":"最強打者の特徴【球速編】"},{"content":"打者の打撃能力を測る上で相当に優秀な指標である xwOBA。データサイトで手軽に確認でき、野球ファン大好きな上振れ下振れの話にも繋がり、なかなか人気のある指標ですが、他に一緒に見た方が良い指標はないの？といったことを考えていく記事です。\nxwOBAとは xwOBAを真面目に解説するとそれだけで重くなりますので要点を説明すると、xwOBAは play ではなく player を表すことを目的とし、非打球要素はそのままに打球要素は打球速度、\u0026ldquo;垂直\u0026quot;打球角度に着目し（一応、内野安打が期待されるような打球については走力も考慮される）、それらから期待される wOBAを算出したものになります。\n測定対象が play ではなく player という xwOBAの特徴として予測力があります。過去の結果には選手の能力以外のノイズも含まれていますので、そのノイズ（xwOBAでは相手の守備や水平角度など）を適宜取り除いた指標の方が未来の予測には有用です。\n実際、xwOBAは来季の wOBA予測において FanGraphs や Baseball Savant にある打撃指標の中では最強の予測力を誇ります。それは打球要素も非打球要素も含む総合打撃指標がほとんどないところが理由でもありますが。\nただ、xwOBAの打球部分 xwOBAconも来季の wOBAconの予測力がトップクラスに高い指標です。\n翌年の wOBAconとの関係　Data : FanGraphs, Baseball Savant\nノイズを多く含む wOBAconより打球速度のみを測定対象としているAdjusted EV（88 mph以下の打球を全て88 mphとして算出した平均打球速度）の方が、さらに打球速度以外に打球角度も考慮している xwOBAcon、Barrel%の方が予測力に優れていることが分かるかと思います。Barrel%がxwOBAconより少し優れている点については後ほど説明できるかと思います。\nこのように xwOBAは単体でも予測力に強みを持ちますが、じゃあ xwOBA以外に何か見るべき指標ってあるの？という話を考えていきます。\n2023年のM・チャップマン 2023年、4月の最強打者M・チャップマンを覚えているでしょうか。\nM・チャップマン　2023年3,4月成績\nwOBA .481（規定1位/181人） xwOBA .486（規定1位/181人） BABIP .485（規定1位/181人） Data : MLB\nwOBAだけでなく xwOBAも断トツで文字通りMLB最強打者でした。\nチャップマンの wOBAに近い例ではG・ペルドモがいました。彼の去年の初動とその後はまさにMLBファンが xwOBAを気にする理由でしょう。\nG・ペルドモ　2023年3, 4月 vs 5月以降成績\nwOBA .456 ➡ wOBA .297 xwOBA .301 ➡ xwOBA .271 BABIP .477 ➡ BABIP .265 Data : MLB\n対して xwOBAと wOBAに開きのなかったチャップマンはこちらです。\nM・チャップマン　2023年3, 4月 vs 5月以降成績\nwOBA .481（規定1位/181人） ➡ wOBA .291（規定127位/132人） xwOBA .486（規定1位/181人） ➡ xwOBA .301（規定120位/132人） BABIP .485（規定1位/181人） ➡ BABIP .276（規定111位/132人） Data : MLB\nただの一例なので \u0026ldquo;そういうこともある\u0026rdquo; でスルーする方がむしろ健全ではありますが、維持することのできない高BABIPとともに最強打者なら維持できる xwOBAを 3, 4月に記録し、その後見るも無惨に xwOBAも維持できなかったチャップマンの例は個人的に印象に残りました。\nBABIPを見ることの価値 xwOBAがある現代では打者BABIPは打者の色づけ程度の利用価値となっていますが、去年のM・チャップマンの印象に引っ張られて、xwOBAだけでなくBABIPも見ることで wOBAの予測力は上がるのかを調べてみます。\nまずは 2020〜2024 年の期間に 300 打席以上立った打者を対象に、来シーズンの wOBAを目的変数にxwOBAを説明変数にして単回帰分析を行います。結果は以下。（以降 2024年は 8/20 時点のデータです）\n係数 [p値]： xwOBA 0.573 [2e-16] 切片 [p値]： 0.133 [2e-16] 自由度調整済み決定係数： 0.2863\nwOBA(n + 1) = 0.573 × xwOBA(n) + 0.133\n標準誤差： 0.03122 F統計量： 215.3　p値 2.2e-16\n予測力自体の限界はあれど非常に統計的に有意な回帰式が得られます。\nでは説明変数にBABIPを含めてみます。\n係数 [p値]： xwOBA 0.582 [2e-16]　BABIP -0.038 [0.331] 切片 [p値]： 0.142 [2e-16] 自由度調整済み決定係数： 0.2863\nwOBA(n + 1) = 0.582 × xwOBA(n) − 0.038 × BABIP(n) + 0.142\n標準誤差： 0.03122 F統計量： 108.1　p値 2.2e-16\n特に説明力に変化は見られません。BABIPの p値も 0.331と wOBA予測において xwOBAと合わせてBABIPを見る実用性はないと言っていいでしょう。ただ打者のBABIPは投手のBABIPより適正値の分散が大きいという特徴があります。イチローの .300は下振れだけど、アロンソの .300は上振れだよねという話です。\nということで少々雑ですが当該シーズン以前のキャリア平均との比較をしたBABIP diff. を説明変数に設定してみます。\n係数 [p値]： xwOBA 0.580 [2e-16]　BABIP diff. -0.075 [0.035] 切片 [p値]： 0.131 [2e-16] 自由度調整済み決定係数： 0.2910\nwOBA(n + 1) = 0.580 × xwOBA(n) − 0.075 × BABIP diff.(n) + 0.131\n標準誤差： 0.03112 F統計量： 110.6　p値 2.2e-16\n補正R²（自由度調整済み決定係数）は 0.2863から 0.2910と多少ですが説明力は上昇しました。BABIP diff.のp値も0.035と統計的有意性を認められる数字となりました。\nただこの程度ならキャリアBABIPとの比較をするといった簡便な行為さえも必要ないかなというのが個人的に思うところではあります。\nチャップマンは打球速度の速さを補えないほどにフライヒッターかつ内野フライ率も高い低BABIPヒッターなので、BABIP .485はなおさらに異常値ではありました。\n大した成果も得られなかったことなので、次は逆算する形で wOBAの予測においての xwOBAについて考えていきます。\nPredictive wOBA xwOBAは play よりも player を測ることに注視した指標ですが、あくまでもその試合での価値に紐付いています。違う見方をすれば再現性を細部までは考慮されていません。xwOBAは相対的には十分 Predictive ではあると思いますが、「打球速度 80mph、打球角度 20度の打球は wOBA .850が期待される」というのは理論的には Expected です。\nこの点に触れたのが以下の記事です。打球速度と角度を利用するというポイントは xwOBAと揃えて、その係数を \u0026ldquo;期待される\u0026rdquo; wOBA Valueではなく \u0026ldquo;予想される\u0026rdquo; wOBA Valueに置き換えることで予測力を高めています。\nIntroducing Predictive wOBA - Tangotiger Blog 詳細な算出方法は記されていませんが、ある程度は分かるので自分も算出してみました。\n打球速度、打球角度で打球をラベリングする（今回は12ビン） 来季の wOBAconを目的変数に今季の12ビンを説明変数に切片を0に設定し重回帰分析によって係数を求める では、Expected wOBA Value（xwOBAの算出に使われている係数）とPredictive wOBA Valueの比較をしてみましょう。\n打球角度＼打球速度 〜95 95〜100 100〜105 105〜 32〜 .063 .203 .668 1.420 8〜32 .482 .613 .935 1.219 〜8 .182 .319 .383 .452 〜Expected wOBA Value〜\n打球角度＼打球速度 〜95 95〜100 100〜105 105〜 32〜 .239 .505 .675 1.429 8〜32 .324 .350 .646 .768 〜8 .347 .162 .333 .529 〜Predictive wOBA Value〜 Predictive wOBA Valueの算出にはホークアイが導入され打球データの取りこぼしがほぼなくなった2020年以降でBBEが200以上の打者を対象\n予測的文脈においての xwOBAの問題点を補う形でPredictive wOBAの係数が設定されているかと思います。例えば、試合においては打球速度95〜100mphで打球角度32度以上の打球の価値は低いですが、その打球を打てる打者の価値は高いです（wOBAcon .500は2023年MLBで言うと2位相当）。\n注目ポイントとしては所謂Sweet Spotと呼ばれる打球角度8度以上32以下の範囲でしょうか。wOBA .550を超えるような高い価値を持った打球角度としてSweet Spotという基準は作られましたが、Sweet Spot%の年度間相関は0.596なのに対してHard Hit%（打球速度95mph以上の割合）の年度間相関は0.840です（2015〜2023、300打席以上）。この再現性の違いを考慮できることでPredictive wOBAは xwOBAより wOBAの予測力を高めています。\nちなみにPredictive wOBA考案者のトム・タンゴは最終的に8ビンまで減らしています。\n打球角度＼打球速度 〜95 95〜100 100〜105 105〜 32〜 .206 .570 .838 8〜32 .383 .606 .867 〜8 .306 .577 〜Predictive wOBA Value (Tango Ver.)〜\nこれらの表でBarrel%が xwOBAconよりも wOBAconを予測できた理由が分かるかと思います。\nBarrelはその閾値を wOBA .950付近（表向きには打率 .500、長打率 1.500）に設定した経緯としてよりシンプルなものに拘ったというポイントがあります。\nhttp://tangotiger.com/index.php/site/comments/statcast-lab-barrels\n上記画像の白い部分も高 wOBAの範囲ですがそこを捨てています。これにより結果的に（ある程度は予想できていたと思いますが）信頼度が低い打球に引っ張られず、xwOBAconよりも wOBAconを僅かながら予測できています。\nでは、一応Predictive wOBAconの予測力を確認しておきましょう。\n翌年の wOBAconとの関係\nwOBAcon（0.293）から xwOBAcon（0.380）ほどのジャンプアップではないですが、pwOBAcon（0.425）でも無視できないほどのジャンプアップは見せています。\n例に出した2023年4月のチャップマンも xwOBAは .486でしたが、pwOBAは .410でした。\nxwOBAと何を見るか では xwOBAの相方探しに戻ります。予測を目的としたときにExpectedとは評価がズレる打球がPredictive wOBAの係数によって把握できます。\nその係数の差は以下のようになっています。\n打球角度＼打球速度 〜95 95〜100 100〜105 105〜 32〜 .176 .303 .006 .009 8〜32 -.158 -.263 -.289 -.451 〜8 .165 -.157 -.050 .078 Predictive wOBA Value − Expected wOBA Value\n先ほども述べたように打球角度8度から打球角度32度のSweet Spotは試合での価値の高さ（xwOBAにおいての影響度の高さ）の割には信頼度は高いとは言えません。Predictive wOBAはそのような不安定な打球の平均への回帰で予測力を高めているとも言えます。\n今回の目的は xwOBAぐらい手軽にサイトで確認できて xwOBAに加えて見ることで wOBA予測に役立つ指標を探すことなので、やはり**Sweet Spot%**でしょうか。FanGraphsでは無理ですがBaseball Savantではすぐに見つけられるはずです。\nでは実際の予測力の変化を見ていきます。wOBA予測を検証するか wOBAcon予測を検証するか迷いましたが他の分析と繋げるためにも打球要素と非打球要素は切り分けておこうかなと思います。\nまずは xwOBAconと pwOBAconの差を確認しておきます。\n★ xwOBAcon ★ 係数 [p値]： xwOBA 0.611 [2e-16] 切片 [p値]： 0.139 [2e-16] 自由度調整済み決定係数： 0.3792 標準誤差： 0.04259 F統計量： 327.2　p値 2.2e-16\n★ pwOBAcon ★ 係数 [p値]： pwOBAcon 0.984 [2e-16] 切片 [p値]： -0.006 [0.765] 自由度調整済み決定係数： 0.4244 標準誤差： 0.04101 F統計量： 394.7　p値 2.2e-16\npwOBAconが 0になることはありえないので切片のp値は問題ありません\nwOBAconを説明変数としたときの補正R²は0.291ですので xwOBAconで0.379への上昇は相当のものがあります。さらに pwOBAconでは0.424まで上昇しました。\nxwOBAconの相方として目指すところは 0.379以上になるでしょう。\nではSweet Spot%を加えます。\nSweet Spot%もその信頼度が打球速度系に劣るという話であって打者によって高低の傾向は十分にあります。なのでそのままの数値ではなくキャリア通算との乖離、SwSp diff.を使います。\nsavantの個人ページですぐに確認できます\n結果は以下です。\n★ xwOBAcon \u0026amp; SwSp diff. ★ 係数 [p値]： xwOBAcon 0.637 [2e-16]　SwSp diff. -0.244 [3.01e-07] 切片 [p値]： 0.127 [2e-16] 自由度調整済み決定係数： 0.4080 標準誤差： 0.04159 F統計量： 185.0　p値 2.2e-16\nSwSp diff. は小数表記としています\n係数が負の値であるように自身の能力以上と推定されるSweet Spot%で向上させた xwOBAconは割り引いて考える必要がありそうです。補正R²も0.408とそこそこ向上しました。\nチャップマンは22年までの通算Sweet Spot%が32.1%なのに対して、23年4月は42.5%でしたのでまさにその事例でした。\nこれ以外に有効的な指標は**Barrel%**です。先ほども述べたようにBarrelは信頼度が比較的高い打球に絞れています。つまり Barrel%も見るということは、xwOBAconの中でも信頼度の高い打球を加重するという話です。\n結果は以下です。\n★ xwOBAcon \u0026amp; Barrel% ★ 係数 [p値]： xwOBAcon 0.269 [0.002]　Barrel% 0.475 [1.53e-05] 切片 [p値]： 0.228 [2e-16] 自由度調整済み決定係数： 0.3995 標準誤差： 0.04189 F統計量： 178.6　p値 2.2e-16\n補正R²は xwOBAcon単体のみより向上させていて、モデル全体の統計的有意性も問題ありません。\nただ xwOBAconとBarrel%という関わりの強い変数間には共線性の問題が発生します。重回帰分析は説明変数が互いに独立していることを前提としており、似た情報を含んでいる変数にモデルが適切に係数を振り分けにくくなるということです。\nxwOBAconとBarrel%のVIF（共線性を測る指標）は約 6.55でそこそこ危険な水準ではありますので、係数を直接解釈するのは避けたいところです。\nちなみにSweet Spot%と関わりの強いLD%やBABIPもキャリア通算との比較をすれば（能力と結果の乖離を推定すれば）xwOBAconを使った wOBAcon予測において追加的な情報を提供します。Sweet Spot%ほど予測力を高めなかったので結論としては**「xwOBAとSweet Spot%を見よう」**とさせていただきます。\n文中紹介記事 Introducing Predictive wOBA - Tangotiger Blog Statcast Lab: Barrels - Tangotiger Blog ","date":"2024-08-27T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/analysis/xwoba-what-to-see-article/","title":"xwOBAと何を見るか"},{"content":"「フレーミングとブロッキングはトレードオフの関係にある」という言説はよく耳にします。\nある動作にフォーカスすると他の動作が疎かになるというのは日常生活でも多発する現象ですし、キャッチングにおいても特に低めの投球に対してはブロッキングとフレーミングはミットの角度が大きく異なる場面もありますのでかの言説が流布する所以もわかります。\nでは実際にその傾向は観察できるのでしょうか。\n上記の図は2018-2024において年度間のフレーミング得点とブロッキング得点の変化を可視化したものです。 先に述べた言説に従うと、フレーミング得点の増加に意識を割くとブロッキング得点に悪影響を与える可能性があるでしょう。しかしそのような傾向は確認できません。\n次の図は同年度のフレーミング得点とブロッキング得点の関係です。 フレーミングが得意な捕手はブロッキングも得意な傾向が観察できるかもしれない程度ではありますが、少しばかりの関係性が窺えます。 フレーミングもブロッキングも動体視力や反射神経など、共通する身体能力や技術があるでしょうし、驚きはないです。\nこれらの傾向が野球的に普遍なものなのか、MLBという階層の特徴なのかという考察も面白いかもしれません。特に近年のMLBはブロッキングと言っても少年野球のような体で止める系の動作は減っていますしね。\n","date":"2024-07-07T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_29/","title":"フレーミングとブロッキングはトレードオフの関係にあるか"},{"content":"-Whomps per Whiff, Early 2024 Edition - Ben Clemens\n空振りあたりにどれだけのBarrelを生み出せるかという解釈性の高い指標についてです。\n翌シーズンのwOBAの予測力\n実際に性能としては悪いとは言えないもののxwOBAには劣ります。 単純な指標のようでBarrelを使うということはxwOBAが既にある環境ですので簡易的な指標とは言えないでしょう。 ただ、K/BBと同じようにスケールを1空振りあたりにすることは、指導面、育成面での選手への翻訳機として機能するかもしれません。\n","date":"2024-07-01T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_30/","title":"Barrels / Whiffs"},{"content":"飛距離は打球速度と打球角度によってその大方が決定しますが、他の風や気温といった環境以外の要素では打球の回転数や回転効率があります。 重力と抗力に適した揚力によって伸びる打球が生まれるという話です。\nそこで球種ごとに打球速度と打球角度から期待される飛距離との乖離に差はあるかという点を調べました。\n速球が飛びやすく、Offspeedやカーブ系が飛びにくいといった結果から回転数や回転効率の影響が示唆されています。 深堀すると面白そうなテーマなのでそのうちNathanの論文と睨めっこしながら考えてみます。\n","date":"2024-06-22T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_31/","title":"球種ごとの打球の伸びやすさ"},{"content":"Baseball SavantにEV（FB/LD）という指標が追加されました。 単純にFBとLDの打球速度の平均値であり、打球分類ごとのEscape Velocityで触れたように、打球速度を上げる意味がほとんどないゴロを打球速度の計算から除外することでより野球的に打球速度を捉えます。\nAdjusted EVと考えは似ていますし、やっていることの分かりやすさは打球速度系の指標でもかなり上位かなとは思います。ただ、フライやライナーといった打球分類は客観的な分類が難しい部分もありますし、ある程度のノウハウがないリーグでこの指標を使うのは危険かもしれません。\n性能としてはAdjusted EVと変わりません。xwOBAconを見れない環境での妥協案の一つとなるでしょう。\n同年度のwOBAconの記述力\n翌年度のwOBAconの予測力\nxwOBAcon\n","date":"2024-06-18T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_32/","title":"FB/LD EV"},{"content":"得点圏打率という人気指標についてです。 人気指標であるがゆえに、賢い先人がその脆さを説き、我ら後人が「欠陥指標である」というフレーズを使うだけなのも飽きたので簡単に整理をしておきましょう。\n得点圏打率の槍玉に挙げられる特徴はその一貫性の無さでしょうし、現在ドジャース移籍後の大谷がたった1ヶ月の得点圏打率でやいのやいのファン同士で言い合いしています。\nもちろん1ヶ月の得点圏打率に信頼度はない\nでは記述の面はどうでしょう。\n対象年度とかフィルター基準とか忘れました\n得点圏というファンがレバレッジをかけて観察する場面において、「打率」に注目することで得点確率を説明するのに役立ちます。 勝利という面で冷静に見ると出塁率（アウトにならない率）と長打率（塁を進める期待値）から成り立っているOPSが強いでしょうが、ファンの感情としてはRE24の増減ではなく「アウト」「無得点非アウト/得点アウト」と「得点非アウト」くらいで段階的に 分布していそうなので得点確率を表す得点圏打率はファンの心情に寄り添えているのかなとも思います。\n","date":"2024-06-17T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_33/","title":"得点圏打率の捉え方"},{"content":"ピッチング、特に先発投手のピッチングについて語る場面でよく出くわす\u0026quot;ギアチェンジ\u0026quot;という概念。この概念が事実としてあるのか、あるのならその中身も覗いてみたいと思います。\nギアチェンジは存在するか 野球におけるギアチェンジ、解説者や選手、ファンの使い方としては「(重要な場面に)常時は全開でない(先発)投手が出力を上げて抑えにいくこと」でしょうか。\nちなみに大御所野球ゲーム、パワプロにもギアチェンジという特殊能力がありますが、その発動条件・効果はGamerchによると以下です。\nではギアチェンジの存在を数字でしっかり拾えるかどうか調べてみます。\nピンチにおける出力の変化 パワプロでは球速以外にもコントロールや変化球のキレ(曲がり始めの遅速)も上がる能力とされていますが、コントロールとか変化球のキレの話は複雑かつ高度ですし、解説者やファンがギアチェンジを測る指標としてよく使われるのが球速なのでここを調べます。\nギアチェンジによる球速変化の比較対象はその試合の球速です。「試合序盤の150キロ前後のストレートから大幅に球速を上げていました」という上記記事の表現もよく聞きます。\nということでトラックマン、ホークアイによる測定値が記録されている2017年以降のMLBを対象に、その試合における平均球速との差を球種ごとに算出し、それをアウトカウント、塁状況別にまとめました。\nいろいろ興味深い箇所はありますが、状況によって投手の出力が変わっているのは間違いなさそうです。\nランナーが先の塁にいるほど、アウトが増えるほど出力が上がっています。気になるところはランナーが二盗可能な状況では他の似た状況と比して出力が上がっていないところ。盗塁の警戒から出力に最適化されたフォームで投げられていないのでしょうか。\n他は、満塁より三塁・二三塁の方が多少ではありますが出力が上がっているところ。満塁より四球による損失は小さく、内野ゴロのアウト期待値の違いから三振の相対的失点抑止力が二三塁の方が大きくなるからとかが考えられますかね。\nでは先発投手とリリーフ投手でこの傾向に違いはあるのでしょうか。\nピンチな場面ほど出力が上がる基本的な傾向は似ていますが、やはり長いイニングを投げることも求められる先発の方が出力の変化の幅が大きいです。\n先発が無死無走者を基準にすると二死満塁で1.38km/h出力が上がりますが、リリーフ投手は二死三塁で0.65km/hの上昇が最大です。\nここで先ほど語った、満塁と三塁・二三塁での出力変化の違いの話にも進展が見えます。この状況を比べたとき、先発はランナーの数ほど出力が上がっていますがリリーフはむしろ逆です。\n試合の序盤・中盤を投げる先発ほどランナーの数(失点期待値)を、終盤を投げるリリーフほど失点確率の方を意識しがちなことは推定できるので、失点確率の方に比重を置くと四球を出しても(制球を落としても)三振を獲りにいく(出力を上げる)という行動の合理性はリリーフの方が高くなることも推測できます。\n何にせよ、ギアチェンジという言葉が使われる理由は数字で確認できました。\nではざっくりとした\u0026quot;ピンチ\u0026quot;という表現ではなく、得点期待値の観点からも見てみます。(ここからは主に先発投手を対象にします)\n得点期待値はBaseball Savant(2017~2023)から算出\n状況による出力変化を合理たらしめるものは、状況による重要度の変化です。\nということで、まずは定番の得点期待値と照らし合わせてみますが、基本的にアウトを重ねるほど出力が上がる投手に対して、得点期待値はアウトを重ねるほど下がるので目立った相関はありません(R = 0.17)。\nただこれは、得点期待値という複数打席(その状況からイニング終了まで)の数字と単打席の出力変化を照らし合わせるのがそもそも頭の悪い話です。\nそこで単純ではありますが、状況そのままにアウトを増やしたときの抑止得点期待値と照らし合わせてみます。例えば無死満塁(得点期待値 2.32)から三振なり内野フライなりで一死満塁(得点期待値 1.59)にできたら得点期待値は0.74(四捨五入誤差)下がりますねということです。\nこの観点から見ると、アウトを重ねるほど出力を上げることの非合理さも目立たず、そこそこの関係性が窺えます(R = 0.57)。また後述しますが、投手は球数を重ねるほど出力は下がるので、終わりが見えない無死より終わりの見える二死ほど出力が上がるのもイニング単位で考えると多少の合理性は見えてくるのではないのかなとも思います。\n場面の重要度における出力の変化 さっきと同じじゃね？と思うかもしれませんが、失点を減らす観点での場面の重要度と試合に勝利するという観点での重要度は違います。\n1回裏 5 - 0 の二死二三塁と9回裏 1 - 0 の二死二三塁では1つのアウトや1つのヒットが勝敗結果に及ぼす影響度が違うことは分かりやすいかと思います。\n先ほど失点の観点からシチュエーションを24通りに分けましたが、勝利の観点ではさらに点差、イニング、先攻後攻によっても分けられます。\nそこで、そのような場面ごとの重要度を測る指標「Leverage Index」を利用します。Leverage Index (LI)を一言で説明すると、「勝利確率の振れ幅」でしょうか。大差のついた最終回の1打席では勝利確率の増減は0%に近くても、接戦なら1打席で20%程度の増減もあるのが野球です。その振れ幅の平均との比較で場面の重要度を測っています。英単語\u0026quot;leverage\u0026quot;はてこの原理という意味でもよく使われるので連想もしやすいかなと思います。\nLI は得点期待値と同じくsavantの変数から算出しました。FanGraphsのLIとの比較がこちら。\nFGが具体的にどの期間を対象にLIを算出しているのか知りませんが、とりあえず2008~2023を対象に算出したLIで十分そうです。\nではLIと出力変化について見ていきます。\nまずは単純にLIごとの球速の変化がこちら。\n順当にレバレッジが高い場面ほど出力が上がっています。がここには罠があります。\nというのも投手はイニングを追うごとに球速を落とします。\nなんだかんだ言って元気のある初回に元気のある球を投げています。がここにも少し罠があります。\nというのもイニングによってLIが違います。\n接戦であるほど、終盤であるほどレバレッジは高くなりますが先発投手の場合、打者が慣れてきて投手が疲れてくる終盤に続投を決断されるのはレバレッジの低い大差のついた場面が多くなります。\nという風に投手のイニング、レバレッジごとの球速変化というのはイニングやレバレッジがお互いに作用している可能性があるのです。\nなのでLIによる球速変化を調べるにあたってイニングによる補正も行います。具体的には各LIを0.25ごとに丸めてイニングを揃えて比較し、データ数によって加重平均します。その結果がこちら。\n歪な形になりました。LI 1.0は平均的な勝利確率の振れ幅なんですが一番球速も遅くなっています。平均より勝利確率の振れ幅の小さい場面でも平均的な場面より出力が上がっているのです。\nこの現象は何故起きるのでしょうか？\n改めて振り返ると投手はアウトを重ねるごと、塁を埋められるほど出力を上げる傾向がありました。ということでLIとその要素を照らし合わせてみます。\nLeverage Index 的視点で見るとランナーの数や点差というのは戦況を左右する大切な要素です。ランナーが多いほど、点差が迫っているほど、高レバレッジになります。\n投手もそこは体感で理解しているのでしょう。先ほど確認したようにLI 1.0 ~ では高レバレッジほど出力を上げています。\nただ、アウト数に関しては一概には言えません。例えば1点差の終盤に攻撃側にも守備側にも振れ幅が大きくなるのは無死満塁より二死満塁、5点差の場合二死満塁より無死満塁なのは感覚的にも分かるかと思います。\n先発投手の出力が上がっているLI 1.0未満(0.875未満)を見てみると、点差が開いていてランナーが少ない、そしてアウト数は多い傾向にあります。もちろんそんな状況は戦況を左右する状況とはほど遠いんですが、ランナーが少なく点差も迫っているアウト数の少ないLI 1.0付近の状況よりギアチェンジの優先度を上げているということです。\n投手的視点で具体的に語るなら、これからさらにレバレッジが高くなるかもしれない1点差無死ランナー無しは力を抑えておこう。2点差でランナー無しだけど2アウトだし力を入れよう。とかですかね。\nここまで調べた感じ、Leverage Indexというよりランナーやアウトの状況を気にしているからLeverage Indexとも関わりがあるように見えると言った方が正しいかもしれません。\n対戦打者の打力における出力の変化 次は野球漫画でよくあるやつですね。茂野吾郎がギブソン Jr.とやるときにギアがマックスになるやつ。\n現実のMLBでもその現象は見られるのかという話ですが、もちろん見られます。投手はピンチ(失点しやすい場面)で出力を上げているので当然強打者にも出力を上げています。\nまずは当該試合の球速の打者ごとの変化です。試合単位ですので当該打者のwOBAと当該打者の属するチームのwOBAを比較しています。\n球種ごとに比較していますし、リリーフも入れています\n十分な関係性は窺えるのではないでしょうか。\nただ答えを言いますと、投手は打者に対して得点貢献力を基準に出力を上げているかというと微妙なところです。というのも、数多のスタッツの中で一番相関を示したのはxISO(打球速度、角度、スプリントスピードから算出する長打率 - 打率)なんです。\nwOBAやxwOBA(0.57)との違いは僅かですが、これはISOとwOBAの関係の強さが生み出したもので、アラエズのような打者を拾えるかどうかでISOとwOBAの差が生まれています。\n投手の心の中は覗けないので心理の推定は難しいですが、低ISOの強打者を強打者と認識していないのか、低ISOの強打者に出力を上げる利益を高ISOの同程度の強打者ほど感じないのか。ここら辺は生の声が聞きたかったりします。\nでは試合単位ではなくシーズン単位でも見てみます。\n一応wOBAも出しときますが、xISOが今回も一番優秀です。\nチーム打力に引っ張られて対面球速が上がっていたり下がっていたりする選手もいるでしょうが、打者が直面した球速という面ではこちらの方が実情に近いです。警戒度という面ではチームメイトとの比較も材料になるでしょう。\nただこれだけだとチーム内の比較がそのまま出ている可能性も捨てきれないのでチーム単位でも見てみます。\nチーム単位ではISO+が一番強い相関を示しましたが、投手がISOを基準に出力を変えること、チーム内の比較だけでなくリーグ基準の高ISO打者にも出力を上げていることが確認できました。\n球速やISOは気候とも関わりがありますが、その気候の影響も表れるISO+との相関が一番優秀だったので疑似相関の割合は低そうです。\nカウントによる出力の変化 これはギアチェンジというのか微妙ですが、カウントによっても投手は出力を変えています。\n打者の偏りの補正はしてます\n想像通りだとは思いますが、綺麗にストライク数で傾向が分かれています。\n先ほどの打者に対する球速変化の話とも繋がってきますが、打者によってカウント構成も変わってくるので打者への警戒度を測るときはその補正も必要になりそうです。例えば、2023年3-0割合はハーパーが8.8%なのに対してバエズは2.0%です。\nまとめ とりあえずギアチェンジの存在についてまとめると、\nピンチになるほど球速が上昇する アウトを重ねるほど球速が上昇する 長打力のある打者を相手にするほど球速が上昇する ストライク数が増えるほど球速が上昇する あたりでしょう。ちなみに球速が変化しているのは速球のみではなくて変化球も同様に変化しています。\nギアチェンジは成功しているか 次はギアチェンジ(出力の変化)が投手にとって意味のあるものになっているかという視点。\n問題提起 この視点について今春FanGraphsにとても興味深い記事が寄稿されました。\nExamining Two-Strike Fastballs With Pitch Modeling - Ben Clemens 球速の変化が必ずしも良い結果に繋がるとは言えないという内容で、結論を出し切るというよりかは問題提起のような形となっています。\nもう少し説明すると、2ストライクでの球速上昇量トップ15人のうちピッチモデリング評価で失点抑止力も上げたのは2人のみという結果がまとめられています。球速上昇によりコマンド力が下がるのはもちろん、単純な球質もホップ成分の減少などから上がらない投手も多くいます。\n世間の「球速より大事なことがある」という意見をよそに球速が失点抑止力と強い関わりを持つということはセイバーメトリクスに興味がある方はよく耳にするとは思いますが、自身の球速と比較して出力を上げるとどうなるかというのは面白い視点だと思います。\n球速変化と失点抑止力 では球速変化と失点抑止力について得点期待値の面から調べてみます。\n一応前提として投手自身の球速変化ではなく、そもそもの球速と失点抑止の関係を示しておきます。得点期待値の変化(Run Value)はどっちでもいいんですが、数値が小さいほど失点を抑止していると評価する打者の方のRun Valueにします。\n当然ですが、球速が速いほど失点抑止力は高まっています。\nただ球速が遅すぎる球は球速ほど失点抑止力は低くありません。これは生存バイアスが大きく影響していると推察できます。\n失点抑止力にも足切りラインというものがあり、それを下回る(球速遅、制球変化悪)球はそもそもMLBで観測されないのです。MLBで観測される、球速が遅い = そもそもの失点抑止力は低い球というのは球速以外の要素は他より優れているということですね。\nではここからは投手自身のその試合における球速変化と失点抑止について見ていきます。\nまずは無補正から。\n順当に球速が上昇するとRun Valueは減少しているんですが、その減少は +1 km/hほどで頭打ちとなっています。\nよく解説で投手の\u0026quot;力み\u0026quot;の負の側面を語られることが多いと思いますが、その負の側面が確認できると言ってもよい結果でしょう(手抜きやスタミナ切れよりは断然良い)。FanGraphsの記事とも繋がります。\nただ先ほど触れたように、投手は打者の長打力 ≒ 打力によって出力を変えています。つまり球速がプラスの方は強打者にマイナスの方は弱打者に偏っているということです。そこの補正はしたいところ。\nさらに補正をしたいのは周回効果と投手の疲労による球速の低下。周回効果は打者が \u0026ldquo;慣れ\u0026rdquo; によって打席を重ねるほど打ちやすくなるという効果のことです。PitchingBotを開発したCameron Groveによると打者は同じ投手と対面するほど(慣れを考慮していない)期待Run Valueより実際のRun Valueが高くなるとのこと。\nつまり、投手が疲れて出力が落ちるときと周回効果によって打たれやすくなるときが重なり、過大に球速変化の影響が反映されている部分を修正しようということです。\nそして先ほど触れたカウントによる球速変化の偏りも補正しておきます。結果球ではなくRun Valueなので影響は大きくないですが、2ストライク時と0ストライク時では球速が大きく違い、Run Valueの稼ぎやすさも若干違います。投手目線で3-0ほど稼ぎやすく、0-2ほど稼ぎにくくなっているところの補正です。\n方法としては単純に打者の打力とその試合における対面回数、カウントから期待されるRun Valueと実際Run Valueとの比較です。\n大きく形が変わるほどではないですが、無補正だと球速変化と失点抑止力の関係が小さく見積もられていました。打者の偏りによる歪みが大きく+1 km/hほどで頭打ちだったRun Valueの減少も+2 km/hほどまで伸びています。揺り戻しは+2 km/h以上で変わらず観測されています。\nでは球種による違いもを見てみます。\n通説通りでしょうか、球速を上げれば上げるだけ良いと言いやすいのはFastball \u0026gt; Breaking \u0026gt; Offspeedとなっています。変化球の繊細さみたいなものも窺える図になっています。\nここまでをまとめて、この章の議題【ギアチェンジは成功しているか】についてですが、球速は本人比でも失点抑止に影響を及ぼしている可能性は高く場面の重要度によって出力を調整する合理性はあるでしょう。\nただ、第三者から見て「ギアが上がった」と認識できるほど出力が上がった状態の合理性は疑う必要がありそうです。\nではRun Valueが線形になりきらないところの細部をもう少し深掘りしてみます。\nRun Valueの揺り戻しが起きる理由 球速変化によってRun Valueに関わる要素はどう変化しているか見ていきます。まずはストライクカウントが増える⇒得点期待値が下がる割合、ボールカウントが増える⇒得点期待値が上がる割合、それから結果球のwOBAの変化を見てみます。\n打力、周回効果、カウントから期待される数字からの乖離 三振と2ストライク未満のファウルもストライクカウント増加の対象\nwOBAに関しては完全な線形ではないにしろ、球速が上がればwOBAも下がるといった投手の頑張りが報われる形となっています。Run Valueの揺り戻しが起きる主因はストライクカウント増加割合の減少及びボールカウント増加割合の増加です。\n出力を上げると制球が乱れてボールが増えているのか？という点は、投手の狙ったコースが分からない現代では断定できませんが(3-0で出力を下げる投手が多いので投手の意識としては間違いないでしょう)、言えるのはピンチや対強打者や追い込んだときに出力が上がり、ボールが増えていて結果球になれば抑えられている、つまり三振を奪うことを含め投手が結果球の価値を抑えることを目標とし、簡単に勝負にいっていないということです。\nでは何故ストライクカウントを増やせず、ボールカウントを増やしてしまっているのかという点も掘り進めます。\n球速が上がるほど空振りは増えますがボールゾーン率も高まり、際どいボールゾーンだけ高まるなんて都合良くはいかないのでしょう、ボールゾーンスイング率も低くなっています。\nゾーン率と引き換えに空振りを増やしているけどそのトレードが球速を上げすぎると割に合っていないという感じです。\nまた、先ほど触れませんでしたが球速を抑えている(出ていない)球もストライクは増やせず、ボールは増えています。上図で確認できるように空振りが取れない、(若干ですが)ファウルにならないことで結果球になりやすいのはもちろん、ボールゾーンへの投球が増えているんですよね。ここは正直意外でした、というのも周回効果補正である程度スタミナ補正も兼ねられていると思ったので。\nなのでちょっと話も逸れますが、投手が球速を抑えてストライクを取りにくる 3-0 カウントに絞って見てみます。\n重ねて言いますが投手はカウントを整えたいときには球速を落とします。しかし落としすぎるとボールゾーンへの投球は増えています。投手の球速分布は正規分布に近いので頻度が高い平均球速付近(の少し球速を落としたあたり)がコントロールもしやすいのかもしれません。\n球種による違い 一応球種による違いも見ておきましょう。\nこれと合わせて考えてみます\n速球系\n速球はRun Valueの最高値は+3 km/h地点です。他の球種と比べてボールゾーン率の増加が遅くギアチェンジ\u0026quot;しすぎる\u0026quot;弊害が相対的に少ない球種です。\nカーブ、スライダー系\nカーブ、スライダー系のRun Valueの最高値は+1.5 km/h地点で、ギアチェンジで得られる恩恵は一番大きな球種です。 ただ速球と比べると分かりやすいように空振り率やボールゾーン率が乱高下しています。\n空振り率の分母はスイングなのでボールゾーン率と比例していますが、ボールゾーン率の急上昇と対応する形でボールゾーンスイング率は下がるのでギアの上げすぎの非効率さも目立つ球種となっています。\nスプリット、チェンジ系\nスプリット、チェンジ系のRun Valueの最高値は+1km/h 地点で、(ギアチェンジによって)Valueの出せる幅の狭い繊細な球種です。元々の基準となるボールゾーン率が高いのでそれ以上ボールゾーン率が高くなる(≒ストライクゾーンからの距離が伸びる)とボールゾーンスイング率が他球種と比べて急激に下がっています。\n今回はやっていませんが球速変化と変化量変化の関係性を調べればさらにRun Valueとの関係も紐解けるでしょう。(そのためにはStuff + を自作したい)\nまとめ この章の最初に触れた単純な球速とRun Valueの関係と主題である投手自身の球速変化とRun Valueの関係は改めて以下のようになります。\nFanGraphsの記事を紹介した際に語ったこちらの感想。\n世間の「球速より大事なことがある」という意見をよそに球速が失点抑止力と強い関わりを持つということはセイバーメトリクスに興味がある方はよく耳にするとは思いますが、自身の球速と比較して出力を上げるとどうなるかというのは面白い視点だと思います。\n実際調べてみて面白い視点でしたね。\n全体を比較対象とした球速と失点抑止の関係より、自身を比較対象とした方が球速の違いが切に失点抑止に関わっています。とまとめるのは雑ですしミスリードでしょう。\n左図の傾きが右図より控えめなのも右図が非線形なのも、左図は球速以外の要素がある程度揃えられているのに対し、右図の乖離の大きな球は球速以外の要素がマイナスに働いているからです。その結果揺り戻しが観測され、あの記事のように『頑張りが報われていない投手』も発見されます。\n「自身の能力と離れた出力の発揮は他の要素とのトレードで成り立っていることが多く、球速変化による付加価値を減損させる非効率なトレードもある」\nこれでどうでしょう。言語化能力に自信はありませんがまとめだけ見た方にも伝わっていれば幸いです。\nちなみに+2 km/h のギアチェンジで得られる -0.0025 Run Valueは9イニングの平均投球数150球で見ると、0.375点の減少です。+5 km/hの、期待値以上の失点抑止力を持たないギアチェンジを減らして節約できた分を+2 km/hのギアチェンジに使う。机上の空論感はありますが、このようなピッチング論も面白いと思います。\n余談 ここまで見てくださった物好きな方にちょっとしたデータを置いときます。\n2017 ~ 2023、先発として1500球以上\n標準偏差はMLB単位で小さくなってきているので2017年が多くランクイン。大谷は見てたらすぐ分かるレベルですけどギアチェンジしまくるタイプですよね。二刀流の第一人者がそのスタイルということは疲労の観点ではやはり偏差は大きい方が良いんですかね。(偏差が小さくなったことを投手の怪我の増加の1つの理由と考える人は多いです)\n0 ~ +3 割合は何となくスタミナ効率、失点抑止の観点から高いほうが良いのかなと勝手に考えています。+4までいくと非効率かな〜と。\nまぁ別に偏差も 0 ~ +3 割合もERAを説明しないのでまだお遊び指標です。\n次は本文中に散布図で出した打者の対面球速。\n2017 ~ 2023、2000球以上\n攻撃力の低くないクワンが出力は抑えられていたり、スタントンやゲレーロは爆発イヤーの次の年にも出力を上げられていたり。特に補正もせず並べただけですが打者の警戒度を測る指標の1つでしょう。\nで、個人的に気になったのでLAA (wRC+ 101) からLAD (wRC+ 120)に移籍した大谷翔平について対面球速がどうなったか調べました。\n大谷翔平、対面球速 (2024は 6月6日時点)\nもちろんまだ半分もシーズンは消化してませんが、ドジャース内では警戒度は少々落ちている可能性はあれど(敬遠やボール球も減ってはいる)、MLB内で言うと去年以上に相手投手はギア上げてるかもしれませんね。\nちなみに現時点での対面球速トップ 5 とワースト 5 はこちら。\n500球以上\nもう既にお馴染みのメンツがそろいつつありますかね。投手はソトジャッジを迎えるにあたってボルピーでかなり休憩してますけど、逆に大変じゃないんですかね。\n疲れたのでこの辺で終わっときます。アホみたいに長い 記事を読んでくださりありがとうございました。。\nデータソース Baseball Savant FanGraphs ","date":"2024-06-07T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/analysis/gear_change/","title":"投手のギアチェンジについて"},{"content":"打者 まずは打者からです。対象とした打者は2015〜2023年(2020年は除く)の３・４月と５月以降でどちらも規定打席に立った打者です。本当は生存バイアス等にも対処した方が良いと思いますが今回は手軽にいきます。\nvs 指標自身 まずは指標自身の話です。「4月のBABIPと５月以降のBABIPって相関あるの？」という感じの話。野球ファンからの関心がそこそこ高そうな指標を中心にピックアップしたものがこちら。\n各指標の3・4月と5月以降の相関係数（n = 853）\nこれは野球に限らないことだと思いますが、ファンが第一に気にするような結果ではなく、その結果が出る前の過程を測った指標ほど強い相関を示しています。\n打者のアプローチ姿勢(Swing%, Contact%)、打者のパワー(打球速度, Hard Hit%)、打者のスイング軌道(打球角度, GB%, FB%)のようなものはシーズン序盤から安定しても、それらに加え内外の様々な変数が組み合わさった結果完成する指標(BABIP, wOBA等)は安定に時間がかかることは想像に難くありません。\nゴロとフライの境目であるライナー、引っ張りと流しの境目であるセンター返しも安定に時間がかかりますが特に気を付けるべきはライナー。ライナーは他と比べて恐ろしく生産性の高い打球ですが、ライナーの発生確率が信頼に足るサンプルサイズに達するのは500〜600BBEほど。これは上位打線で年間フル出場近く出場しても選手によっては到達できない数字です。\nwOBA - xwOBA(0.222)は使用球場の偏りを留意しておく必要はあるでしょう。参考までに、同期間のwOBA - xwOBAはクアーズで .029、ブッシュで -.011です。\nClutch(0.034)、打率 - 得点圏打率(-0.032)は美しいですね。\nvs wOBA 次は５月以降のwOBAとの比較です。三振しないことや速い打球を飛ばすことはあくまでも手段です。目的＝勝利に貢献 ≒ 得点に貢献 ≒ wOBAの高い打者は４月のどの指標でその兆しを見せていたのでしょうか。\n3・4月の各指標と5月以降のwOBAとの相関係数（n = 853）\n一応相対的にカラースケールしてますが軒並みしょぼいです。\nxwOBAですら決定係数は0.156、５月以降のwOBAをほとんど説明できません。\n気を付けるべきはコンタクト系の指標ですかね。コンタクト系の指標はコンタクト力(という言い方も少し違いますが)を測る指標としては信頼度は高いですが、打者においてコンタクト力は単純に得点創出力に結びつきません。\nこれはイチローのあの .220 40本発言が野球ファンに違和感なく受け入れられているようにコンタクト能力と長打力にトレードオフ関係があることを直感的に理解している人は多そうです。\n実際のトレードオフ関係を定量化するのは割と大変だと思いますが、現状コンタクト力とK%には強い因果があるのに対して、コンタクト力と得点創出力には相関はありません。これの意味するところはコンタクト力の低い打者は三振による損失を他で補っているということです。\n2023 min.300PA\n丁度良く実例があるので紹介すると、2023年MLBで最も低いK%を記録しながらISO最下位、wRC+は92に甘んじたガーディアンズは昨オフ従来のアプローチ姿勢を打ち破る意向を示し、2024年4月終了時点で昨年からK%の順位を落としながらISO15位、wRC+107とそのトレードオフを成功させています。今年のガーディアンズは要注目です。\nWhy Guardians’ bid to boost their offense starts with … swinging-and-missing? - Zack Meisel 投手 では投手です。対象とした投手は３・４月と５月以降でどちらも規定投球回に達した投手。\nvs 指標自身 各指標の3・4月と5月以降の相関係数（n = 333）\n・K/BB(0.249) vs K - BB%(0.576)\nその簡易な算出方法から日本のライトなプロ野球ファンからの認知度も高いK/BB、比だからこそ広まった感じもしますが比であることが悪さをします。\n例を挙げるなら、K% 20%, BB% 1%が実力の投手がK% 20%, BB% 2%を記録しても100打者あたり1人多く四球を出しただけの変化であり、実際K - BB%は19%から18%と大した変化を見せませんがK/BBでは20から10へ大きな変化を見せます。この例は極論だとしても比であることが邪魔して投手の能力を測る指標としてはK - BB%に完敗しています。\n・WHIP(0.286)\nWHIPも人気指標だと思います。WHIPは防御率(0.163)と違いLOB%(0.060)の不安定さをカバーできますが、BABIP(0.087)の不安定さはカバーしません。\n・IFFB%(0.104), HR/FB(0.096)\nこの２つはFIP(0.373)やIFFIPに影響を与えますが、xFIP(0.507)があるようにHR/FBは不安定ですしIFFB%も同程度に不安定です。\nfWARの構成指標IFFIPはもちろん、内野フライを特別扱いしないFIPもその実は「投手の責任範囲を絞った(から予測能力も多少ある)結果説明指標」に過ぎず、だからこそWARの構成指標として胸を張れる部分もあると思います。\n・xERA(0.379)\nBaseball Savantの注目度が上がるにつれxERAもよく目にするようになった体感があるので性格悪く釘刺ししておこうかなと。xERAはその名の通り、ではなく被xwOBAをERAスケールしたものであり、僕は虎の威を借る狐のように見ています。ここで言う虎は三振や四球で、狐はxwOBAcon(0.262)ですね。\nxwOBAconはBABIPのように打者と投手では非対称性があります。その非対称性に対処したのがxFIPやSIERAです。\n打者のxwOBAは信頼度の高い非打球要素と信頼度の高いxwOBAconで構成されていますが、投手のxwOBAは信頼度の高い非打球要素と信頼度の低いxwOBAconで構成されています。なので打者のxwOBAと投手のxwOBAを同じテンションで見るのは危険です。\n・Stuff+(0.871), botStf(0.895)\nピッチモデリング指標は早い時期から安定します。wOBAcon(0.087)の不安定さと合わせて見ると4月の打球管理をもとに球質の評価を行うのは相当思い切った行為と言えそうです。\nvs 防御率 では5月以降の防御率との比較です。防御率は今も恐らくこれからも一番人気指標でしょうし、rWARとの結びつきも強く、個人的には重要視はしませんが無視することもできません。\n各指標の3・4月と5月以降の防御率との相関係数（n = 333）\n対象を厳しく設定した割には小さい数字が並び、スモールサンプルの限界を感じますがピッチモデリング指標の健闘は光ります。\n・xERA(0.222)\nxERAがxwOBAconのせいで不安定な指標であることは先ほど述べましたが、防御率を予測する文脈においてもxwOBAconが足を引っ張ります。\n4月のxwOBAconと5月以降のwOBAconの相関係数は0.155です。守備や球場が固定される影響もあるとは言え、4月のxERAのxwOBAcon部分は5月以降のwOBAconの予測に役立ちません。xERAが防御率(0.163)よりはマシな相関係数を記録できているのも三振と四球というトラッキングデータを必要としない要素によるものです。\n・K - BB%(-0.282)\n先ほど、K/BBのようにはバグらない指標として挙げたK - BB%ですが簡易な指標の割には防御率予測の文脈でもFIP(0.255)とSIERA(0.308)の間を取っています。K - BB%が予測指標としてもそれなりの地位を築けているのは能力依存度の高い指標であることと、三振と四球の得点価値が等価に近いこと、三振と四球以外の要素で差がつきにくいことが理由にあります。\n三振と四球以外の要素は総合すると投手にとってはマイナスになります。もちろん四球もマイナスなので投手は三振 - 四球の割合をどれだけ増やすかが重要になってくるわけです。\nvs FIP FIPも一応見ておきます。\n各指標の3・4月と5月以降のFIPとの相関係数（n = 333）\n当たり前ですが、投手が比較的管理できる範囲に絞っている指標なので防御率より予測はしやすくなります。\nFIP予測に限らず、指標自身の信頼度や防御率予測においても打球分類を使ったxFIPやさらに投手も分類して投手ごとに加重割合を変えるような複雑な手法を取っているSIERAなどが優れているのは当然ですが、基本的なスタッツのみで算出できるK - BB%の優秀さはもう少し広まるとうれしいですね。\nちなみに今回文句ばっかり言ったxERAは防御率を記述する文脈(当該シーズンのxERA vs 当該シーズンの防御率)においては優秀です。実際に打たれたデータを使うので当然と言えば当然ですが。\n優秀と言ってもトラッキングデータを必要としないFIPと記述力も変わらないですが、FIPを能力ではなく結果を表したものと見ることができるならxERAもそのような見方はでき、WARの要素にするとかはおかしいことではないと思います。DeltaGraphsはxERAに性質の近いtRAをWARの要素にしています。\n(指標自体への文句というよりかは名前と機能のズレや使われ方に対する文句なので…)\n最後に 文章がとっ散らかって質の低い記事になってしまいましたが、結局のところ4月の成績はあてにならないです。真面目に予測するなら前年の数字の方が有用ですし、今の時代はさらに予測力の高い予測システムがいくつもあります。ただ4月の段階でも指標間に優劣はあるので全部同じように信用しないというのももったいないかなと。\n4月の成績が以降の成績予測にあてにならなかろうが実際に起こったことというのも忘れてほしくないところ。得点圏で打ったなら得点圏で打ったのだし、BABIPが低かったのならBABIPが低かったのです。\nあと4月の成績の信頼度を知っているセイバリストの方々もバンバン4月の成績であれこれ語ったりしてるんで、全体像が全然見えない4月だからこそ振れ幅の大きな浪漫ある考察をしていくのも楽しいと思います。\n","date":"2024-05-02T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/analysis/april-vs-may-stats-article/","title":"4月の成績 vs 5月以降の成績"},{"content":"思いつきですが、Escape Velocityの理論(物理の方じゃないよ)を打球分類(ゴロ、フライ、ライナー)ごとにも当てはめてみます。\nEscape Velocity Escape Velocityは簡単に説明すると、88mphまでは打球速度で価値に差がつかないんだから88mphからどれだけEscape(脱出)できたかを評価しようという考えから生まれた指標です。\n具体的には60mphと80mphと100mphはEscape Velocityでは0mphと0mphと12mphという扱いになります。\n一応確認として、打球速度とwOBAとの関係が以下。\n88mph以下を等価で評するEscape Velocityや95mph以上の打球割合を示すHard Hit %の妥当性が確認できるんじゃないかなと思います。\nEscape Velocityは同じ平均打球速度でも85mph + 85mph より100mph + 70mphを高く評価しますが上記の関係を考慮すると野球的に正しい指標であると言えます。\n平均打球速度とEscape Velocityで特徴のあった打者の例はこちら。\n2021~2023、min 200 BBE、順位は512人中、バントは除く\n例えばマイク・トラウト、彼は平均打球速度はメジャー32位に甘んじていますがEscape Velocityはメジャー11位の数値です。\n例えばMJ・メレンデス、彼は平均打球速度はメジャー23位ですがEscape Velocityはメジャー84位です。\nメレンデスがトラウトより平均して速い打球を飛ばしたことは間違いではないですが、野球的にトラウトより\u0026quot;良い\u0026quot;打球速度を出していたわけではないということです。\n今回はこの理論を打球分類ごとにも当てはめたり、打球速度とwOBAの関係を打球分類ごとに見ていきたいなという回です。\nゴロ まずはMLBではすっかり負け打球扱いされているゴロです。\n当たり前ですがそもそもの価値の低さが目立ちます。Escape Velocityの理論もなんとか当てはめられそうですが、その閾値は全打球の時より低く設定できそうです。バントやハーフスイングが含まれていて信頼区間の幅も広い低速打球を取り除いて拡大したのが以下。\nEscapeできていると言えそうなのは81mphぐらいからでしょうか。全打球では88mphが閾値ですがゴロに限ると80mph程度かなと思います。\n仮に80mphを閾値に設定した場合の2021~2023のゴロのEscape Velocityトップ10とワースト10がこちら。\n2021~2023、min 100 GB、Ovr Rk.は全打球のEscape Velocityの順位を466人換算したもの\nトップ10には当然パワーヒッターが並びますが、W.カルフーンやM.ビアリング、K.ヘイズのような全打球のEscape Velocityでは上位にいなかった選手が気になります。結論を述べると彼らはパワーツールをフライやライナーと比して極端にゴロに使っています。後にまた語りますが良いとは言えないでしょうね。\nフライ 次はMLBではすっかり勝ち打球扱いされているフライです。\nめちゃくちゃ気持ち悪いけど野球を感じられる曲線が浮かび上がりました。\n注目すべきは二つの谷でしょうか。50mph付近と85mph付近に人工的かのような谷ができています。フライは守備範囲であればほぼ確実にアウトになる打球なのでこの二つの谷は内野手と外野手の守備範囲と考えられそうです。70mph付近の山はいわゆるポテンヒットでしょうか。\n一応スプレーチャートで確認してみます。\n打球速度85~90mphのフライを500個無作為抽出\n打球速度65~70のフライを500個無作為抽出\nフライという括りにおいては8590mphが丁度悪く、6570mphが丁度良い飛距離になっていることが見て取れます。ちなみに50~55mphはほとんどがpopupですので当然ヒットになりません。\nではゴロと同じように低速打球を取り除いて拡大します。\n半端な数字が多くて美しくない\n高速度帯に注目するとEscapeの閾値は92mphとして良さそうですが、5880mphの山を無視するわけにもいかないのでそこが面倒くさいところ。5880mphの頂上は98mphと同じ高さなので、それを参考に傾きの違いも補正します。具体的には以下。\n~58 → 0 58~67 → (打球速度 - 58) × 0.67 67~80 → -(打球速度 - 80) × 0.5 80~92 → 0 92~ → 打球速度 - 92 全然美しくないですが、この計算で求めたフライのEscape Velocityトップ10とワースト10は以下。\n2021~2023、min 100 FB、Ovr Rk.は全打球のEscape Velocityの順位を403人換算したもの\n基本的にイメージ通りの選手が並んでいるかとは思いますが、気になるところはY.グリエル。2021年首位打者を獲得した彼は決して非力ではありませんがパワーポテンシャルをフライではなくゴロに費やしています。実際グリエルの打球分類ごとのEscape Velocityはゴロが24位なのに対してフライ397位、ライナー265位です。各打球分類の\u0026quot;傾き\u0026quot;を考慮すれば正直もったいなという感想しかないですが、ゴロだから強い打球が打てているという可能性や三振をしないアプローチが影響している可能性もあります。\nライナー 最後は打者も投手も制御しづらい最強打球ライナーです。\nフライのように打球速度があれば高確率でホームランとなる打球角度ではないので高速度帯ではフライのようなインパクトはないですが、非力な打者でも問題なく出せる60mph程度から安定して価値の高い最強打球です。\n例によって拡大すると以下。\n切りよく50mphを閾値に設定して問題ないかなと思いますが、問題は72-102mphの範囲。フライの時のように細かい扱いをすることもできますが、woba_valueの幅も狭いので72-102mphは67mphと同じ扱いにして、102mphオーバーは72mphオーバーとして扱います。具体的には以下。\n~50 → 0 50~72 → 打球速度 - 50 72~102 → 67 - 50 = 17 102~ → 打球速度 - 102 + 22 この計算で求めたライナーのEscape Velocityのトップ10とワースト10はこちら。\n2021~2023、min 100 LD、Ovr Rk.は全打球のEscape Velocityの順位を343人換算したもの\n順当にパワーヒッターとパワーレスヒッターが並んでいます。特に触れるところもないですが、アラエスはライナーあたりの価値は低いながら高価値を出すための必要打球速度の小さいライナーをリーグ屈指の割合で発生させているTHE・功打者ですね。\n総論 ではまとめに入ります。\nフライボール革命との繋がり ゴロ(赤)、フライ(青)、ライナー(緑)の打球速度と価値の関係\n上記グラフを見ても分かるように打球分類ごとに価値に差が出る打球速度が変わります。今回はその特徴を確認してきました。\nStatcastシステムが整備され、打球速度の価値が再認識され、打者が打球速度を追い求めた結果得られる恩恵はゴロを転がしていてもたかがしれています。もちろんライナーは良いですが、ライナーを高確率で発生させるのはゴロやフライのそれとは難易度が違うことは周知の事実です。\nフライボール革命の\u0026quot;幹\u0026quot;が見えてきたんじゃないでしょうか。\n打球速度と打球価値には当然結びつきがあるので打球速度の向上を求めるのも必然です。ですが打球速度向上といってもスイング軌道によってフライ、ライナーの打球速度に差が出る研究もあります。アッパースイングはフライの打球速度を上げ、レベルスイングはライナーです。\nライナーは60mph程度から高価値を持ち、以降の変化の割合も小さいですが、フライは100mph近く必要で以降の変化の割合は絶大です。この観点のみを見ると打球速度向上と合わせ技したいのはアッパー一択ですが、先述した研究によるとコンタクトやタイミング関連はレベルに分があります。そして打球のフライ割合にはスイング軌道等の他に投手の球種コースなど外部の変数も入ってくるでしょう。\n打球速度と垂直角度と打球価値がフラレボの幹ですが、今ダラダラ語った部分や水平角度等も含めて思考、実践してフラレボの幹に枝がついて花が咲くと思っています。\nフラレボは語り出したら終わらないのでいつか納得できる形で自分でもまとめたいですね。ちなみに今も進行中ですよ。\nThe Pulled Fly Ball Revolution Was Always Underway - Alex Chamberlain Advanced Escape Velocity ここからはおまけみたいなものです(なんか凄く長くなった…)。\nせっかく打球分類ごとのEscape Velocityとか物好きなことやったので最後にそれをまとめてAdvanced Escape Velocityでも作ろうかなと。まあ察しの良い方ならそんなんxwOBAconじゃんって気づいてそうですが。\n2021~2023、min 200 BBE、トップ20と中間の20人とワースト20\n通常のstandard Escape Velocityと今回やった打球分類ごとのEscape Velocityを単純に加重平均したbb type Escape Velocityと打球分類ごとの\u0026quot;傾き\u0026quot;も考慮したadvanced Escape Velocityです。\nwOBAconとxwOBAconとの決定係数は以下。\nR^2 wOBAcon xwOBAcon standard 0.532 0.742 bb type 0.132 0.202 advanced 0.677 0.909 2021~2023、min 200BBE、n = 512\nまあ当たり前にadvancedはxwOBAconのほとんどを説明できますね。bb typeのしょぼさはゴロのしょぼさみたいなところがあります。フライとゴロでEscapeできた時の恩恵が10倍ほど違うのに等価で評したらそらそうなります。standardは88mphオーバーしか拾わないことで間接的に傾きの大きいフライの影響力を大きくできています。こういうシンプルな作りだけど間接的に他の要素も考慮できているセイバー指標は多いです。\nではstandardとadvancedで差がでた選手をピックアップします。\nトラウトは平均打球速度でも過小評価？されていましたけど、standardでもトラウトの打球の価値は捉え切れていません。トラウトはゴロやライナーよりフライのEscapeが得意で、かつフライ率も高いという点でパワーツールを野球に効率的に変換しているさまがうかがえます。\nトラウトの他にもパワーをフライで発揮できている打者が左側に並んでいます。フラレボを語る際に重要参考人になる人たちでしょう。またコンタクトに難を抱えている打者が多いのも偶然ではないでしょう。\n対して右側の打者はパワーツール(Escape能力)がありながら、恩恵を非フライで享受している打者やフライを発生させられていない打者たちです。\n暴力的な上半身からセンター逆方向に強烈なゴロを放つY.ディアス。彼もフラレボの重要参考人になりそうです。ディアスは高いゴロ率ながら、ゴロの打球速度や水平角度が優秀です。しかしゴロで打撃貢献を稼いでいるというよりかはゴロのマイナスを抑えているという方が正しいです。\nディアスはフライでマイナスを叩きながらゴロのマイナスを抑えてライナーでプラスを稼いで非打球でもプラスを稼いでいます(K% 14.1, BB% 12.5)。\n正直右側の打者はタイプが多様なので語ってたらキリがないんですが、言えるのはパワーポテンシャルを生かし切れていない可能性があることですかね。ただヘイズはあのゴロが多くなるスイングプレーンだからこそ打球速度が出ているようにも思えますし、そのような向き不向きがあるならさらに複雑な話になってきます。\nちょっと話が長くなりすぎているので優等生風にまとめると、「パワーはフライで生かした方が良いけれどコンタクトとトレードオフの可能性やスイングの向き不向きの考慮もしましょう」ですかね。\n余談 散々Escape Velocityを語っていてなんですが、今はEscape Velocityなんて確認できません(多分)。というのも物理の脱出速度と紛らわしくなる名前がいけなかったのかEscape Velocity 10mphと言われても想像がしづらいのがいけないのか、Adjusted Exit Velocityという名前に変わり88mph以下が全て0ではなく88mph以下は全て88mphという計算方法に変わりました。まあだからAdjusted EV - 88がEscape Velocityですね。\n今回はEscapeという単語が打球速度と打球価値の関係を語るにおいて有用な単語だなと思ったのでEscape Velocityのままにしときました。Escape Velocity改めAdjusted EVは結果を測るだけでなく才能を測るのにおいても優秀らしいのでぜひ参考にしてみて下さい。\n","date":"2024-04-09T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/analysis/escape-velocity-by-batted-ball-type/","title":"打球分類ごとのEscape Velocity"},{"content":"2023年、MLBにピッチクロックが導入されました。 このピッチクロックが野球にもたらす影響について、日本人を中心に様々な批判材料が構築されていましたが、 その中でもとりわけ多くの支持を集めていたのが「投手の身体への悪影響」でしょう。\n確かに、旧来の投球間隔が投手の身体的悪影響に対して限界的なラインで凌いでいたものならば、その投球間隔を狭めることは投手に身体的悪影響を及ぼすでしょう。\nまた特に、旧来の投球間隔が長くより多くの投球間隔の短縮を迫られる投手の方が身体的悪影響は現れやすいでしょう。\n実際に2022年から2023年の投球間隔の短縮幅とピッチモデリング指標の変化が以下です。\n- -\nとりあえず関係性はないと言えるレベルです。\nちなみに、投球間隔の減少幅とILに登録された率や総日数についても特にその主張を裏付けるものとはなっていません。\n-\n確かspotracを参照したはず\n","date":"2024-04-07T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/memo/memo_34/","title":"ピッチクロックが球質に及ぼす影響"},{"content":"前回の説明系noteで逃げたRerCとそれを採用するrWAR,DRSについての説明＆感想系noteです。前回のRerC以外の守備指標の軽いまとめはこちら⬇\n前回→捕手の守備指標まとめ\nRerCについて RerCとは 前回まとめた指標で異質なのはこれかなと思うんですが、後から書くのでインサイドワーク面の評価と逃げた表現をしました。RerCとは何？という部分をネットで拾える少ない情報量からまとめます。\nまずは大本営BISの見解から。\nThe Fielding Bible FAQより(https://www.fieldingbible.com/faq)\nポイントは3つです。\n捕手別防御率をもとにしていること 組んだ投手の力量をはじめ、様々な側面を考慮していること 全面的に信頼を与えず平均に回帰させていること 投手の力量や様々な側面を考慮した予想捕手防御率(自責点)が実際の捕手防御率(自責点)と乖離しているときに、その責任をある程度は捕手に負わせようということです。\nこれを日本ではリードやマネジメント、総じてインサイドワークと呼んでいるのでRerCの説明に使いました。ちなみにBRではRerCを「Catcher Pitch Calling Runs Above Avg」と表現しているので、文字通りリードの指標と訳しても問題ないのかなと思います。\n具体的な算出式 大本営の説明で何となくなら算出方法も想像できますが、具体的な算出方法はネットの海でも見つけるのには苦労します。\nCatcher Defense - Part 1 - Lee Panas 上記がRerCの具体的な算出方法が書いてある2010年のブログ記事です。The Fielding Bibleに記載のあるRerCの算出方法をまとめてあります。RerCに触れているBISの記事も複数ありますが、ここで紹介されている算出方法との相違点は確認できませんでした。\nせっかくなので2023シーズンで驚異的なRerCを稼ぎゴールドグラブ賞も獲得したG.モレノで計算してみたいと思います。\n①当該捕手(モレノ)が組んだ全投手のイニング、防御率を用意する\n例）Z.ギャレン 210回 防御率 3.47\n②当該捕手(モレノ)と組んでいる時の全投手のイニング、自責点を用意する\n例）Z.ギャレン 117回 40自責点\n③当該捕手(モレノ)と組んでいる時の推定自責点と実際自責点との差を出す\n例）Z.ギャレン 117/9*3.47-40=5.11\n④平均に回帰する\n43.9(③の全投手合計)*0.33=14.49\n⑤当該捕手のイニング数によってさらに平均に回帰する\n14.49*854/1440(フルシーズンのイニング数)=8.59\n以上が算出方法ですが球場補正もされているとのこと。モレノのRerCは10.511.4なので平均抑止自責点は-23ほどだったんですかね。\nイニング数が少ないほど平均に回帰させる算出方法なので平均抑止自責点がマイナスになるということは主力捕手ほど点を取られていたことを意味するので違和感はあります。\n何か僕がミスってるかもしれないし算出方法が変わったかもしれないですけど、2010年時点の算出方法を紹介したかったのでまぁスルーで。\n問題点 そもそも「捕手によって投手成績が変わったという現象の責任を捕手に負わせること」だけで濃い議論ができそうですが、一旦その論点は置いといたとしても前述の算出方法には多く疑問が生じます。\n・比較対象が平等でもなく平均でもない\n言ってしまえば、味方の捕手が自分より自責点抑止能力があるかどうかゲーということです。四捨五入誤差を除けばリーグ合計RerCはゼロになるように調整しているはずですが、(平均と比べているが故にゼロサムになる)他の守備指標とは合計がゼロになる意味合いが違います。厳密に言えば内野のRAAもグレーゾーンですが。\n・インサイドワーク以外の守備能力でつく差を考慮していない\n例えばDRS - RerC = +10の捕手が自責点を5ほど抑止していた時にも、この捕手のインサイドワーク面はプラスの評価を受けます。DRSの構成指標はもちろんそれぞれ独立していますし独立させるべきですが、このRerCだけは独立しているとは言えないわけです。\n大きなポイントはここら辺りかなと思いますが、細かい部分も気にするとまだまだ思いつくとは思います(細かい部分はどんな指標でもありますが)。\nまあBISが単純な捕手別防御率と一緒にすんなと言っているように、投手ごとに計算しているだけでも捕手別防御率よりかは利用価値のある指標だとは思います。(ちなみに単純な捕手別防御率から求めたRerCと投手ごとの捕手別防御率から求めたRerCのR^2は0.68はありました。)\nDRS内での立ち位置 散々文句を並べましたけど、指標の算出方法とその指標が機能するかは別だったりもするのでRerCの結果に注目してみます。算出方法が変わっているかもしれないですし。\n偶然の産物でないか、能力に起因するのかどうかといったポイントを測るスタートとなる年度間や移籍前後間の相関を見てみます。積み上げ指標なのでイニングあたりで計算してます。\n年度間相関(/Inn) 移籍前後間相関(/Inn) 標準偏差 Rpm 0.11 0.04 1.1 Rgood 0.39 0.25 2.4 RszC 0.70 0.59 5.9 RsbC 0.32 0.31 2.6 RerC 0.07 0.10 2.9 RerC*1440/Inn 0.10 0.22 2011-2023(Rpmは2013-),300イニング以上\n年度間では少しは相関が確認できるかなと思っていましたが、単純な捕手別防御率ではなく同投手間の捕手別防御率を利用しているだけあってRerCの年度を跨いだ相関はなさそうです。(RerC*1440/Innの移籍前後間に関してはもう少しサンプルサイズや抽出方法を整えて考察してもいいかなとは思いますが、年度間で相関がなく、チームメイトが比較対象の指標の移籍前後を見て分かることとは？みたいな気持ちはあります。)\nRerCは捕手の能力が関与しなさそうな要素なのに、それなりにDRS内では影響力も持っていると言えるでしょう。rWARではフレーミングが抜かれているのでさらにRerCが幅を利かせているということになります。\nまた他の指標と比べるとやはりフレーミングは捕手の能力によって大きな差がつく要素で、合理的なMLBにおいて最重要視される理由が分かります。\nRerCの改善案 RerCのネガキャンをしてますが忘れてはならないのが「能力に依存する結果じゃない⇒DRSやWARに組み込むべきではない」とはならないことです。もちろんBaseball Prospectusのように年度間相関に拘ってもいいんですが、Baseball Prospectusも「貢献を測る指標である」という前提は崩したくないという姿勢は見えます。能力と結果のギャップがうまれない競技ではない以上、そのギャップを当該選手に帰属させるのも貢献度を測る指標として正しい指針だと思います。\nただその結果の測り方と帰属先は再考の余地があると思うので少し考えてみます。\n比較対象を平均に設定する 現状はチームメイトとの比較に過ぎないので比較対象は平均に設定したいところです。(イニング数によって平均に回帰するという作業(⑤)はイニング数によって信頼度に差をつけるという目的だけでなく、平均の模索も少しは兼ねているんじゃないかとも思いますが…)\n言うは易く行うは難しで具体的な案はパッと思いつかないのでまたの機会に考えたいですが、チームメイトとの比較に頼らずにする方法はトラッキングデータを使う系以外は思いついてません。\n守備の影響を排除する RerCが捕手の投手へのリードやマネジメントの結果を表すことを目的としたものなら、守備の影響は排除したいところです。BRなのでrWARとの繋がりを意識すればDRSで補正したRA9かなとは思いますが、フレーミングを考慮したIFFIPとかの方が守備の影響の排除と。\n捕手への配分量を再考する 前述の算出方法の平均に回帰するフェーズは見方を変えれば失点抑止貢献の投手と捕手への配分ですが、ここも再考したいところです。RerC*1440/Innの年度間の相関がなかったのに対して、投手の場合はK%,BB%等は強く、FIP,ERA等に関しても組んでいる捕手が変わってもそこそこには相関があります。つまり、特定の捕手の時に投球結果が良くなるという現象を引き起こす要因は投手の能力である可能性が高いということです。\nこれを考慮して捕手への貢献の配分は極限定的にすべきではないかなというのが持論です。具体的な数字を出すのは簡単ではないですが、今よりも平均への回帰量(投手への配分量)は大きくなると思います。\nrWARの改善案 DRSに関してはRerCが改善できれば問題ないはずですが、rWARに関しては違うのでそこを考えます。\nfWAR,pWARとの違い rWAR fWAR pWAR フレーミング × ○ ○ ブロッキング ○ × ○ 盗塁阻止 ○ ○ ○ 打球処理 ○ × ○ インサイドワーク ○ × × 各WARの違い\n各WARの関係\n各WARの構成要素の違いと守備部分の各WARの関係(2023年)です。\nRfield(rWAR)がDRP(pWAR)とFielding(fWAR)とは全く違う守備評価を下していることが分かります。フレーミングを評価外にしているので驚きはないです。\nDRSとの関係\nDRSと比較しても説明できない部分はまだ大きいです。BISのフレーミング指標の特徴やRerCの影響が大きそうです。\nフレーミングを評価の対象にする 遙か昔がどうかは分かりませんが少なくともフレーミング指標が算出されるようになってから総合指標においてフレーミングを評価対象外にすることは、遊撃手をoWARで評価するようなもんです。もちろん、指標の選択やポジション補正値や代替水準の設定などが作成者の裁量に委ねられているのがWARの魅力ですが、BRはそれらを高いレベルで作成選択設定してきたMLB界の大御所サイトですのでフレーミング評価のアップデートは希望したいのが本音です。\n(DRSとは違いrWARはRszCとRerCを共存させていないので、好意的に受け止めるとRerCでフレーミングとリードを評価しているとも考えることはできないこともないとも言えないこともないとは思いますが、現実としてRerCでフレーミングを評価はできていないのでそんな好意的な受け止め方はしません。)\nRerCを改善する 先述した通り、現状の問題点を改善したRerCを採用することも必要でしょう。\n簡単ではありませんが、Game Callingの要素を適切に抽出できれば他社のWARに対して優位性が取れるかは別として許容可能な範囲での差別化を図れるでしょう。\n最後に いろいろ語りましたが、RerCの問題は性能評価の怠りかなと思っています。その当時のその当人の考えから演繹的に指標を導出するというだけでなく、性能の評価も行うことで認識とのズレを発見でき、さらなる野球への深い理解、精度の高い指標の開発に 進めるのではないでしょうか。\n","date":"2024-03-02T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/breakdown/catcher-drs-rwar-reconsideration/","title":"捕手のDRS,rWARの再考(問題提起)"},{"content":"前置き 捕手のrWARやDRSに対する疑問(文句)を書きたくて、その前説として他サイトとの相違点をまとめていたらダラダラと重い前説になってしまったので分割します。前説としては重いですが指標説明系としては特に深掘りもしていないので軽いです。\n次→捕手のDRS,rWARの再考(問題提起)\n三大データサイトでの捕手の守備評価指標 三大データサイトで主力として扱われている捕手の守備のセイバー指標についてまとめます。\nBaseball-Reference Baseball-Reference(以降BR)ではBaseball Info Solutions(以降BIS)提供のDefensive Runs Saved(以降DRS)の構成要素を個人ページで全て確認できます。\n①P.ベイリー個人ページ(https://www.baseball-reference.com/players/b/bailepa01-field.shtml)\nジャイアンツ期待の新人P.ベイリーの個人ページを例に捕手のDRS部分についてのみ確認します。\nRpm･･･Rair,Rrange,Rthrowの合計(頭文字を取ってARTとも言われる)\nRair･･･明らかにゴロとはみなされない内野フライの処理の評価 Rrange･･･Rairに分類されない打球に対する守備範囲(到達能力)の評価 Rthrow･･･Rairに分類されない打球に到達した後の評価 Rbnt･･･バント処理の評価\nRgood･･･他で評価されない良いプレー、悪いプレーの評価\nRerC･･･インサイドワーク面の評価\nRsbC･･･盗塁抑止、阻止の評価\nRszC･･･フレーミングの評価\nRdrs･･･上記指標(Rpm,Rbnt,Rgood,RerC,RsbC,RszC)の合計\n頭文字にReferenceの？Runの？Rをつけて捕手のみの指標にはCatcherのCを末尾につけているので若干見づらいですが小文字の部分にのみ注目すれば分かりやすいとは思います(pmはプラスマイナスシステム)。\nちなみにブロッキングの評価はRgoodに含まれています。「P.ベイリーは平均的な捕手と比較してフレーミングや盗塁阻止、打球処理やインサイドワーク面で失点を17点減らし、バント処理やブロッキングを主としたその他のプレーで失点を4点増やしたと推定されている」という見方です。\nFanGraphs FanGraphs(以降FG)ではBIS提供のDRSの他にFRMというフレーミング指標を確認できます。\n②P.ベイリー個人ページ(https://www.fangraphs.com/players/patrick-bailey/27478/stats#fielding)\nDRSも確認できますが少し表記に違いがあります(RerCはrCERA=CatcherのERA、RgoodはrGFP=Good Fielding Plays)。打球処理に関わるRpm,Rbntは掲載されていないので合計してもズレが生じる点は注意が必要です。\nまた、同じフレーミング指標でもrSZの11に対してFRMは17.4と差を確認できますが、2019年3月のこの記事通りBISのフレーミング指標は他より偏差が小さくなる算出方法のようです。一応2019~2023シーズンも確認してみましたが相関係数0.93に対し標準偏差は6.6(FRM)と4.8(rSZ)とその傾向は変わっていません。\nBaseball Savant Baseball SavantではMLB Advanced Media提供のStatcastデータから算出した守備指標を捕手では現在4つ確認できます。\n③P.ベイリー個人ページ(https://baseballsavant.mlb.com/savant-player/patrick-bailey-672275?stats=statcast-r-catching-mlb)\n打球処理以外のフレーミング、ブロッキング、盗塁阻止の得点換算指標と平均ポップタイムの4つです。\nBaseball Savantは各指標の詳細まで確認できるのが特徴です。\n上記画像でもポップタイムなら握り替えの時間、フレーミングならコースごとの結果などが確認できますし、リーダーボードの方ではブロッキングのコースごとの結果や盗塁阻止のプレーごとの難易度、当該プレーの動画なども確認できます。\nやっていることは同じ 一つ一つの指標の詳細算出方法をまとめるのはキリがないし、公開されていない部分も多々あるのでやりませんが共通しているのは平均的な捕手との差を推定しているということです。(RerCについては微妙ですが…)\nフレーミングなら様々な側面を考慮した期待ストライク率(数)を算出し、実際のそれと比べ、その差を得点換算するという形。ブロッキングでも盗塁阻止でも同じです。差が出るのは考慮する側面の違いや得点換算の部分や測定方法の違いなどが理由でしょうが、僕個人としては意義のある差だと思っています。投手fWAR vs rWAR、OAA+UZR vs DRSのような違いではないですが。\n三大WAR算出サイトの捕手WAR(守備部分) 次は捕手のWARを構成している守備指標の各サイトの違いをまとめます。\nBaseball Reference BRではDRSをWARの守備評価部分に使っていますが、捕手に関しては注意が必要です。\n④P.ベイリー個人ページ(https://www.baseball-reference.com/players/b/bailepa01.shtml)\nP.ベイリーのDRSは13です(画像①参照)がWARの守備評価部分RfieldとRposのうち、DRS部分であるRfieldでは2となっています。これはフレーミングによる貢献のRszC 11が評価外というのが理由です。捕手についてはDRS - RszCがrWARの構成要素ということです。\nFanGraphs FGはフレーミング指標FRMとDRSの盗塁阻止指標rSB(RsbC)がWARの構成要素です。以前はブロッキング指標Runs on Passed Pitches(RPP)がサイトで確認でき、fWARにも採用されていましたが現在はフレーミングと盗塁阻止のみで捕手の守備を評価しています。\nFGとしてはブロッキング指標を追加する意思はあるのでsavantのブロッキング指標あたりを遡って採用するとかは今後ありそうですかね。\nBaseball Prospectus Baseball Prospectusはインサイドワーク面以外の考慮しうる全ての要素でWARを構成しています。\nP.ベイリー個人ページ(https://www.baseballprospectus.com/player/112687/patrick-bailey/)\nFrmR(フレーミング)、BlkR(ブロッキング)、ThrR(盗塁阻止)が捕手特有の守備評価指標ということでこの3つの合計値がCDA(Catching defense added)としてまとめられています。そしてCDAにその他の打球処理部分の範囲指標RDA Runs(Range defense added - runs)と送球指標のBRR_ARMを足したのが全体の守備評価指標DRP(Deserved runs prevented)で、このDRPがpWARの構成要素となっています。\nまとめると… rWAR fWAR pWAR フレーミング × ○ ○ ブロッキング ○ × ○ 盗塁阻止 ○ ○ ○ 打球処理 ○ × ○ インサイドワーク ○ × × 各WARの違い\nサイトごとの違いをまとめたのが上記の表です。\n例えばフレーミングが苦手のS.ペレスが通算rWAR 33.0に対してfWAR 15.3、pWAR 14.7と大きな差があるのは守備評価部分の構成要素の違いが大きいです。この違いがどの程度有意義な違いかを考えてみたくてnoteを書いていたら重くなったので分割します。\n次はその違いを生み出すRerCについて分かる範囲でいろいろ考えます。\n次→捕手のDRS,rWARの再考(問題提起)\n","date":"2024-02-29T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/breakdown/catcher-defense-metrics-summary/","title":"捕手の守備指標まとめ"},{"content":"「MLBの審判はルーキーに厳しい」という言説をたまに目にします。MLBを見ていなかった時に自分もそのイメージを持っていました。特に野手のストライク・ボール判定でその風潮があるという個人的イメージに基づいて今回は野手を調べます。\nルーキーの誤審率 まずは単純にルーキー群と非ルーキー群の誤審率から。\nyear rookies non-rookies difference 2008 16.1% 15.2% 0.87% 2009 15.1% 14.6% 0.46% 2010 14.4% 13.5% 0.81% 2011 13.6% 13.4% 0.21% 2012 12.8% 12.9% -0.12% 2013 12.0% 12.1% -0.07% 2014 11.7% 11.6% 0.14% 2015 11.3% 11.1% 0.14% 2016 10.5% 10.7% -0.13% 2017 9.8% 9.5% 0.28% 2018 8.7% 8.7% -0.02% 2019 8.5% 8.3% 0.15% 2020 8.6% 8.1% 0.42% 2021 8.2% 7.8% 0.43% 2022 7.4% 7.5% -0.08% 2023 7.4% 7.1% 0.27% ルーキーとルーキー以外の誤審率比較　誤審数/見逃し数\n大きな差はありませんが、ルーキーが誤審を受けやすい傾向はありそうです。打者は500打席でおおよそ1000球見逃しますので、規定打席あたりルーキーは2～3球ほど誤審が多い傾向がある計算になります。\n(誤審の有無によって打者にボール→ストライク、ストライク→ボール以上の影響があるのか、という点も気になりますがパソコンが得意になってから調べます。)\n不利な誤審と有利な誤審 誤審の多さで判定の厳しさは語れないので、不利な誤審(ボールゾーンをストライク判定)と有利な誤審(ストライクゾーンをボール判定)に分類します。\n不利な誤審と有利な誤審とその差のルーキー群と非ルーキー群の比較\n有利な誤審は16年間で3年ほどルーキーの方が多いシーズンがありますが不利な誤審は全てのシーズンでルーキーの方が多くなりました。不利な誤審がより少なく有利な誤審がより多いことが打者にとって優しいことであると考えると、ルーキーへの判定がルーキー以外への判定より優しかったシーズンは2015のみということになります。\nもう少し調べます。\n誤審はどこで発生してるか 一旦MLB全体での誤審について深掘りします。\nまず誤審はどのようなコースで発生しているかという話ですが、これはもちろんストライクゾーンの境界付近です。\nAttack Zones\nAttack ZonesでいうところのShadowですね。ストライクゾーン境界線の左右では内外8.4cm、高低では内外10.2cmがShadowです。境界線からボール1個～1個半といったあたり。\nyear heart shadow chase waste 2008 8.0% 33.8% 5.5% 0.1% 2009 6.3% 32.2% 5.3% 0.1% 2010 4.2% 30.4% 4.7% 0.0% 2011 4.5% 29.6% 4.3% 0.0% 2012 3.5% 29.1% 3.9% 0.0% 2013 2.8% 28.0% 2.8% 0.0% 2014 2.5% 27.1% 2.4% 0.0% 2015 2.2% 26.5% 1.9% 0.0% 2016 2.4% 25.4% 1.6% 0.0% 2017 2.1% 23.1% 1.3% 0.0% 2018 1.5% 21.6% 0.8% 0.0% 2019 1.2% 21.4% 0.7% 0.0% 2020 1.1% 20.8% 0.7% 0.0% 2021 0.8% 19.9% 0.6% 0.1% 2022 0.7% 19.1% 0.4% 0.0% 2023 0.7% 18.2% 0.3% 0.0% Attack Zoneごとの誤審率\nPITCHf/xの登場でストライクゾーンを具体的に定め、具体的なフィードバックができるようになり、年々正規のストライクゾーンに基づいた判定が増えていますがShadowで誤審が発生しやすいというのは共通しています。\nyear heart shadow chase waste 2008 7.5% 81.3% 11.1% 0.1% 2009 6.3% 82.2% 11.4% 0.1% 2010 4.5% 84.5% 11.0% 0.0% 2011 5.0% 84.8% 10.2% 0.0% 2012 4.1% 86.3% 9.6% 0.0% 2013 3.5% 89.2% 7.3% 0.0% 2014 3.1% 90.3% 6.6% 0.0% 2015 2.8% 91.5% 5.7% 0.0% 2016 3.1% 92.1% 4.8% 0.0% 2017 2.9% 92.6% 4.5% 0.0% 2018 2.2% 94.6% 3.1% 0.0% 2019 1.8% 95.3% 2.9% 0.0% 2020 1.7% 95.4% 2.9% 0.0% 2021 1.4% 96.0% 2.5% 0.1% 2022 1.2% 96.8% 2.0% 0.0% 2023 1.4% 97.0% 1.6% 0.0% 誤審の発生シェア\n審判が正しいストライクゾーンを運用している近年は特に誤審の殆どがShadowで発生しているので、ここに着目します。Shadowでいかにストライクをとられるかどうかが判定の厳しさ・優しさの指標になるでしょう。\nCatcher FramingのStrike RateもShadowの話です(シーガーは3年連続1位)\nStatcast Catcher Framing Leaderboard - Baseball Savant ルーキーのShadowのストライク率 ルーキーはルーキー以外より不利な誤審が多いのでやはりShadowのストライク判定率も高くなっています。\nyear rookies non-rookies difference 2008 43.9% 43.2% 0.66% 2009 43.7% 43.5% 0.22% 2010 45.9% 44.8% 1.12% 2011 45.7% 44.0% 1.68% 2012 45.6% 44.8% 0.83% 2013 46.4% 45.6% 0.78% 2014 48.2% 47.0% 1.17% 2015 46.6% 46.6% 0.03% 2016 46.8% 45.9% 0.92% 2017 47.4% 47.0% 0.43% 2018 47.8% 47.4% 0.45% 2019 49.7% 48.5% 1.18% 2020 51.3% 48.5% 2.80% 2021 49.4% 47.8% 1.64% 2022 48.3% 47.1% 1.20% 2023 46.7% 46.2% 0.51% 見逃しShadowのストライク率\n全てのシーズンでルーキーの方がストライク判定されやすいという結果になりました。500打席で400ほどの見逃しShadowがあるので規定打席あたり4球ほどShadowのストライク判定が多くなる計算です。\nShadow内の格差 ここからがやりたかったことですが、ボール2~3個ほどのShadowにおいてもストライク判定されやすいコース、カウント等があります。\nyear shadow-in shadow-out 2008 60.2% 28.8% 2009 62.2% 27.4% 2010 65.6% 26.8% 2011 65.8% 25.7% 2012 67.0% 25.8% 2013 69.2% 25.6% 2014 71.7% 26.1% 2015 72.3% 25.5% 2016 72.5% 23.7% 2017 77.0% 23.2% 2018 79.0% 22.1% 2019 80.7% 23.1% 2020 81.3% 22.5% 2021 81.9% 21.2% 2022 81.7% 19.6% 2023 81.5% 17.9% Shadow-in,Shadow-outでのストライク判定率比較(MLB全体)\n先ほど触れた通りShadowはストライクゾーン境界線の内外8.4~10.2cmの範囲ですが、境界の内側のストライクの範囲をShadow-in、境界の外側のボールの範囲をShadow-outと表現します。当然といえば当然ですがShadow-inとShadow-outではストライク判定率が大きく違います。素晴らしいところはShadowという判定の難しいコースでも毎年判定の正確さが向上しているところです。審判も人間の限界に近づいているんです。\n話が逸れましたがShadowでもストライクゾーンの内外でストライク率が違うということは、Shadow-in(ストライク)を打ちにいってShadow-out(ボール)を見逃す打者とShadow-in(ストライク)を見逃してShadow-out(ボール)を打ちにいく打者ではストライク判定率が大きく変わるということです。\nこの選球が凄いのがコーリー・シーガー。彼はShadowのストライク判定率が断トツで低い打者ですがこの要素が貢献している部分も大きいです。\nカウント内の格差 次にストライク判定されやすいカウントです。これは体感でも十分感じられると思いますが3-0と0-2では同じようなコースでも圧倒的にストライク判定率が変わります。\nカウント別のストライク判定率(Shadow)\nただこれはShadow-in,Shadow-outで差別化していないのでそれも考慮してみます。\nShadow-inでのカウント別ストライク判定率\nShadow-inなのでストライク判定するべきコースですが0-2では近年でも60%強しかストライク判定されません。3-0では90%以上ストライク判定できていることを鑑みると大きな違いです。まとめると、近年ほど正確に判定はできているが近年においても打者有利カウントと投手有利カウントでは大きなバイアスが生じているというところでしょうか。\nShadow-outでのカウント別ストライク判定率\n次はボール判定するべきShadow-outですが、0-2では90%以上をボール判定できても3-0では30%ほどはストライク判定してしまっています。Shadow-outでも同様に、近年ほど正確に判定できてはいるがカウントによるバイアスは抜けていないという結果です。\nこれらを考慮してルーキーの期待ストライク率を算出してみます。\nShadow-inのカウントごとの見逃し数\nShadow-outのカウントごとの見逃し数\nカウントの組み合わせが12通り、inとoutで24通り、とりあえずこれらの24パターンそれぞれで平均的なストライク率を獲得した場合のルーキーのストライク判定率(Shadow)を計算して実際のそれと比較します。\n期待ストライク率との差 year xstrike rate strike rate strike rate above expected 2008 42.9% 43.9% 0.99% 2009 43.7% 43.7% 0.04% 2010 44.9% 45.9% 1.07% 2011 44.3% 45.7% 1.39% 2012 45.1% 45.6% 0.57% 2013 45.7% 46.4% 0.72% 2014 47.5% 48.2% 0.64% 2015 46.5% 46.6% 0.15% 2016 45.7% 46.8% 1.11% 2017 46.8% 47.4% 0.67% 2018 47.3% 47.8% 0.54% 2019 48.6% 49.7% 1.11% 2020 48.4% 51.3% 2.90% 2021 48.0% 49.4% 1.46% 2022 47.1% 48.3% 1.23% 2023 45.8% 46.7% 0.88% 全シーズン実際のストライク率が上回りました\nカウントとコースを考慮しても全シーズンルーキーは想定より多くストライク判定を受けていました。正直無駄骨だったなと思いましたが、ルーキーが選球やカウントで特別ストライク判定を受けやすい状況になっているわけではない可能性が一つ高まりました。\n現時点での結論 とりあえず「MLB審判がルーキーに厳しい」可能性は高そうです。ただ、「ルーキーだから審判に厳しくされている」可能性はまだまだ全然高くないです。例えばNPBと同じように打順(≒打者の打力？)によるバイアスが働いていた場合、基本的にwRC+90前後を記録するルーキー群はその被害に遭いますがその場合は『ルーキー』ではなく『打力』差別を受けているわけです。\n球審の判定バイアスの研究Part3 〜打順編〜 - 1.02 また気が向いた時にMLB全体の判定バイアスの被害属性と『ルーキー』属性との共通点を探ろうと思いますがググったら有識者達がとっくに調べてそうですね。\n","date":"2024-02-21T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/analysis/mlb-umpire-rookie-bias/","title":"MLBの審判は本当にルーキーに厳しいのか"},{"content":"2023年に主にセカンドを守ったキム・ハソンとショートを守ったサンダー・ボガーツが2024年は守備位置を交代するようです。ハソンの方が守備が上手いという前提なら、野球のセオリーに基づいた至極真っ当な判断ですが実際チーム内で守備位置を交代しただけでどの程度失点を減らせるんでしょうか。\nハソンの方が守備が上手い(=アウトを多く取る)と仮定した場合、ボガーツと守備位置を交代したら確かにショートが取るアウトは増えます。しかしセカンドが取るアウトは減ります。この差がプラスになれば、つまりショートの守備機会がセカンドより多ければ守備位置交代は吉と出ます。\nということで2023年のショートとセカンドの守備機会の差を見てみましょう。守備機会と言ってもOAAの算出にあたって副次的に算出されている「Attempts」というスタッツで、選手の能力によって左右されることのないであろう守備機会です。\nteam ss 2b ss-2b wsh 694 552 142 oak 676 535 141 tex 712 608 104 hou 642 543 99 mia 631 534 97 tb 666 580 86 cin 613 538 75 laa 621 554 67 nym 580 518 62 sd 625 586 39 phi 688 649 39 lad 613 578 35 bal 619 587 32 kc 628 602 26 bos 607 589 18 chc 661 644 17 stl 644 628 16 nyy 575 562 13 mil 588 579 9 det 625 616 9 tor 540 539 1 col 627 628 -1 pit 555 557 -2 min 572 581 -9 sea 594 618 -24 atl 573 604 -31 ari 656 690 -34 sf 602 651 -49 cle 598 650 -52 cws 549 634 -85 平均 619 591 28 打者は右打者の方が多く(2023年右打席割合は59％)、左右限らず逆方向へのゴロは少ない(ゴロのうち逆方向なのは12%)のでショートの方が守備機会は多くなるんですが、2023年の実際の比は51:49なので思ったより少ないです。\nこれはサードとファーストの違いが大きく関わっています(lineup_positionなのでSS分類と2B分類の範囲の違いじゃないですよ)。サードは殆どの状況で打球処理に最適な守備位置につけますがファーストは牽制球に備えるために打球処理には不適切な守備位置につかざるをえませんし牽制がない状況でも送球に備えた守備位置になる頻度はサードよりも多いです。\n長ったらしく書きましたが要するにサードはショートの打球も捌いているがファーストはセカンドの打球をほぼ捌いていないということです。\n例えばこのハソンのOAA内訳。Lineup Positionの方を見れば3Bとして88回、SSとして60回守備機会があったことが分かりますがField Locationの方を見れば3Bの位置では83回SSの位置では65回の守備機会があったことが分かります。下記の画像を見れば分かりやすいですが3Bとして出場しているときにSSの範囲で守備機会が5回あったということです。シフト規制がされた今季でもこのパターンは見られますが1Bが2Bの範囲に入ることは相当稀でした。\nshiftがなくなって次はshadeですね\n話を戻します。そんなこんなでシフトがなくなった2023年以降はショートとセカンドでさほど守備機会が変わらない時代が(戻って？)きたのかもしれません。参考までにOAAの算出対象\u0026amp;シフト全盛の2016~2022年の守備機会(Attempts)が下記の表です。\nteam ss 2b ss-2b oak 4310 3557 753 tex 4369 3752 617 bos 3993 3376 617 sd 4086 3487 599 sf 4230 3633 597 chc 4256 3718 538 tb 4061 3529 532 sea 3992 3460 532 ari 4036 3507 529 wsh 4082 3561 521 hou 3964 3448 516 det 4207 3703 504 lad 4118 3623 495 mil 4079 3586 493 cws 4106 3631 475 nym 3811 3344 467 kc 4288 3853 435 tor 4069 3656 413 min 3974 3598 376 bal 4173 3803 370 nyy 3898 3531 367 mia 3863 3507 356 laa 3905 3551 354 atl 4046 3711 335 phi 4039 3711 328 cle 3873 3586 287 cin 3813 3526 287 pit 3833 3649 184 stl 4012 3916 96 col 4014 3970 44 平均 4050 3616 434 シーズン換算 636 568 68 シーズン換算ではちゃんと短縮シーズン補正もしてます\n2023はショートとセカンドの差が28だったのに対しシフトのあった2016~2022では68となっています(SSと2Bの総量に変化はありません)。たまたまの可能性があるのかもしれませんが、自由に守れるときとそうでないときを比べると自由に守れるときの方がショート≒一番守備が上手い人の守備機会を多くしやすいのは何らおかしいことではないと思いますね。\n2023年を参考にするならSSと2Bの守備位置を交換したときの恩恵は、ポジション補正をした(元セカンドのアウト確率ー元ショートのアウト確率)*28で増えるアウトの量が予想できます。ただこのポジション補正が厄介ですしポジション適正や打球分布やランダムバリエーションの範囲等のガチ予想はなかなかに骨が折れます。\nということで概算です。\n2021~2023　キム・ハソン\n2021~2023　サンダー・ボガーツ\n守備能力比較は最低限Field Locationは揃えるべきなのでサンプルが一番大きいSSでの比較をします。\nハソンは648Attemptsで7.5 - 8.499… = +750% - +849%稼いでいるので1Attemptあたり1.16% - 1.31%の追加アウト確率が期待できます。\nボガーツは1461Attemptsで-750% - -849%稼いでいるので1Attemptあたり-0.51% - -0.58%の追加アウト確率が期待できます。\n2Bでの結果も参照していいかなと思いましたが、227Attemptsは弱いので迷いどころ。\nSSでの成績をもとに二人の差を予想するとハソンはボガーツより1.67 - 1.89％ほどアウト確率が高いと考えられます。2023年のセカンドとショートの守備機会の差は28でしたので増えるアウトは0.47 - 0.53個ほどとなります。失点換算するなら0.35~0.40点ほどですね。\nハソンとボガーツの年齢を考えると来年さらに守備能力の差が広がる可能性は十分ありますし、パドレスのSS-2Bの守備機会が多くなる可能性もあります。ボガーツがセカンド適正が高くハソンがショート適正が高い可能性も(上記のOAA詳細を参考にすれば)十二分にあります。ただそれでも大した量にはならないでしょう。\nSS-2Bの守備機会の差を100、アウト確率の差を6%と相当大きく見積もっても増えるアウトは6つです。まあ、失点が5点減るなら貯金が1つ増えると考えたら大きいと思えるかもしれません。ただ最大レベルでこれなのでSSと2Bのスイッチは適正を慎重に考慮することは必要かなと思います。\nダラダラ書いてしまいましたが調べてて面白いなと思ったことは、ショートとセカンドの守備位置交代ではそんな恩恵は受けられないではなく、シフト規制によって守備が一番上手い人の守備貢献量が抑えられる可能性が高いというシフトを効果的に利用していたら当たり前になる事実が確認できたことですね。\n","date":"2024-02-20T00:00:00Z","permalink":"https://ghl-ball.github.io/solving-baseball/analysis/ss-2b-switch/","title":"二遊間の入れ替えについて"}]