データの加工整理に潜む罠について、少し珍しい誤謬があったので自戒も込めて紹介します。
MLBにおける得点環境の変動について考察する上記の記事ですが、決定的なミスが存在します。
文中では主論を導くためのデータとして、恐らくBaseball Savantから取得した「打球分類ごとの得点確率や発生イベント確率の推移」を使用しています。

FB(上)、LD(下)について1B、2B、3Bの確率推移を調べています
この記事における主論は外野守備の向上が得点環境に無視できない影響を与えていることですので、グルーピング自体はミスではありません。 ただ、推移を見る以上、大前提としてそのグルーピングの定義が統一されていることが必要です。
-
上記の記事はそのグルーピングの変遷について疑義を投げかけています。

三社のリーグ打球種類割合変遷
この記事にある上記画像のように、FangGraphs(BIS)とBaseball Reference、Baseball Savantでは打球分類に差異が生じます。 問題となるのはその変遷で、BISに対して他二社は2013年に突飛的な変化が観測できます。2013年にリーグ全体として急激なLD率の上昇が真の意味で存在したのでしょうか。
もちろん、大きなルール変更等によってこのようなリーグ環境が突飛的に変化することはありますが(ピッチクロックに伴う規定によって盗塁企図や成功率の突飛的な変化が近年の代表例)、2013年にLDが増えるルール変更は起きていないはずです。 という前提と他社との比較衡量の結果、上記記事に賛同し、2013年にFBの一部がLDに分類される定義変更が起こっていると考えています(公式の見解がないのでこの温度感ですが)。
この定義変更を考慮せずにその分類内の指標の年度推移を利用すると今回のような誤謬が生じます。
以前にはFBと分類されていたLDと比較すると価値の低い打球がLDに分類されることでLDの価値が突飛的に下がり、よりLDに近いFBがFBと分類されなくなりFBの価値も突飛的に下がります。
今回の例ほど極端な問題は引き起こしませんが、NPBにおける投手の速球の平均球速推移は定期的に話題に上がります。ただその定義は年度を跨いで統一されていません。スピードガンからトラックマン、ホークアイといった測定機器の変遷はもちろん、スピードガンの中でも時期によってその調整が異なる場合がありますし、もしかしたら球種分類も速球と変化球の境目が年度によって変遷しているかもしれません