筒香選手(2018ver.)はチャンスに弱いの?pythonで統計分析をしてみよう!

スポーツ

プロ野球のデータを楽しもう!

全国のプロ野球好きのみなさんこんにちは。

広島・西武ファンの皆さん、優勝おめでとうございます。

Aクラス球団のファンのみなさん、クライマックスシリーズの応援に熱が入りますね。

好きな球団が強いことは羨ましい限りです。

さて、本記事では今年のプロ野球のペナントレースの成績を使って、ちょっとした統計分析をしてみましょう。

得点圏打率とそうでないときの打率を見比べて、各々の選手はチャンスに強いのか、弱いのか、それともどちらでもないのかを調べてみます。

それを通じて、統計分析の結果と自分の直観・経験と見比べてみましょう。

こんなルールで比較するよ

データで楽しむプロ野球(http://baseballdata.jp/)の打撃成績の記録を利用します。

”得点圏打率 < 打率”だったら少なくとも実績上はチャンスに弱いのですが、得点圏での打数は少ないために下振れしている可能性も十分にあります。その逆もしかり。

そこで、それぞれの選手の得点圏・非得点圏の打数・安打数を元に、フィッシャーの正確確率検定を行います。

有意水準αをα=0.05 と定め、これを下回った場合に有意であるとし、「この選手はチャンスに強い(弱い)」と言うことにします。

始める前に、予想してみよう!

どれくらいの選手がチャンスに強いと判定されそう?

プロ野球選手が何人いるかわからない場合は、ざっくりで予想してみましょう。全体の何パーセントがチャンスに強くて、何パーセントがチャンスに弱い、くらいを予測して楽んでみてください。

筒香がチャンスに弱かったのはたまたま?それとも本当に?

横浜DeNAベイスターズの手法である筒香嘉智選手はチャンスに強いと評判でした。

ところが、今年はシーズン打率.295に対して得点圏打率.237と、芳しくない結果に終わりました。(プロ野球 – 横浜DeNAベイスターズ – 筒香 嘉智 – スポーツナビ

この記録を元に統計検定を行ったとき、「筒香選手はチャンスに弱い」と言えるか否か、予想してみましょう。

それ以外にも思い思いの好きな選手(野手)のことを思い浮かべながら、一年間どうだったかを思い出してみましょう。

さて、分析結果は?

予想は済みましたか?全選手のうち、p値が小さい選手の順に並べると以下のようになります。

有意差があると判定されるのはp値が0.05を下回った3選手だけであり、

「植田選手はチャンスに弱い」

「高田選手と(タイガースの)秋山選手はチャンスに強い」

「その他の選手はどちらとも言えない」

ということがわかりました。

筒香選手のp値は0.258052だったので、チャンスに弱いとは言えないことになります。分析に用いたスクリプトはこちらにあります。

ここで、次のような感想が思い浮かびます。つまり、

3人しか該当しないのは少なすぎるのでは?

ということです。

まず、選手は”真の打率”というパラメータを持つと仮定し、それぞれの打席の結果は”真の打率”を元にした確率現象だと捉えます。

さらに、”得点圏での真の打率”と”非得点圏での真の打率”が等しいと仮定します。

その上で、今年と同じだけ打席が与えられたとき、今年のような成績の偏りになる確率は何パーセントかを計算します。

その計算結果がp値で、このような統計のしかたを仮説検定と呼ぶのでした。

有意水準が5%なので、これはチャンスでも打率が変わらないはずの選手を誤ってチャンスに強い(弱い)と判断してしまう確率を5パーセント以下にしよう、ということを述べています。

したがって有意水準5%は「95%以上の確率でこの選手はチャンスに強い」という意味ではないので、勘違いしないように注意しましょう。

統計を用いた推論は落とし穴があるので気をつけたいところです。

さらにもう1つ、野球はチャンスではバッターが有利であるか、を1年間のデータから検証しましょう。

一般に、チャンスでは打者がそうでないときと比べて有利とされています。例えば、

  • 前進守備によるヒットゾーンの拡大
  • ピンチによるピッチャーへのプレッシャー
  • 勝ち試合・ビッグイニングでは得点圏にランナーがいることが多い

などの理由があり、経験的にも正しそうに思えます。

実際に、NPB(セ・パ合算)の打率0.253に対して、得点圏打率は0.264でした。

選手一人ひとりの打席では有意差が出にくかったのに対して、全選手を集めれば十分なサンプルサイズが得られているような気もします。

しかしながらこれでも有意差は得られません。

まとめ

  • 筒香が打てなかったのはたまたまだった可能性が十分ある
  • 「得点圏では打者が有利」という尤もらしい仮説ですら、統計的に肯定するには沢山の試行が必要
  • 選手の価値は潜在的なパラメータでなく、実績から決めるべきかもしれない

コードはhttps://github.com/wakabame/baseball_sci_scripts/blob/master/RISP_BA.ipynbにあるので、興味のあるデータに適応してみてください。

それでは、クライマックスシリーズをお楽しみください。

The following two tabs change content below.

わかばめ

サイエンスが好き。 数理の力を役立たせる場面がないかと色々と画策中。最近は計算機アルゴリズムの実装に興味があります。

コメント