2007/11/10

Pitching stats across the years

05 & 06 K/PA

06 & 07 K/PA

05 & 06 BB/PA

06 & 07 BB/PA

05 & 06 G/F

06 & 07 G/F

05 & 06 HR%

06 & 07 HR%

05 & 06 BABIP

06 & 07 BABIP

數據人人會算,每個人也都可以用基本的統計資料發明自己的數據公式,但是哪些數據是有意義的,哪些又是無用的數據呢?

就我來說,有意義的數據是選手有辦法維持的數據,也就是同一個選手在年與年之間,不容易出現無理由的大幅變動的數據。當然此數據必須對比賽有影響力(比方說球員的肝功能指數雖然在年與年間有很強的關聯性,不過跟棒球比賽沒有直接關係。)一方面,我們使用數據常常是用於預測未來的成績,無法保持的數據對於預測根本沒有使用價值;另一方面,選手沒有辦法維持的數據,很難令人信服是選手自身的能力。

有現代棒球觀念的人會說勝投和打點是意義不大的數據,因為受隊友的影響成份過大;得點圈打擊率(精確來說應該講RISP BA和BA的差距)和投手的BABIP也沒什麼意義,因為統計資料顯示選手沒辦法長期保持這項數據。

找了2006和2007年都投了100局以上的88位投手,和2005及2006年都超過100局的102位投手的成績,做了以上幾張圖。

其中G/F是根據ESPN的資料,HR%=HR/(AB-K),然後將各數據做個簡單的標準化。

橫軸是前一年的數據,縱軸是隔年的數據,如果每個選手都能複製前一年的成績,那所有的點都會落在一條斜率為1的直線上。在每張圖上都有一條趨勢線,如果大部份的點都落在線的附近,代表我們可以根據前一年的數據去預測隔年選手這一項目的成績,相反的若是很多點都離趨勢線很遠,就表示這項數據年與年之間的關聯性不大。

R-square是一個可以將上述的關聯性量化的數值,它代表這條趨勢線對資料的解釋程度有多大,最大值是1,代表所有點都在趨勢線上,最小值是0,代表這條趨勢線完全沒有意義。以下是各數據R-square的值:

R-square
05&0606&07
K/PA0.6720.586
BB/PA0.5830.386
G/F0.7980.814
HR%0.0960.131
BABIP0.0640.061
沒有做球場效應和其他的校正,而且取樣也是有問題的(連續兩年投球局數破百這個條件,事實上就是排除了特定族群的資料。),但是由於差距很明顯,我們就先直接下個簡單的結論吧:

在這五項數據中,投手對於滾飛比有最強的控制力,可以年年投出相近的滾飛比;三振率和四壞球率有不錯的穩定性,不易出現大幅的變動;至於TTO之一的全壘打率,雖然和野手守備沒有任何關係,可是投手並沒有辦法維持這項數據的穩定(打者顯然可以,所以一顆球被打出去會不會變成全壘打,打者的因素應該佔了極大的部份);BABIP和HR%對於隔年的成績沒什麼參考價值,前一年數值高的投手和數值低的,隔年的成績分佈幾乎沒什麼差別,這和前三項數據的情況是差別很大的。簡而言之,這兩項數據就是所謂的「運氣」-選手本身無法掌控的數字。

6 則留言:

  1. 我看不到圖耶? 是只有我有這問題嗎?

    回覆刪除
  2. 系上server掛了而已 看不見是正常的 XD

    回覆刪除
  3. 先丟到Picasa吧 有興趣的人可以先點進去看看 雖然沒有排版....
    http://picasaweb.google.com/Ayukawayen/Temp

    回覆刪除
  4. 也不能投球給你打了 @_@

    回覆刪除
  5. 都OK了

    小貼紙也有小改版 加了R RBI SB CS等等
    近期開放註冊申請 XD (會有人想要嗎? XD)

    回覆刪除
  6. 申請了也能弄自己的投打成績?

    回覆刪除

Powered By Blogger