2008/04/27

RBI Estimation (1)

有時候也會想算一些沒什麼意義的數據。

一直到現在打點都還被相當多的棒球界人士認為是打者-至少是中心打者-最重要的數據。不過對Sabermetrics有點研究的人都會知道RBI並不是個獨立數據,它和打者前段棒次的成績關連不小,兩個相同成績的打者在不同的打線中,前段棒次比較會上壘的那個理所當然會有較多的打點機會,也因此光用打點做為判斷打者的標準是不大公正的。

那如果將所有打者都放到一個聯盟平均的打線中,他們可以打出幾分打點呢?我們倒是可以嘗試著算算看這個數據。

首先要調查所有打者打擊時壘上跑者的狀況分佈,我們從Baseball-Reference找來2007年的split stats,整理成下表(為了編輯方便轉了90度):

Split

000

100

020

003

120

103

023

123

PA1028423416616781562813880603642974993
RBI28122727291919413381268022153582
1B162015812246589520861022607797
2B51091699771251634298185250
3B532148932661291930
HR281294436710436013898134
BB7804237023167911072506869351
HBP87931916368144754958
SF0003170433275416
SH0882266193175330
SO18097538927569432464974685881
GO*28661974843771422393616699951389
*GO為估計值

根據打擊結果的不同,打者的打點數應該如下:

  • 3B:壘上幾個跑者就幾分打點
  • HR:跑者數+1
  • BB,HBP:只有在滿壘情況時有一分打點
  • SF:只會出現在三壘有人時(一二壘不論),一分打點
  • SO:不會有打點
  • AO:如果有打點就會記成SF,其他的AO不會有打點

而比較不確定的有以下四者:

  • 1B:三壘跑者一定回得來,二壘跑者不確定,一壘跑者回不來
  • 2B:二三壘跑者一定回得來,一壘跑者不確定
  • GO:三壘跑者要是跑回來,也有一分打點
  • SH:在003023123時會有一分打點,然而發生在103時不確定

先將確定的部份所產生的RBI填上,RBI'為確定部份產生的RBI總數,RBI"為與RBI'實際RBI的差距,也就是不確定的部份該補上的產出

Split

000

100

020

003

120

103

023

123

RBI28122727291919413381268022153582
1B/RBI16201/00005812/00002465/????895/08952086/????1022/1022607/????797/????
2B/RBI5109/00001699/????771/0771251/0251634/????298/????185/0370250/????
3B/RBI532/0000148/014893/009326/002661/012229/005819/003830/0090
HR/RBI2812/2812944/1888367/0734104/0208360/1080138/041498/0294134/0536
BB/RBI7804/00002370/00002316/0000791/00001072/0000506/0000869/0000351/0351
HBP/RBI879/0000319/0000163/000068/0000144/000075/000049/000058/0058
SF/RBI0/00000/00000/0000317/03170/0000433/0433275/0275416/0416
SH/RBI0/0000882/0000266/000019/0019317/000053/????3/00030/0000
GO/RBI28661/00009748/00004377/00001422/????3936/00001669/????995/????1389/????
RBI'2812203615981716120219279801451
RBI"06911321225217975312352131

先做一些簡單的計算,由上表可以看出,在100時不足的691分打點,應該就是由1699支二壘安打打回來的數目,因此可以推出此時一壘跑者回來得分的比例為691/1699=40.7%;同理在020時一壘安打打回二壘跑者的比例為53.6%,在003情況下,跑者靠GO跑回來的比例為15.8%。

我們首先假設,在壘上有二個以上的跑者時,跑者額外進壘回來得分的比例沒有改變,將資料填回上表,結果變成了這樣:

Split

000

100

020

003

120

103

023

123

RBI28122727291919413381268022153582
1B/RBI16201/00005812/00002465/1321895/08952086/11181022/1022607/0932797/1224
2B/RBI5109/00001699/0691771/0771251/0251634/0892298/0419185/0370250/0602
3B/RBI532/0000148/014893/009326/002661/012229/005819/003830/0090
HR/RBI2812/2812944/1888367/0734104/0208360/1080138/041498/0294134/0536
BB/RBI7804/00002370/00002316/0000791/00001072/0000506/0000869/0000351/0351
HBP/RBI879/0000319/0000163/000068/0000144/000075/000049/000058/0058
SF/RBI0/00000/00000/0000317/03170/0000433/0433275/0275416/0416
SH/RBI0/0000882/0000266/000019/0019317/000053/????3/00030/0000
GO/RBI28661/00009748/00004377/00001422/02253936/00001669/0264995/01581389/0220
RBI'28122727291919413212261020703497
RBI"00001697014585

結果我們發現,當壘上有兩個以上跑者時,計算出來的RBI數低於實際值,顯示跑者額外進壘的比例在這些狀況下提高了。這倒是符合我們的常識,當壘上跑者不只一人時,守備方選擇放棄本壘而阻止其他壘上跑者的機會提高,跑者靠額外進壘回來得分的機率也就上升。

再仔細一想,會發現這個表並沒有考慮到盜壘的影響,以100的狀況來說,一壘跑者在這種狀況下盜壘成功了2195次,這2195個打席事實上應該算做020才對。而盜壘失敗的812個打席,則應該當成000來看。

這裡有一個奇怪的地方,列在100的SB指的顯然是從一壘盜上二壘(總不可能從本壘盜到一壘),那麼020的SB自然也是指從二壘盜上三壘,然而在223次盜壘成功,已經變成三壘有人的打席中,竟然沒有出現任何SF?(由003的split stat來看,SF出現的比率大約是5.6%,223個打席應該要出現約12.6次。)甚至在2006年也沒有SF紀錄,2005和2004僅各有1支。

先不管這個詭異的現象,仍然有其他關於盜壘的問題,當壘上跑者只有一人的100020003時,盜壘一定是由唯一的跑者發動,盜壘後的情況也很容易判斷;而123023分別只出現1次和2次CS,我們可以假設都是死三壘上的跑者,就算猜錯影響也可以忽略;問題在於120103的情況,無法確實判斷盜壘後的壘上狀況,在沒有其他數據的情況下,這個部份只好先用估計的了。

(待續...)


相關文章

  • RBI Estimation (2)
  • RBI Estimation (3)
  • 3 則留言:

    1. 個人看了一下那個 split,也很快的想了一下:

      如果考慮 RISP 的 PAs,也就是 51615,它是 'Men On' 減 '1--',而 '-2-' + '--3' + '12-' + '1-3' + '-23' + '123' 也正好是 51615,所以這幾個 categories 是 disjoint 的。

      至於 'Men On' 的 RBI 與 RISP + '1--' 的 RBI 也相符,moreover,RISP 的 RBI 也等於 '-2-' + '--3' + '12-' + '1-3' + '-23' + '123' 的 RBI,所以這些 RBI 也是 disjoint 的,這和 RE Matrix 的那種 expected value 的算法不一樣。

      換句話說,如果考慮的是 '-2-' 的 SB,接下來 SH 的 RBI 應該是計在 '--3' 的 category,否則 '-2-' 與 '--3' 的 RBI 會有重疊的部份。更具體一點:state 已經 transited -- 由 '-2-' 成為 '--3'。

      所以對個人來說,比較奇怪的反而是 05 與 04 年在 '-2-' 的情況下所發生的各 1 支 SF,這不是個該發生的情況,至少在個人看來是這樣,我想可能只有 trace Retrosheet 才能解決這個疑問。

      另一個在原連結上符號不太好看的部份是 '--3, lt 2out' 與 '--3, 2out' 的部份,這兩個 disjoint 的 categories 所表現出的 PA 總數其實是所有 "Men on 且 3B 有人" 的 PA 總數,也就是 '--3' + '1-3' + '-23' + '123' 的 PAs,它的表示法讓人一瞬間以為只有考慮 '--3'。

      不曉得個人講得是否正確,等你的檢驗與解釋了。

      回覆刪除
    2. 既然四年下來只有3支三壘無人時的SF(2004年120時有一支) 這問題有個很簡單的解釋:
      有人打出外野飛球出局讓二壘跑者跑兩個壘回來得分 這在理論上是有可能發生的

      只找了2004年在020時的那一支SF 是PIT的Ward在6/2打的 這是那一場的Gamelog:
      http://www.baseball-reference.com/boxes/PIT/PIT200406020.shtml
      深遠中外野飛球被接殺 Kendall從二壘上跑兩個壘回來得分

      回覆刪除
    3. 看了Gamelog的格式大概了解了狀況
      以這一場的第一局為例:
      http://www.baseball-reference.com/boxes/WAS/WAS200704020.shtml
      Ramirez在020時盜盜壘 所以這盜壘會記在020的狀態
      成功後狀態轉為003 Cabrera被保送是在這個狀態的是 所以PA和BB等會記在003的狀態

      這樣結論好像是估RBI時不用考慮盜壘的影響 XD

      回覆刪除

    Powered By Blogger