機器學習競賽分享：通用的團隊競技類的資料分析挖掘方法

阿新 • • 發佈：2020-01-21

前言

該篇分享來源於NFL競賽官方的R語言版本，我做的主要是翻譯為Python版本；
分享中用到的技巧、構建的特徵、展示資料的方式都可以應用到其他領域，比如籃球、足球、LOL、雙人羽毛球等等，只要是團隊競技，都可以從中獲益；
分享基於kaggle上的NFL大資料碗，也就是基於橄欖球；
泰森多邊形的概念最好可以去了解一下，可以不用糾結於公式，看看它對一些實際問題的抽象建模表示即可；

分享目的

言簡意賅的分享下在團隊競技類問題中一些有用的資料視覺化、分析方法，不同的領域下對資料的處理確實千差萬別，每次遇到都深感自己的不足，幸好有各位大佬們的分享，跪謝；

分享目錄

使用matplotlib對比賽實況進行繪製，直觀理解某一時刻下的球場狀態；

使用泰森多邊形視覺化各個球員的控制區域，藉以理解、量化當前的形勢；
結合球員們的當前位置、速度、加速度、方向等資訊繪製行進路線圖，視覺化在N秒後的狀態；
分享一篇去年關於足球球員控制區域熱圖相關的論文中的資訊，這部分沒有在專案裡，大家感興趣可以看看這裡；

競賽連結

https://www.kaggle.com/c/nfl-big-data-bowl-2020

專案連結，該專案程式碼已經public，大家可以copy下來直接執行

https://www.kaggle.com/holoong9291/nfl-tracking-wrangling-voronoi-and-sonars-python

github倉庫連結，更多做的過程中的一些思考、問題等可以在我的github中看到

https://github.com/NemoHoHaloAi/Competition/tree/master/kaggle/Top61%25-0.01404-zzz-NFL-Big-Data-Bowl

一些橄欖球相關的基本概念

美式足球：進攻方目的是通過跑動、傳球等儘快抵達對方半場，也就是達陣，而防守方的目的則是相反，盡全力去阻止對方的前進以及儘可能斷球；
球場長120碼(109.728米），寬53碼（48.768米），周長是361.992米；
球員：雙方場上共22人，進攻方11人，防守方11人，進攻方持球；
進攻機會：進攻方共有四次機會，需要推進至少十碼；
進攻方：進攻方的職責是通過四次機會，儘可能的向前推進10碼或者達陣，以獲得下一個四次機會，否則就需要交出球權；

防守方：防守方則是相反，儘可能的阻止對方前進，如果能夠斷球那更好，直接球權交換；
handoff：傳球；
snap：發球；
橄欖球基本知識點我瞭解；
QB：四分衛，通常是發球後接球的那個人，一般口袋陣的中心，但是也不乏有像拉馬爾-傑克遜這樣的跑傳結合的QB，目前古典QB代表是新英格蘭愛國者NE的湯姆-布雷迪；
RB：跑衛，通常發球後進行衝刺、擺脫等，試圖接住本方QB的傳球后儘可能遠的衝刺；

分享正式開始

繪製比賽實況

繪製的必要性：想象這樣一種情況，我們拿到的都是比賽方的表格資料，不僅枯燥，而且不夠直觀，即便我們足夠了解橄欖球，依然無法通過資料感受到場上緊張的氛圍，進攻方的戰術安排，防守方的防守計劃等等，而這些實際上都是隱藏在資料中的，這就好像是玩LOL或者Dota(我個人兩個都玩過，目前主要玩Dota)，我給你十個英雄的座標、移動速度、朝向、裝備，你很難理解當前的情況，但是如果看看遊戲中的小地圖(假設小地圖能看到全部10個英雄)，我相信大部分玩家都能看出當前是在爭奪肉山(搶大龍)、上高地、團戰、區域性團戰等，因此繪製一個類似遊戲中的小地圖是非常有用的，會幫助我們更深刻的瞭解比賽；

繪製程式碼思路：

區分進攻方和防守方，進攻方為紅色，防守方為綠色（因為進攻方和防守方會交替，所以進攻方可能是球隊A可能是球隊B）；
將持球人用黑色特別標示出來；
將橄欖球場特有的碼線繪製出來，這一特點在籃球和足球中是沒有的，不過球隊半場的概念是通用的；
將得分線加粗繪製出來，得分線就是橄欖球中的TouchDown的區域，進攻方持球過了這條線得6分；

下面是相關程式碼：

plt.figure(figsize=(30, 15))
plt.suptitle("Sample plays, standardized, Offense moving left to right")
plt.xlabel("Distance from offensive team's own end zone")
plt.ylabel("Y coordinate")

i=1
for gp,chance in sample_chart_v2.groupby('PlayId'):
    play_id = gp
    rusher = chance[chance.NflId==chance.NflIdRusher].iloc[0]
    offense = chance[chance.IsOnOffense]
    defense = chance[~chance.IsOnOffense]
    
    plt.subplot(3,2,i)
    i+=1
    plt.xlim(0,120)
    plt.ylim(-10,63)
    
    plt.scatter(offense.X_std,offense.Y_std,marker='o',c='red',s=55,alpha=0.5,label='OFFENSE')
    plt.scatter(defense.X_std,defense.Y_std,marker='o',c='green',s=55,alpha=0.5,label='DEFENSE')
    plt.scatter([rusher.X_std],[rusher.Y_std],marker='o',c='black',s=30,label='RUSHER')
    
    for line in range(10,130,10):
        plt.plot([line,line],[-100,100],c='silver',linewidth=0.8,linestyle='-')
    
    plt.plot([rusher.YardsFromOwnGoal,rusher.YardsFromOwnGoal],[-100,100],c='black',linewidth=1.5,linestyle=':')
    plt.plot([10,10],[-100,100],c='black',linewidth=2)
    plt.plot([110,110],[-100,100],c='black',linewidth=2)
    
    plt.title(play_id)
    plt.legend()

plt.show()

下面是效果圖：

可以看到，通常對比賽實況的視覺化，可以清晰的看到當前處於哪個半場，距離達陣還有多遠，進攻方、防守方的站位分別是怎樣，持球人周圍的隊友、對手數量、距離等，這非常有利於後續的分析挖掘；

繪製動態比賽實況

繪製的目的：上面的繪製能看出是靜態的，而且並沒有用上球員的速度、加速度、面向、移動方向等資料，而我們知道球員總是處於不斷運動當中的，他們的當前狀態很重要，但是1s後，2s後可能更重要，這就是這一部分繪製的目的，強調每個球員在一段時間後的狀態，當然，這部分繪製有一個前提假設，那就是球員當前的速度、加速度、面向、移動方向等資訊在短時間內是不變的，這一點也符合實際情況（），當然繪製與現實會有一些出入，但是這些差異不影響我們分析比賽；

繪製的程式碼：

plt.figure(figsize=(12, 8))
plt.suptitle("Playid:20170910001102")
plt.xlabel("Distance from offensive team's own end zone")
plt.ylabel("Y coordinate")

for gp,chance in sample_20170910001102.groupby('PlayId'):
    play_id = gp
    rusher = chance[chance.NflId==chance.NflIdRusher].iloc[0]
    offense = chance[chance.IsOnOffense]
    defense = chance[~chance.IsOnOffense]
    
    plt.subplot(1,1,1)
    i+=1
    
    x_min, x_max = chance.X_std.min()-5, chance.X_std.max()+5
    y_min, y_max = chance.Y_std.min()-5, chance.Y_std.max()+5
    plt.xlim(x_min,x_max)
    plt.ylim(y_min,y_max)
    
    plt.scatter(offense.X_std,offense.Y_std,marker='o',c='green',s=55,alpha=0.5,label='OFFENSE')
    plt.scatter(defense.X_std,defense.Y_std,marker='o',c='red',s=55,alpha=0.5,label='DEFENSE')
    plt.scatter([rusher.X_std],[rusher.Y_std],marker='o',c='black',s=30,label='RUSHER')
    
    for idx, row in chance.iterrows():
        _color='black' if row.IsBallCarrier else('green' if row.IsOnOffense else 'red')
        plt.arrow(row.X_std,row.Y_std,row.X_std_end-row.X_std,row.Y_std_end-row.Y_std,width=0.05,head_width=0.3,ec=_color,fc=_color)
    
    for line in range(10,130,10):
        plt.plot([line,line],[-100,100],c='silver',linewidth=0.8,linestyle='-')
    
    plt.plot([rusher.YardsFromOwnGoal,rusher.YardsFromOwnGoal],[-100,100],c='black',linewidth=1.5,linestyle=':')
    plt.plot([10,10],[-100,100],c='black',linewidth=2)
    plt.plot([110,110],[-100,100],c='black',linewidth=2)
    
    plt.title(play_id)
    plt.legend()

plt.show()

下面是效果圖：

繪製球員的泰森多邊形

繪製的必要性：百度百科定義點泰森多邊形-馮洛諾伊圖，簡單理解就是在一個球場中，每個球員都是一個個不重合的點，那麼將整個球場劃分到這些點上，那麼可以認為每個點都有自己的一片控制區域，這也經常用於獅群領土劃分、機場劃分等問題，抽象出來都是同一個問題；

泰森多邊形的侷限：

沒有考慮球員與球員的差異；
沒有考慮球員的移動方向速度；
沒有考慮球的位置和影響；

相對來說，泰森多邊形是對這一類問題的簡單抽象，沒有考慮一些複雜因素，但是也揭示了很多資訊；

繪製程式碼如下：

from scipy.spatial import Voronoi

plt.figure(figsize=(12, 8))
plt.suptitle("Sample plays, standardized, Offense moving left to right")
plt.xlabel("Distance from offensive team's own end zone")
plt.ylabel("Y coordinate")

sample_20171120000963 = train_1[train_1.PlayId==20171120000963].copy()
for gp,chance in sample_20171120000963.groupby('PlayId'):
    play_id = gp
    rusher = chance[chance.NflId==chance.NflIdRusher].iloc[0]
    offense = chance[chance.IsOnOffense]
    defense = chance[~chance.IsOnOffense]
    
    plt.subplot(1,1,1)
    i+=1
    
    x_min, x_max = chance.X_std.min()-2, chance.X_std.max()+2
    y_min, y_max = chance.Y_std.min()-2, chance.Y_std.max()+2
    #plt.xlim(8,50) # 特定
    plt.xlim(x_min,x_max)
    #plt.ylim(5,40) # 特定
    plt.ylim(y_min,y_max)
    #plt.plot([x_min,x_min,x_max,x_max,x_min],[y_min,y_max,y_max,y_min,y_min],c='black',linewidth=1.5)
    
    vor = Voronoi(np.array([[row.X_std,row.Y_std] for index, row in chance.iterrows()]))
    regions, vertices = voronoi_finite_polygons_2d(vor)
    for region in regions:
        polygon = vertices[region]
        plt.plot(*zip(*polygon),c='black',alpha=0.8)
    
    plt.scatter(offense.X_std,offense.Y_std,marker='o',c='green',s=55,alpha=0.5,label='OFFENSE')
    plt.scatter(defense.X_std,defense.Y_std,marker='o',c='red',s=55,alpha=0.5,label='DEFENSE')
    plt.scatter([rusher.X_std],[rusher.Y_std],marker='o',c='black',s=30,label='RUSHER')
    
    for line in range(10,130,10):
        plt.plot([line,line],[-100,100],c='silver',linewidth=0.8,linestyle='-')
    
    plt.plot([rusher.YardsFromOwnGoal,rusher.YardsFromOwnGoal],[-100,100],c='black',linewidth=1.5,linestyle=':')
    plt.plot([10,10],[-100,100],c='black',linewidth=2)
    plt.plot([110,110],[-100,100],c='black',linewidth=2)
    
    plt.title(play_id)
    plt.legend()

plt.show()

執行效果圖：

從該圖中，能清晰的看到各個球員的控制區域，有一個量化因子是將這部分割槽域相加，量化每個球隊的控制區域大小以及分佈；

球員控制區域熱圖

這部分的分享目的：這部分分享來自這篇論文，我也還沒看完，所以分享內容會比較少，簡單概述一下。首先大家應該能看到泰森多邊形的不足，首先它沒有考慮速度等動態因素，其次它是針對每個球員而不是球隊的，但是我們知道球隊的資訊更重要，因為這是團隊競技，因此缺乏對球員進行疊加的過程，而這些都是這篇論文重點探討的地方；

論文以足球資料為基礎，量化了某個時刻的球場控制熱圖，且考慮了球在其中的影響，注意此時還是假設每個球員的影響在球場中都是一個圓形區域：
但是理想狀態每個球員的影響可能是圓可能是橢圓，這裡我想象一個球員是一顆石子，如果垂直丟入水中（球員靜置不動時），那麼波紋就是一個圓形，如果是斜著拋入水中，那麼波紋應該是一個與石子方向上的橢圓：
那麼引入速度、方向後的球場控制熱圖，就應該是下面這樣：

實際上這篇論文還有很多內容，且主要內容是關於如何量化球員影響區域的，也就是如何抽象為一些數學公式上，當然這部分我目前也算不上理解，所以處於外行看熱鬧的階段，不過大家應該可以從中感受到數學建模的威力，以及這些東西的廣泛應用，希望這篇分享能夠幫到大家一點點；

最後

大家可以到我的Github上看看有沒有其他需要的東西，目前主要是自己做的機器學習專案、Python各種指令碼工具、資料分析挖掘專案以及Follow的大佬、Fork的專案等：
https://github.com/NemoHoHal

機器學習競賽分享：通用的團隊競技類的資料分析挖掘方法

前言

分享目的

分享目錄

競賽連結

專案連結，該專案程式碼已經public，大家可以copy下來直接執行

github倉庫連結，更多做的過程中的一些思考、問題等可以在我的github中看到

一些橄欖球相關的基本概念

分享正式開始

繪製比賽實況

繪製動態比賽實況

繪製球員的泰森多邊形

球員控制區域熱圖

最後

機器學習競賽分享：通用的團隊競技類的資料分析挖掘方法

機器學習競賽分享：NFL大資料碗（上篇）

機器學習實戰系列：sklearn 中模型儲存的兩種方法

機器學習筆記六：K-Means聚類，層次聚類，譜聚類

機器學習中的sklearn中的聚類資料生成器

kaggle機器學習競賽冠軍及分享

機器學習第二章：模型評估與選擇-總結

機器學習筆記(3)：多類邏輯回歸

機器學習筆記十三：Ensemble思想(上)

機器學習之路： python 樸素貝葉斯分類器預測新聞類別

機器學習之路： python 支持向量機手寫字體識別

機器學習之路：python支持向量機回歸SVR 預測波士頓地區房價

機器學習之路：python 特征降維主成分分析 PCA

機器學習之路： python線性回歸過擬合 L1與L2正則化

機器學習之路： python 實踐 word2vec 詞向量技術

機器學習之路： python 實踐提升樹 XGBoost 分類器

機器學習之路： tensorflow 自定義損失函數

機器學習實踐心得：數據平臺設計與搭建US幸運飛艇平臺出租

機器學習現狀以及目前機器學習競賽的主流框架或演算法

Andrew Ng 機器學習筆記 16 ：照片OCR

機器學習競賽分享：通用的團隊競技類的資料分析挖掘方法

前言

分享目的

分享目錄

競賽連結

專案連結，該專案程式碼已經public，大家可以copy下來直接執行

github倉庫連結，更多做的過程中的一些思考、問題等可以在我的github中看到

一些橄欖球相關的基本概念

分享正式開始

繪製比賽實況

繪製動態比賽實況

繪製球員的泰森多邊形

球員控制區域熱圖

最後

相關推薦