1. 程式人生 > >一文看評論裡的中超風雲

一文看評論裡的中超風雲

       體壇,就是現代的江湖。耀眼的球星如同蓋世大俠,傑出的隊伍彷彿驍勇鐵軍。他們的風雲故事在人們之間口口相傳,也在網路的世界裡廣泛傳播。

       本文就旨在利用評論資料分析蒐集中超之奇聞軼事,且看這個故事被人們如何傳頌。

       本文使用的評論資料爬取自直播吧APP裡中超比賽的公開可見的賽後評論(截至26輪,共107491條),也從網路上搜集了球隊、球員、足球術語等資訊形成一個知識庫以進行專門的匹配。

       下面,就讓我們一覽評論資料裡的中超風雲:

重返現場,幾多傳說?

       用每輪所有比賽的評論數總和作為該輪中超的熱度,我們就可以得到中超開賽至今,各輪比賽的熱度變化。

       可以看到,首輪中超吸引了最多的眼球,這一方面是因為揭幕戰總是會吸引更多的注意,另一方面也是因為首輪便出現了幾場經典戰役。例如上海上港以8:0屠殺了大連一方,宣誓了本賽季上港的高調崛起,也讓大連這隻重金打造的新軍一度成為人們的笑柄。另一場則是蕩氣迴腸的9球廣州德比,讓球迷大呼過癮。

       此後中超漸漸歸於平淡,直至第九輪有一次熱度的反彈,這可能是因為本輪比賽中,大連一方以3:0戰勝恆大,這在當時絕對是驚天冷門,因為這可是大連的聯賽首勝,然而從此大連開始大殺“四方”,將各路豪強(聯賽前4)一一斬於馬下。

       人們的評論的熱情在少數幾輪發生了驟降,這可能是因為這幾輪多在工作日展開。

中超比賽一般都在週末進行,是人們週末休閒生活的極佳消遣,然而還是有幾輪比賽安排在了工作日,於是。根據資料,超過75%的評論都會在完賽後三小時內被髮表,那麼工作日的比賽或許就會因為觀看直播的人數變少,人們即使會在事後關注,也失去了評論的熱情。例如本次資料中的最低谷,第23輪,就在國慶前兩天的調休工作日打響,這個時候或許大家都在忙碌著最後的工作,或者準備著國慶的遊玩計劃吧。

       回顧往事,儘管一些片段可能還在記憶中留存,然而總有一些情節已經模糊不清。不過接下來,我將利用主題模型[1]的技術,從評論中自動抽出比賽中的鮮明主題,帶領大家重返現場,再度感受當時的心路歷程。

       這裡,僅以首輪富力5-4戰勝恆大的這場廣州德比為例,下面是主題模型[1]得到的本場10大主題的前10名的關鍵詞(每列為同一個主題的對應關鍵詞)

       從各個主題的關鍵詞中能夠看到其各不相同的側重點,為我們全方位地勾畫出了本場比賽的輿論藍圖。

       比如第一個主題0,球迷們在第一輪已經操心起了恆大主帥卡納瓦羅的下課問題。主題5是一個相當應景的段子,正值元宵節的本場比賽也彷彿瘋狂地包起了“湯圓”。主題9是首輪比賽人們對當時初步執行的U23新政的熱烈討論,在政策執行良久且常有變化的如今來看,大家應當又會別有感想。本場被打成篩子的恆大的替補門將劉殿座“一戰成名”,迅速吸引了廣泛的關注[tu cao](在多個主題中出現),還得到了“漏電座”,“攝政王”等“雅號”,在主力門將曾誠傷愈後便極少再被起用。另外,我還注意到了一個奇怪的主題4,其中居然混入了一些歐洲球隊和籃球隊?翻閱具體評論,原來其中最典型的一條評論是這樣寫的:“我是阿森納,恆大,馬刺球迷,這日子沒法過了“,看來直播吧的球迷們很多涉獵都相當廣泛,只是這位球迷的運氣實在是差了點~

群星璀璨,誰最耀眼?

今年中超,誰是最受人們關注的球員?誰又是廣受讚譽的好球員?不妨先想想自己心中的答案,然後,我將用評論中統計得到的熱度情感度[2](正數表示正面評價,越高代表評價越積極)來揭開謎底:

       備受關注的人員多是來自各支豪門的球星(還有教練卡納瓦羅),從情感度上也能看到各位球迷心中對他們各有評價,例如半程加盟恆大的塔利斯卡以及其優異的表現贏得了球迷的喜愛,被封“塔神”,魯能主力門將王大雷作為魯能的門神,因經驗豐富和“大心臟”而受到讚譽。不過,無可置疑的當今中國第一前鋒,本賽季射手王有利爭奪者——武磊,以絕對優勢排在了熱議榜的第一名,情感度也比較正面。

       本賽季的武磊熱門到了什麼程度呢?有球迷說:“吹武磊不用走程式,武磊牛!“不過即使是武磊也不是盡善盡美的,我又從各輪比賽的評論中抽出了更多提及武磊的熱門評論,其中既有讚譽,也有質疑。讓我們從評論中全方面立體的回顧武磊本賽季的經典表現:

       第1輪,上港8-0大連:“扎哈維已邀請奧斯卡、武磊加入中超首輪帽子戲法群。“

第3輪,上港5-2富力:“富力教練:誰TM告訴我,武磊單刀隨便放的“(為自己的單刀正名)

第8輪,亞泰2-1上港:“武磊一個明顯的手球,VR(編者注:應為VAR,視訊助理裁判)判罰後居然對裁判暴怒,這永遠不是一個成熟球員該有的心裡素質,難成大器!“

第15輪,上港4-1權健:“武磊:我現在滿腦子都在想著狼隊,哪還有心情踢點球啊……[滑稽] “(錯失點球)

       第25輪,上港5-0貴州:“支援武磊拿本賽季中超金靴的左邊!!!!!!“(直截了當的號召,就收穫了3523個點贊,超過了很多場比賽的總評論數)。

       毋庸置疑,武磊在本賽季創造了他個人的又一高峰,也祝願他能夠勇奪球王,未來能夠在中國和世界的舞臺上發出更耀眼的光芒!

群雄逐鹿,鹿死誰手?

當今中超,最炙手可熱的球隊是哪一支?這個問題就不像球員一樣那麼容易回答,或許每個球隊的球迷都會有自己心中的看法。

       為了回答這個問題,我需要從每場比賽的資料中獲得對應球隊的關注度,然而比賽總是兩隊同時參與的,如何衡量單隊的受關注程度?我的方法是,計算一隻球隊在其所有出戰場次中的評論數總和,這樣就算單場比賽的熱度會受到另一隻球隊的影響,在綜合了多場比賽後,真正的豪門還是會顯示出它強大的吸引力。

       接下來,讓熱度資料給我們一個客觀的答案吧。

       在球迷的版圖上,“七冠王“恆大以絕對的優勢佔據第一,傳統豪強北京國安和山東魯能也有諸多簇擁,聯賽新銳上海上港,以及本賽季聲勢頗大的大連一方也有著諸多關注度。而其餘本賽季戰績不佳的球隊,在關注度上則略顯黯淡。

       除了關注球隊的熱度,球迷對球隊的褒貶評價也十分重要。不過球迷們對球隊的評價常常會隨著球隊的表現而起伏波動,即使是對於當今聯賽最出色的兩支球隊——上港和恆大也是一樣,讓我們來看看他們的情感度變化趨勢。

       有趣的是,這兩隻爭冠隊伍上的勁敵,在評價上常常是此起彼伏,往往在一方高奏凱歌時,另一方卻會遭遇狀況。不過兩隊目前的唯一一次交鋒中,球迷對兩隊的評價比較均衡,因為這場比賽雙方都有著精彩高水平的發揮。最近的一輪(26輪)中,恆大6:1大勝北京人和,而上港則被蘇寧0:0逼平,雙方的分差來到2分,恆大又看到了奪冠的希望,球迷們也開始情緒激昂。

       接下來,讓我們看看全體球隊的情感度表現,在一圖上比較和縱覽整個賽季各隊輿論趨勢。為了防止過多的折線圖互相糾纏而難以看清,這裡我採用了熱力圖的方式呈現。越偏向橙紅代表評價越高,而越偏向藍紫則代表評價越低。

       上圖就彷彿球迷為球隊吹響的衝鋒號角,反映了球隊高昂或低落的輿論士氣,讓我們看到看到各支球隊評價的起伏變化。

       首輪5-4戰勝恆大的富力曾經讓人驚豔,卻在後來漸漸陷入低迷。

       賽季半程(15輪左右),北京國安大勝華夏登頂,魯能也有不錯戰績,此時的紅色顯示出他們的氣勢如虹。卻在賽季末段開始掉隊。

       貴州、重慶都在本賽季表現低迷,那成片的紫色彷彿病人的臉色。

       上港和恆大都曾經歷諸多坎坷,卻在賽季末段勇往直前,如今已是冠軍的最有力爭奪者。誰那鮮紅的號角能夠響徹始終?讓我們拭目以待。

       評論即是江湖,眾人自有心中的傳奇。

       今年中超的風雲故事,還將在人們的言論中繼續流傳……

技術註釋:

[1] 由於評論篇幅一般較短,這裡使用了更適合短文字聚類的GSDMM模型,主題中的關鍵詞由各主題下各個詞語按其importance排序得到。考慮到情感度的計算,保留了”!?”這類的標點符號。【Yin, Jianhua and Jianyong Wang. “A dirichlet multinomial mixture model-based approach for short text clustering.” KDD (2014).】 Github

[2] 為了衡量評論的褒貶情感度,使用了SO-PMI方法建立了情感詞典,為每個常見詞賦予了一個情感值,評論中所有詞語的情感值平均決定了該評論的估計情感值