1. 程式人生 > >獨家 | 資料分析@愛可可-愛生活是否在用機器學習演算法運營微博

獨家 | 資料分析@愛可可-愛生活是否在用機器學習演算法運營微博

640?wx_fmt=png&wxfrom=5&wx_lazy=1

微博賬號@愛可可-愛生活是資料科學圈的網紅,因每天分享大量精選的資料科學領域的學習資料而出名,深受粉絲關注和喜愛。該賬號每天從早晨4-5點開始發微博,日均釋出大幾十條原創,有人不禁質疑,它的運營者北郵模式識別實驗室的副教授陳光,每天的時間是怎麼安排的,除了科研、教務、帶學生、寫基金等工作,是如何做到每天釋出這麼多內容。莫非是一個團隊在維護?再或者,他其實是利用工具自動追蹤arXiv、大牛部落格、科技網站、twitter、G+,外加自動谷歌搜尋一些關鍵詞,然後把這些內容提取標題、圖片釋出到微博上?

對愛可可老師的微博內容究竟產自人工還是機器的疑問,成為了粉絲最感興趣的話題之一,很多粉絲甚至會凌晨給愛可可微博留言,試圖測試出他是否會自動回覆。今天,我們用大資料分析了愛可可微博的特徵,並與寫作機器人進行對比,來看看愛可可老師到底是否在用機器發微博。

@愛可可-愛生活的微博特徵

愛可可老師的微博賬號創建於2010年底,初期的微博內容充滿了人情味,分享了愛女出生的喜悅、行業資訊、學習資料,以及人生工作感悟。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

熱詞分析顯示,愛可可微博是從2014年底開始熱度變高,此時該賬號已是每日凌晨四五點起分享大量的學習資料。

640?wx_fmt=png

在分享資料的間隙,愛可可老師也會發布一些個人見解,其中有一條微博內容值得玩味。

一個機器人賬號,連微博暱稱帶內容一起轉發了某位它的關注人的微博,被該博主發現了,評價它“此機器人有點二”,然後愛可可老師評論道:“有點調皮,有點任性,有自己一套標準的小機器人,不是挺好嗎?”

由此可見,愛可可老師覺得微博機器人是很有趣的,同時,他也經常分享該機器人轉發的內容。

640?wx_fmt=png

從2015年1月以後,愛可可老師的微博內容基本為學術資料,且不帶任何感情色彩,讓人不禁猜測,這些資料是否全由機器人挖掘並轉發呢?

我們採集了該賬號從2017年10月30號——2017年11月30號所有微博的資訊做了如下統計:

640?wx_fmt=png

這個月以來,他一共釋出了1952條微博,平均每天釋出61條,時間集中在凌晨四點半至晚上十點半以前,平均每天凌晨4點44分開始釋出第一條微博。由統計圖看出,愛可可老師發微博最集中的時間段為每日凌晨四點半到六點半,在這兩個小時之內,他平均釋出25條,佔每天總數的近一半。

具體統計每日4點—6點半的資料可以發現,愛可可在該時間段發微博的頻次非常高,特點為連續兩、三分鐘內傳送一條或多條帶6-9張圖的微博。

640?wx_fmt=png

640?wx_fmt=png

根據詞頻分析微博內容,出現最多的詞語全部與資料科學相關。

640?wx_fmt=png

根據微博來源可以看出,愛可可老師最常使用的是Mac客戶端和微博網頁版。在前幾年充滿人情味的微博裡,尚且有Android客戶端的來源顯示,而現在的內容全部發自於電腦。

640?wx_fmt=png

我們還對愛可可老師的粉絲進行了分析,發現最活躍的使用者畫像為北京IT男青年,而且還是嚴謹細緻內斂腹黑的摩羯座。粉絲對愛可可老師的留言,多半是儲存資料和表達感謝,然而愛可可老師很少與他們互動。

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

那麼,愛可可老師的微博內容究竟是否由機器人產出呢?下面我們將盤點出機器人寫作的特點,並與之進行比較。

機器寫作效率VS愛可可老師寫作效率

從工作方式和步驟來看,機器寫作與人工寫作相像,都是三步走的工作模式:圍繞報道主題採集資訊——分析資訊,聯絡背景解讀意義——按照新聞格式和語法規則寫出文章。不同的是,寫稿機器人是一套執行命令的程式,能夠快速抓取、處理海量的文獻資料資料;而人類作為生物,先天具有生理和行動侷限,在處理資料方面與機器人相形見絀,比速度自然落後。九寨溝發生7級地震後,地震資訊播報機器人在21個小時的時間內,連續自動推送了15條地震速報,字數均在110-634字之間,最快的一條耗時5秒成稿為126字。

對比愛可可老師,該賬號在7年內釋出近45000條微博,日均18條左右,只是現階段活躍度遠高於其早期階段,近一個月日均在60條左右。此前,微博大V“@任志強”在5年多時間內發出9萬餘條微博,日均50條左右,屬於典型的活躍性微博使用者,所以日均五六十條微博的頻次也不足以對@愛可可-愛生活的運營者做出準確判斷。然而,愛可可老師傳送微博的特點為特別時間段非常密集,一到三分鐘發一條、甚至幾條微博是常有之事。這樣的高效率背後,是難以做到從瀏覽文章到分享文章的流程的。

此外,機器運作的微博可以實現實時推送的功能,而愛可可老師雖然推送頻率高,但並不是實時進行分享,而是集中性分享,所以,愛可可老師應該是通過集中性的瀏覽文章,或者是利用機器學習自動抓取資訊結合自己空閒時間手動進行高頻率的集中性推送。

640?wx_fmt=png

機器寫作內容VS愛可可微博內容

機器人寫作本質上是一種程式化運作,這套程式在規則作用下進行邏輯推理,處理資料量豐富、時效性強的工作,因此,寫稿機器人從基因上決定了其自動化生產偏向以資料為基礎的內容。具體就是擅長財經、體育、自然災害等模式化領域。如今年年初,南方都市報社上線的寫稿機器人“小南”,基於機器學習演算法,融合領域知識,能夠對資料進行深度分析,發掘重要的訊息和事件,並用自然語言進行表達。

而愛可可老師微博高頻更新的內容絕大多數屬資料科學領域,又傾向於機器學習這一分支。制定以“機器學習”“演算法”等為關鍵詞的規則,連線並抓取學科資源庫資料,是方便高效可操作性強的選擇,猜想@愛可可-愛生活由機器運營也並不奇怪。不過,目前出現微博上的機器人賬號,程式大都比較簡陋,在人類看來有些“愚笨”,如果愛可可老師用機器發微博,想必此套程式更加智慧巧妙。

機器寫作風格VS愛可可微博風格

引入機器寫作的目的就是解放人力、服務社會,歸根結底,機器寫作服務人就要模仿人。例如,在編輯團隊的指引下,“小南”就會學習人類的寫作方式,以人類特有的生活化語言表述某一事實的現實影響,如“小南”在判斷出列車剩餘票數不足後,小南會使用“票數緊張”提醒讀者。隨著使用者社交資料的接入,機器將不斷髮掘洞察使用者習慣,越來越有人情味,以精準化的服務提升使用者體驗,人工和機器作業的界限將越來越模糊。另外,據英國《每日郵報》310日報道,南加利福尼亞大學進行的一項最新研究發現,推特中的機器人數量達4800萬,佔15%,它們能發出“點贊”、“轉發”、“關注”等社交行為。

反觀愛可可老師的微博,涉及個人觀點和情感的內容幾乎為零,而微博評論以網友內部交流為主,博主參與較少,且回覆語句較短,互動活躍度不高,有可能是機器運營的結果。

通過以上分析,@愛可可-愛生活釋出的微博內容很可能有機器學習演算法的參與,參與環節在資訊收集、篩選方面的可能性較大。

如果你是愛可可老師的迷弟/迷妹,在評論區聊一聊你的推測吧~

劃重點!如果有機會面基愛可可老師,你最想請教什麼問題呢?(資料派也許會滿足你的求知慾哦!)

0?wx_fmt=jpeg