今日頭條演算法原理詳解全集,值得收藏!
今天,演算法分發已經是資訊平臺、搜尋引擎、瀏覽器、社交軟體等幾乎所有軟體的標配,但同時,演算法也開始面臨質疑、挑戰和誤解。今日頭條的推薦演算法,從 2012 年 9月第一版開發執行至今,已經經過四次大的調整和修改。
今日頭條委託資深演算法架構師曹歡歡博士,公開今日頭條的演算法原理,以期推動整個行業問診演算法、建言演算法;通過讓演算法透明,來消除各界對演算法的誤解,並逐步推動整個行業讓演算法更好的造福社會。
以下為《今日頭條演算法原理》全文:
本次分享將主要介紹今日頭條推薦系統概覽以及內容分析、使用者標籤、評估分析等原理。
一、系統概覽
在這裡插入圖片描述
推薦系統,如果用形式化的方式去描述實際上是擬合一個使用者對內容滿意度的函式,這個函式需要輸入三個維度的變數。
第一個維度是內容。頭條現在已經是一個綜合內容平臺,圖文、視訊、UGC 小視訊、問答、微頭條,每種內容有很多自己的特徵,需要考慮怎樣提取不同內容型別的特徵做好推薦。
第二個維度是使用者特徵。包括各種興趣標籤,職業、年齡、性別等,還有很多模型刻劃出的隱式使用者興趣等。第三個維度是環境特徵。這是移動網際網路時代推薦的特點,使用者隨時隨地移動,在工作場合、通勤、旅遊等不同的場景,資訊偏好有所偏移。結合三方面的維度,模型會給出一個預估,即推測推薦內容在這一場景下對這一使用者是否合適。
這裡還有一個問題,如何引入無法直接衡量的目標?
推薦模型中,點選率、閱讀時間、點贊、評論、轉發包括點贊都是可以量化的目標,能夠用模型直接擬合做預估,看線上提升情況可以知道做的好不好。但一個大體量的推薦系統,服務使用者眾多,不能完全由指標評估,引入資料指標以外的要素也很重要。
比如廣告和特型內容頻控。像問答卡片就是比較特殊的內容形式,其推薦的目標不完全是讓使用者瀏覽,還要考慮吸引使用者回答為社群貢獻內容。這些內容和普通內容如何混排,怎樣控制頻控都需要考慮。
此外,平臺出於內容生態和社會責任的考量,像低俗內容的打壓,標題黨、低質內容的打壓,重要新聞的置頂、加權、強插,低級別賬號內容降權都是演算法本身無法完成,需要進一步對內容進行干預。
下面我將簡單介紹在上述演算法目標的基礎上如何對其實現。
在這裡插入圖片描述
前面提到的公式 y = F(Xi ,Xu ,Xc),是一個很經典的監督學習問題。可實現的方法有很多,比如傳統的協同過濾模型,監督學習演算法 Logistic Regression 模型,基於深度學習的模型,Factorization Machine 和 GBDT 等。
一個優秀的工業級推薦系統需要非常靈活的演算法實驗平臺,可以支援多種演算法組合,包括模型結構調整。因為很難有一套通用的模型架構適用於所有的推薦場景。
現在很流行將 LR 和 DNN 結合,前幾年 Facebook 也將 LR 和 GBDT 演算法做結合。今日頭條旗下幾款產品都在沿用同一套強大的演算法推薦系統,但根據業務場景不同,模型架構會有所調整。
模型之後再看一下典型的推薦特徵,主要有四類特徵會對推薦起到比較重要的作用。
第一類是相關性特徵。就是評估內容的屬性和與使用者是否匹配。顯性的匹配包括關鍵詞匹配、分類匹配、來源匹配、主題匹配等。像 FM 模型中也有一些隱性匹配,從使用者向量與內容向量的距離可以得出。
第二類是環境特徵。包括地理位置、時間。這些既是 bias 特徵,也能以此構建一些匹配特徵。
第三類是熱度特徵。包括全域性熱度、分類熱度,主題熱度,以及關鍵詞熱度等。內容熱度資訊在大的推薦系統特別在使用者冷啟動的時候非常有效。
第四類是協同特徵。它可以在部分程度上幫助解決所謂演算法越推越窄的問題。協同特徵並非考慮使用者已有歷史。而是通過使用者行為分析不同使用者間相似性,比如點選相似、興趣分類相似、主題相似、興趣詞相似,甚至向量相似,從而擴充套件模型的探索能力。
模型的訓練上,頭條系大部分推薦產品採用實時訓練。實時訓練省資源並且反饋快,這對資訊流產品非常重要。
使用者需要行為資訊可以被模型快速捕捉並反饋至下一刷的推薦效果。我們線上目前基於 storm 叢集實時處理樣本資料,包括點選、展現、收藏、分享等動作型別。
模型引數伺服器是內部開發的一套高效能的系統,因為頭條資料規模增長太快,類似的開源系統穩定性和效能無法滿足,而我們自研的系統底層做了很多針對性的優化,提供了完善運維工具,更適配現有的業務場景。
目前,頭條的推薦演算法模型在世界範圍內也是比較大的,包含幾百億原始特徵和數十億向量特徵。整體的訓練過程是線上伺服器記錄實時特徵,匯入到 Kafka 檔案佇列中,然後進一步匯入 Storm 叢集消費 Kafka 資料,客戶端回傳推薦的 label 構造訓練樣本,隨後根據最新樣本進行線上訓練更新模型引數,最終線上模型得到更新。
這個過程中主要的延遲在使用者的動作反饋延時,因為文章推薦後用戶不一定馬上看,不考慮這部分時間,整個系統是幾乎實時的。
但因為頭條目前的內容量非常大,加上小視訊內容有千萬級別,推薦系統不可能所有內容全部由模型預估。
所以需要設計一些召回策略,每次推薦時從海量內容中篩選出千級別的內容庫。召回策略最重要的要求是效能要極致,一般超時不能超過 50 毫秒。
召回策略種類有很多,我們主要用的是倒排的思路。離線維護一個倒排,這個倒排的 key 可以是分類,topic,實體,來源等,排序考慮熱度、新鮮度、動作等。
線上召回可以迅速從倒排中根據使用者興趣標籤對內容做截斷,高效的從很大的內容庫中篩選比較靠譜的一小部分內容。
在這裡插入圖片描述
二、內容分析
內容分析包括文字分析,圖片分析和視訊分析。頭條一開始主要做資訊,今天我們主要講一下文字分析。文字分析在推薦系統中一個很重要的作用是使用者興趣建模。沒有內容及文字標籤,無法得到使用者興趣標籤。
舉個例子,只有知道文章標籤是網際網路,使用者看了網際網路標籤的文章,才能知道使用者有網際網路標籤,其他關鍵詞也一樣。
另一方面,文字內容的標籤可以直接幫助推薦特徵,比如魅族的內容可以推薦給關注魅族的使用者,這是使用者標籤的匹配。如果某段時間推薦主頻道效果不理想,出現推薦窄化,使用者會發現到具體的頻道推薦(如科技、體育、娛樂、軍事等)中閱讀後,再回主 feed, 推薦效果會更好。
因為整個模型是打通的,子頻道探索空間較小,更容易滿足使用者需求。只通過單一通道反饋提高推薦準確率難度會比較大,子頻道做的好很重要。而這也需要好的內容分析。
可以看到,這篇文章有分類、關鍵詞、topic、實體詞等文字特徵。當然不是沒有文字特徵,推薦系統就不能工作,推薦系統最早期應用在 Amazon,甚至沃爾瑪時代就有,包括 Netfilx 做視訊推薦也沒有文字特徵直接協同過濾推薦。
但對資訊類產品而言,大部分是消費當天內容,沒有文字特徵新內容冷啟動非常困難,協同類特徵無法解決文章冷啟動問題。
今日頭條推薦系統主要抽取的文字特徵包括以下幾類。首先是語義標籤類特徵,顯式為文章打上語義標籤。這部分標籤是由人定義的特徵,每個標籤有明確的意義,標籤體系是預定義的。此外還有隱式語義特徵,主要是 topic 特徵和關鍵詞特徵,其中 topic 特徵是對於詞概率分佈的描述,無明確意義;而關鍵詞特徵會基於一些統一特徵描述,無明確集合。
另外文字相似度特徵也非常重要。在頭條,曾經使用者反饋最大的問題之一就是為什麼總推薦重複的內容。這個問題的難點在於,每個人對重複的定義不一樣。舉個例子,有人覺得這篇講皇馬和巴薩的文章,昨天已經看過類似內容,今天還說這兩個隊那就是重複。
但對於一個重度球迷而言,尤其是巴薩的球迷,恨不得所有報道都看一遍。解決這一問題需要根據判斷相似文章的主題、行文、主體等內容,根據這些特徵做線上策略。
分類的目標是覆蓋全面,希望每篇內容每段視訊都有分類;而實體體系要求精準,相同名字或內容要能明確區分究竟指代哪一個人或物,但不用覆蓋很全。概念體系則負責解決比較精確又屬於抽象概念的語義。
這是我們最初的分類,實踐中發現分類和概念在技術上能互用,後來統一用了一套技術架構。
目前,隱式語義特徵已經可以很好的幫助推薦,而語義標籤需要持續標註,新名詞新概念不斷出現,標註也要不斷迭代。其做好的難度和資源投入要遠大於隱式語義特徵,那為什麼還需要語義標籤?
有一些產品上的需要,比如頻道需要有明確定義的分類內容和容易理解的文字標籤體系。語義標籤的效果是檢查一個公司 NLP 技術水平的試金石。
今日頭條推薦系統的線上分類採用典型的層次化文字分類演算法。最上面 Root,下面第一層的分類是像科技、體育、財經、娛樂,體育這樣的大類,再下面細分足球、籃球、乒乓球、網球、田徑、游泳……足球再細分國際足球、中國足球,中國足球又細分中甲、中超、國家隊……
相比單獨的分類器,利用層次化文字分類演算法能更好地解決資料傾斜的問題。有一些例外是,如果要提高召回,可以看到我們連線了一些飛線。
這套架構通用,但根據不同的問題難度,每個元分類器可以異構,像有些分類 SVM 效果很好,有些要結合 CNN,有些要結合 RNN 再處理一下。
基於分詞結果和詞性標註選取候選,期間可能需要根據知識庫做一些拼接,有些實體是幾個詞的組合,要確定哪幾個詞結合在一起能對映實體的描述。
如果結果對映多個實體還要通過詞向量、topic 分佈甚至詞頻本身等去歧,最後計算一個相關性模型。
三、使用者標籤
內容分析和使用者標籤是推薦系統的兩大基石。內容分析涉及到機器學習的內容多一些,相比而言,使用者標籤工程挑戰更大。
今日頭條常用的使用者標籤包括使用者感興趣的類別和主題、關鍵詞、來源、基於興趣的使用者聚類以及各種垂直興趣特徵(車型,體育球隊,股票等)。還有性別、年齡、地點等資訊。性別資訊通過使用者第三方社交賬號登入得到。
年齡資訊通常由模型預測,通過機型、閱讀時間分佈等預估。常駐地點來自使用者授權訪問位置資訊,在位置資訊的基礎上通過傳統聚類的方法拿到常駐點。常駐點結合其他資訊,可以推測使用者的工作地點、出差地點、旅遊地點。這些使用者標籤非常有助於推薦。
當然最簡單的使用者標籤是瀏覽過的內容標籤。但這裡涉及到一些資料處理策略。
主要包括:
一、過濾噪聲。通過停留時間短的點選,過濾標題黨。
二、熱點對使用者在一些熱門文章(如前段時間 PG One 的新聞)上的動作做降權處理。理論上,傳播範圍較大的內容,置信度會下降。
三、時間衰減。使用者興趣會發生偏移,因此策略更偏向新的使用者行為。因此,隨著使用者動作的增加,老的特徵權重會隨時間衰減,新動作貢獻的特徵權重會更大。
四、懲罰展現。如果一篇推薦給使用者的文章沒有被點選,相關特徵(類別,關鍵詞,來源)權重會被懲罰。
當然同時,也要考慮全域性背景,是不是相關內容推送比較多,以及相關的關閉和 dislike 訊號等。
使用者標籤挖掘總體比較簡單,主要還是剛剛提到的工程挑戰。頭條使用者標籤第一版是批量計算框架,流程比較簡單,每天抽取昨天的日活使用者過去兩個月的動作資料,在 Hadoop 叢集上批量計算結果。
但問題在於,隨著使用者高速增長,興趣模型種類和其他批量處理任務都在增加,涉及到的計算量太大。2014 年,批量處理任務幾百萬使用者標籤更新的 Hadoop 任務,當天完成已經開始勉強。叢集計算資源緊張很容易影響其它工作,集中寫入分散式儲存系統的壓力也開始增大,並且使用者興趣標籤更新延遲越來越高。
面對這些挑戰。2014 年底今日頭條上線了使用者標籤 Storm 叢集流式計算系統。改成流式之後,只要有使用者動作更新就更新標籤,CPU 代價比較小,可以節省 80% 的 CPU 時間,大大降低了計算資源開銷。
同時,只需幾十臺機器就可以支撐每天數千萬使用者的興趣模型更新,並且特徵更新速度非常快,基本可以做到準實時。這套系統從上線