1. 程式人生 > >今日頭條文章推薦演算法摘記

今日頭條文章推薦演算法摘記

一、使用者標籤

使用者標籤今日頭條常用的使用者標籤包括使用者感興趣的類別和主題、關鍵詞、來源、基於興趣的使用者聚類以及各種垂直興趣特徵(車型,體育球隊,股票等)。還有性別、年齡、地點等資訊。性別資訊通過使用者第三方社交賬號登入得到。年齡資訊通常由模型預測,通過機型、閱讀時間分佈等預估。常駐地點來自使用者授權訪問位置資訊,在位置資訊的基礎上通過傳統聚類的方法拿到常駐點。常駐點結合其他資訊,可以推測使用者的工作地點、出差地點、旅遊地點。這些使用者標籤非常有助於推薦。

當然最簡單的使用者標籤是瀏覽過的內容標籤。但這裡涉及到一些資料處理策略。主要包括:一、過濾噪聲。通過停留時間短的點選,過濾標題黨。二、熱點懲罰。對使用者在一些熱門文章(如前段時間PG One的新聞)上的動作做降權處理。理論上,傳播範圍較大的內容,置信度會下降。三、時間衰減。使用者興趣會發生偏移,因此策略更偏向新的使用者行為。因此,隨著使用者動作的增加,老的特徵權重會隨時間衰減,新動作貢獻的特徵權重會更大。四、懲罰展現。如果一篇推薦給使用者的文章沒有被點選,相關特徵(類別,關鍵詞,來源)權重會被懲罰。當然同時,也要考慮全域性背景,是不是相關內容推送比較多,以及相關的關閉和dislike訊號等。