FORM: Follow the Online Regularized Meta-Leader for Cold-Start Recommendation閱讀筆記
動機
本文是2021年SIGIR上的一篇論文。傳統的基於元學習的推薦系統通常是通過一個二重梯度下降來緩解冷啟動問題,但是這種方法在線上場景中的推薦中存在以下問題:1.難以抵抗線上推薦的複雜波動。2.平等對待所有使用者,無法根據使用者歷史互動記錄的多樣性對其進行評估。3.難以應對線上推薦的巨大吞吐量。對此,本文作者提出了FORM框架,通過正則化來緩解推薦系統中的波動同時產生稀疏的權重以減少計算量,並且根據使用者互動記錄提出了動態的學習率以更快地適應新使用者。
下圖是MeLU方法在線上推薦場景下的效果,縱座標是HR(命中率,越高越好),訓練曲線並不是平穩持續上升,而是在某些地方會下降,而且在訓練效果下降的同時,HR的方差會顯著增大(陰影部分是方差)。
演算法
FORM演算法流程如下,和普通的基於元學習的推薦系統相似。首先初始化模型引數,初始化使用者快取區,歷史互動記錄快取區;根據時間順序,把當前時間獲取的使用者互動記錄放進歷史互動記錄的快取區;從使用者快取區中取樣一批使用者,每個使用者進行本地更新,之後再進行全域性更新獲取引數,之後用更新過後的引數作為新使用者的初始化引數進行測試,直到收斂;記錄最後一輪在新使用者上的測試結果,並且將這些新使用者加入使用者快取區。
FORM演算法的子程式
Follow the Online Meta leader(FTOML)
我們希望我們的模型不僅能有效地預測當前的記錄,而且能預測所有之前的記錄。因此,目標函式為
因為該方程很難直接求解,所以需要一個近似函式去求解(下文會講這個近似函式)。除此之外,為了保證使用者的質量,我們加入一個閾值C,只有損失小於C的使用者才可以參與全域性更新(見FORM子程式第10行)。
Follow the regularized online meta leader(FTORL)
由於線上場景下使用者到達隨機且不均勻,這會導致不同輪的引數更新非常不穩定。除此之外,我們還希望引數具有稀疏性,這樣可以提高計算效率。因此,我們提出了FTORL,在FTOML的基礎上加入正則化
其中\(R_u\)為
我們使用近似方程求解得
其中
FTROL演算法流程為
動態線上學習率SLR
對於那些收斂較好且有豐富互動歷史記錄的使用者,FORM希望從其中學到更多的知識,而對於歷史記錄少且波動較大的使用者,FORM希望從中學到儘可能少的知識。因此我們根據使用者梯度的方差和互動物品序列的長度來進行調整學習率
其中k是互動物品的個數,\(\omega_1\)
整體框架
實驗結果
作者在三個公共資料集和騰訊線上廣告資料集上做了實驗,本文提出的模型相比與基線模型均取得更好的效果。
同時,在線上場景下,FORM的更新也更加穩定,波動更小。藍紫色為FORM,橙色為MeLU。
總結
本文提出了一個線上場景下的元學習推薦系統,可以很好地解決線上場景中新使用者的問題。其中核心的方法我認為主要有三點:1.在全域性更新時,過濾掉損失較大(低質量)的使用者。2.在損失函式中加入正則化,減小訓練時的波動,同時使引數儘可能稀疏,提高計算效率。3.根據不同使用者的互動資料和損失來設定不同的學習率。未來可以嘗試將該框架擴充套件到更多的推薦模型中,例如圖推薦、因子分解機等等。