1. 程式人生 > >量化評估推薦系統效果

量化評估推薦系統效果

正文共1956張圖,1張圖,預計閱讀時間8分鐘。

推薦系統最有效的方法就是A/B test進行模型之間的對比,但是由於現實原因的侷限,存在現實實時的困難性,所以,梳理了一些可以補充替代的指標如下,但是離線評估也存在相應的問題:

  1. 資料集的稀疏性限制了適用範圍,使用者之間的交集稀疏。

  2. 評價結果的客觀性,由於使用者的主觀性,不管離線評測的結果如何,都不能得出使用者是否喜歡某推薦系統的結論,只是一個近似的評估。

  3. 深度評估指標的缺失。(如點選深度、購買客單價、購買商品類別、購買偏好)之間的關聯關係。

  4. 冷啟動

  5. Exploration 和 Exploitation問題

離線模型之間的評估

召回集測試

  • recall
    命中skn個數/使用者真實點選skn個數

  • precision
    命中skn個數/所有預測出來的skn總數

  • F1-Measure
    2/(1/recall+1/precison)

  • 互動熵

  • MAE

  • RMSE

  • 相關性
    常見的比如:Pearson、Spearman和Kendall’s Tau相關,其中Pearson是更具數值之間的相似度,Spearman是根據數值排序之間的相似度,Kendall’s Tau是加權下的數值排序之間的相似度。

  • 基尼係數

  • 資訊熵

排序部分測試

  • NDCG(Normalize DCG)

  • RBP(rank-biased precision)

RBP和NDCG指標的唯一不同點在於RBP把推薦列表中商品的瀏覽概率p按等比數列遞減,而ND CG則是按照log調和級數形式。

離線模型與線上模型之間的評估

很多時候,我們需要確定離線模型的效果足夠的健壯才能允許上線進行線上測試,那如何進行離線模型與線上模型的評估對比就是一個比較複雜的問題。

難點

  • 缺乏公平的測試資料
    實際處理過程中,我們發現,所有的已知點選都是來自線上模型推薦的結果,所以極端情況下,線上的recall是100%

  • 缺乏公認的衡量指標
    線上下對比中,我們發現比如recall、precision、F1-Measure等指標都是大家約定俗成的,不存在很大的爭議,而離線線上模型對比卻沒有一個準確公認的衡量指標

指標設計

  • online_offline_cover_rate&first_click_hit_rate

這一組指標是結合在一起看的,其中online_offline_cover_rate是指標對每一個使用者計算理線模型推薦的商品與線上模型推薦的商品的重合個數/線上模型的推薦商品個數,online_offline_cover_rate越低代表離線模型相對線上模型越獨立;first_click_hit_rate是指offline模型對使用者每天第一次點選的命中率,也就是命中次數/總統計使用者數。
結合這兩個指標,我們可以得到在online_offline_cover_rate越低的情況下,卻能覆蓋線上使用者真實點選的次數越多,代表offline模型的效果優於線上模型。

  • online_precision_rate/offline_precision_rate

離線模型的準確率和線上模型的準確率。


這邊在實際計算的時候採取了一個技巧,針對某個推薦位計算線上模型準確率的時候,用的是從來沒有瀏覽過這個推薦位的使用者的瀏覽歷史匹配這個使用者這個推薦位的推薦結果。這樣可以避免使用者的點選結果受到推薦位推薦結果影響的問題。

舉個例子:使用者在推薦位A上沒有瀏覽過,他的點選是不受推薦位A推薦的商品影響的,拿這個使用者推薦位A我們給他線上推薦的結果作為線上模型的推薦結果去計算,這樣才更加合理。

  • online_recall_rate/offline_recall_rate

離線模型的召回率和線上模型的召回率。


同上解釋。

  • roi_reall/roi_precision

同上解釋,只是把未來的點選作為match源更換成了加購物車、購買、收藏這些資料。

其他評估方向

覆蓋率

推薦覆蓋率越高, 系統給使用者推薦的商品種類就越多 ,推薦多樣新穎的可能性就越大。如果一個推薦演算法總是推薦給使用者流行的商品,那麼它的覆蓋率往往很低,通常也是多樣性和新穎性都很低的推薦。

多樣性

採用推薦列表間的相似度(hamming distance、Cosine Method),也就是使用者的推薦列表間的重疊度來定義整體多樣性。

新穎性

計算推薦列表中物品的平均流行度。

其他

使用者滿意度、使用者問卷、信任度、魯棒性、實時性。

評測維度

最後說一下評測維度分為如下3種,多角度評測:

  • 使用者維度
    主要包括使用者的人口統計學資訊、活躍度以及是不是新使用者等。

  • 物品維度
    包括物品的屬性資訊、流行度、平均分以及是不是新加入的物品等。

  • 時間維度
    包括季節,是工作日還是週末,是白天還是晚上等。

附常規評價指標的整理結果(來自論文Evaluation Metrics for Recommender Systems):

640?wx_fmt=png

原文連結:https://www.jianshu.com/p/54182c5e1fb0

查閱更為簡潔方便的分類文章以及最新的課程、產品資訊,請移步至全新呈現的“LeadAI學院官網”:

www.leadai.org

請關注人工智慧LeadAI公眾號,檢視更多專業文章

640?wx_fmt=jpeg

大家都在看

640.png?