1. 程式人生 > 其它 >推薦系統之評測指標

推薦系統之評測指標

推薦系統上線後需要有指標來評估系統建設的成效,同時根據指標結果分析推薦系統優化方向。

一、使用者滿意度

  可通過問卷調查、使用者行為統計等手段衡量使用者滿意度,其中使用者行為包括轉化率、反饋按鈕等等。

二、預測準確度

  主要通過離線資料集進行測評,不同的推薦方式有不同的指標值進行評分。

  • 評分預測
    • 均方根誤差RMSE
    • 平均絕對誤差MAE
  • TopN推薦
    • 一般通過準確率precision/召回率recall

三、覆蓋率Coverage

  覆蓋率代表了長尾挖掘能力,即商品都出現在推薦中,並且次數相似。

  • 資訊熵:其中使用的p(i)等於物品i的流行度除以所有物品流行度之和
  • 基尼係數Gini index:可用來評測推薦是否具有馬太效應

四、多樣性

  物品倆倆之間的不相似性。diversity

五、新穎性

  推薦使用者沒見過的物品,推薦結果的平均流行度,越冷門越新穎。

六、驚喜度

  與使用者歷史興趣不相似,但卻讓使用者覺得滿意

七、信任度

  一般通過問卷調查的方式評測,提高信任度一般使用以下兩個方法:

  • 增加推薦系統的透明度transparency,提供推薦解釋
  • 利用社交網路資訊,並用好友進行推薦解釋

八、實時性

  部分型別的物料具有強時效性,比如新聞微博等等,因此需要推薦系統具有實效效能。

  • 需要實時更新推薦列表來滿足環境或使用者行為的變化,可通過推薦列表的變化速率來評測。
  • 能夠將新加入系統的物料推薦給使用者,即物品冷啟動的能力,可通過推薦列表中當日新品的比例來評測。

九、健壯性robust

  衡量推薦系統抗擊作弊的能力。測量健壯性,一般要注入噪聲資料,觀察推薦列表的變化程度,變化越小證明噪聲的影響越小。提高推薦系統健壯性一般通過如下方法:

  • 系統設計時使用代價比較高的使用者行為作為推薦依據,比如購買。
  • 使用資料前,進行攻擊檢測,清理作弊資料。

十、商業目標

  根據企業的盈利模式設計不同的商業目標。

總結:

  • 應在多重維度(使用者、物料、日期等等)下來審視演算法的優劣,揚長補短。
  • 指標計算最重要的問題是,如何通過優化離線計算來提高線上計算。評測指標的途徑如下:
  • 推薦系統應在指定的覆蓋率、多樣性、新穎性的限制條件下,儘量優化預測準確度。