推薦系統之評測指標
阿新 • • 發佈:2021-09-09
推薦系統上線後需要有指標來評估系統建設的成效,同時根據指標結果分析推薦系統優化方向。
一、使用者滿意度
可通過問卷調查、使用者行為統計等手段衡量使用者滿意度,其中使用者行為包括轉化率、反饋按鈕等等。
二、預測準確度
主要通過離線資料集進行測評,不同的推薦方式有不同的指標值進行評分。
- 評分預測
- 均方根誤差RMSE
- 平均絕對誤差MAE
- TopN推薦
- 一般通過準確率precision/召回率recall
三、覆蓋率Coverage
覆蓋率代表了長尾挖掘能力,即商品都出現在推薦中,並且次數相似。
- 資訊熵:其中使用的p(i)等於物品i的流行度除以所有物品流行度之和
- 基尼係數Gini index:可用來評測推薦是否具有馬太效應
四、多樣性
物品倆倆之間的不相似性。diversity
五、新穎性
推薦使用者沒見過的物品,推薦結果的平均流行度,越冷門越新穎。
六、驚喜度
與使用者歷史興趣不相似,但卻讓使用者覺得滿意
七、信任度
一般通過問卷調查的方式評測,提高信任度一般使用以下兩個方法:
- 增加推薦系統的透明度transparency,提供推薦解釋
- 利用社交網路資訊,並用好友進行推薦解釋
八、實時性
部分型別的物料具有強時效性,比如新聞微博等等,因此需要推薦系統具有實效效能。
- 需要實時更新推薦列表來滿足環境或使用者行為的變化,可通過推薦列表的變化速率來評測。
- 能夠將新加入系統的物料推薦給使用者,即物品冷啟動的能力,可通過推薦列表中當日新品的比例來評測。
九、健壯性robust
衡量推薦系統抗擊作弊的能力。測量健壯性,一般要注入噪聲資料,觀察推薦列表的變化程度,變化越小證明噪聲的影響越小。提高推薦系統健壯性一般通過如下方法:
- 系統設計時使用代價比較高的使用者行為作為推薦依據,比如購買。
- 使用資料前,進行攻擊檢測,清理作弊資料。
十、商業目標
根據企業的盈利模式設計不同的商業目標。
總結:
- 應在多重維度(使用者、物料、日期等等)下來審視演算法的優劣,揚長補短。
- 指標計算最重要的問題是,如何通過優化離線計算來提高線上計算。評測指標的途徑如下:
- 推薦系統應在指定的覆蓋率、多樣性、新穎性的限制條件下,儘量優化預測準確度。