[論文筆記]Item-based collaborative filtering recommendation algorithms
作者:Badrul Sarwar, George Karypi, Joseph Konstan, John Riedl
內容概要
1. 協同過濾:
目標:推薦TOP N item
類別:memory-based, model-based。
2. user-based的協同過濾的問題: a. 資料稀疏性 b.可擴充套件性(因為它在推薦時需要用到鄰居資訊,並且鄰居更新更頻繁)
3. item-based協同過濾
3.1 item相似度
a. cosine相似度:只考慮item向量的點積
b. correlation-based相似度(Pearson相似度):考慮了item的平均評分
c. adjusted cosine相似度:考慮了使用者對item的平均評分
3.2 預測計算:
a. 使用相似度加權平均
b. 使用迴歸模型。使用加權平均時,採用的與預測item i相似的item j的相似度Sim j* j的評分Rj。而使用迴歸模型時,它會計算出一個線性迴歸 f(j) =α*avg(Rj) + β + ξ,從而計算出一個不同於Rj的分值,然後再使用加權平均。
3.3 計算效能
item相似度離線計算。
推薦的時候,有兩種策略,相對於最精確的取所有的n個相似商品,一種更為有效的策略是隻取k(model size)個相似商品,其中k<<n。
4. 實驗評估
4.1 資料來源:採用了MovieLens的資料,包含了943個使用者和1682部電影。其中評分數量為10W,即資料稀疏度為 1 - 100000/(943*1682) = 0.9369。
4.2 評價指標:
a. statistical accuracy metrics:MAE(mean absolute error), RMSE等
b. decision support accuracy metrics:reversal rate, weighted errors, ROC等
本論文使用MAE來評價推薦質量。
4.3 結果
a. 相似度評價:adjusted cosine相似度效果最好。
b. 訓練/測試集拆分比例: 80%的訓練集效果最好
c. model size(相似item數量):基本的item-item演算法,model size越大,推薦質量越好。然而基於迴歸的item-item演算法,先是隨著model size的增大有改善,再大之後就出現了過度擬合(論文觀點),導致質量下降。權衡兩者之後,取的model size=30。