【論文閱讀-CTR】<<Collaborative Filtering for Implicit Feedback Datasets>>閱讀
摘要:
以前的推薦使用用戶的明確反饋,我們使用隱反饋;
文中方法優化過程和數據量呈線性關系;可以很好地和已有系統融合;
我們講給出一個方法的解釋。
1、介紹
1)電子商務對推薦要求很大
2)傳統的推薦方法:
一、基於內容,缺點:數據不好搜集
二、協同過濾:優點:領域無關,可以捕獲基於內容難以獲得的信息,精度高
缺點:冷啟動,基於內容的無此問題
3)推薦系統的數據類型:
一、顯性數據:評分,贊同/反對(thumbs-up/down),可用數據少
二、隱性數據:購買、瀏覽、搜索等,數據多
4)隱性反饋數據的特點:
一、沒有負反饋
二、數據有噪聲:可能不是出於自己的需求發生行為(送禮);買了不喜歡;觀看熱門視頻
三、顯性數值特征反應偏好,隱性特征反應信心
四、度量標準不好確定:顯性反饋用MSE,隱性不知道
2、基礎設置
u,v表示用戶;i,j表示item;r(u,i)表示行為or打分;沒有行為記為0分。
3、之前的工作
1)鄰域模型:先有user-base,後有item-base;item-base效果更好,原因是item反應用戶偏好;而相似用戶估計不準
item-cf在顯性反饋中用的也多,並且可以使用用戶和item bias優化;但是隱性反饋使用諸如頻次這樣的數據,不適合;
item-cf不好的地方在於無法區分用戶偏好
2)LFM:pLSA,nn,LDA,SVD
svd用於顯性數據;優於cf
本文核心是用svd於隱性數據
4、建模
1)模型:帶權重的svd,權重項表示confidence
2)數據量級太大,sgd難以計算,使用als計算;als在大量miss值時好計算,在dense情況下不好算
3)基於ALS的優化,使時間復雜度降低為線性時間(推導沒看懂)
4)建模變形:p(u,i)和c(u,i)的變化
5、模型解釋
和模型推導一樣,沒看明白
6、
【論文閱讀-CTR】<<Collaborative Filtering for Implicit Feedback Datasets>>閱讀