1. 程式人生 > >實戰智慧推薦系統(6)-- 使用者行為分析

實戰智慧推薦系統(6)-- 使用者行為分析

使用者行為資料

為了讓推薦結果個性化,就需要深入瞭解使用者。生活中通過“聽其言,觀其行”來了解一個人。而對於演算法,則是分析使用者行為日誌。

使用者行為在個性化推薦系統中一般分成兩種-- 顯性反饋行為和隱性反饋行為。顯性反饋行為包括使用者明確表示對物品喜好的行為,比如對商品評分,喜歡或不喜歡。隱性反饋行為指的是那些不能明確反饋客戶喜好的行為,比如使用者瀏覽行為。相比於顯性反饋,隱性反饋雖然不明確,但資料量更大。在很多網站中,很多使用者只有隱性反饋行為,沒有顯性反饋行為。比如我從來不會對看過的電影,購買過的商品,聽過的音樂進行評論。


使用者行為有很多種,比如瀏覽網頁,購買商品,評論,評分等。。。要用一個同一的格式表示所有的這些行為是比較困難的。下表給出了一種表示方式,將一個使用者行為表示為6 部分,即產生行為的使用者和行為的物件

(這兩個是任何表示形式中不可少的),行為的種類,產生行為的上下文,行為的內容和權重。


長尾分佈

1932年,哈佛大學的語言學家Zipf 在研究英文單詞詞頻時發現,如果將單詞出現的頻率按照由高到低排列,則每個單詞出現的頻率和它在熱門排行榜中排名的常數次冪成反比。這個分佈被稱為 Zipf 定律。

很多人員發現,使用者行為資料也蘊含著這種規律。令 fu(k) 為對k 個物品產生過行為的使用者數,fi(k) 為被k 個使用者產生過行為的物品的數量。我們選擇 Delicious 和 CiteULike 資料集一個月的原始資料進行分析,物品流行度的長尾分佈和使用者活躍度的長尾分佈如下:



使用者活躍度和物品流行度的關係

一般來說,不活躍的要麼是新使用者,要麼是隻來過網站一兩次的老使用者。一般認為,新使用者傾向於瀏覽熱門的物品,而老使用者會逐漸開始瀏覽冷門的物品。圖2-5 展示了 MovieLens 資料集中使用者活躍度和物品流行度之間的關係,這表明使用者越活躍,越傾向於瀏覽冷門的物品