1. 程式人生 > >四種推薦系統原理介紹(基於內容過濾/協同過濾/關聯規則/序列模式)

四種推薦系統原理介紹(基於內容過濾/協同過濾/關聯規則/序列模式)

      在推薦系統中常用的技術可大致分為四類:基於內容的過濾、協同過濾、基於規則的方法和混合方法。

一、基於內容過濾

        基於內容過濾推薦系統思路如下:

      (1)通過在抓取每個商品的一系列特徵來構建商品檔案;

      (2)通過使用者購買的商品特徵來構建基於內容的使用者檔案;

      (3)通過特定的相似度方程計算使用者檔案和商品檔案的相似度;

      (4)推薦相似度最高的n個商品。所以,這種推薦基於與已購買商品的相似度來進行推薦。

        最初,這種系統用於文件推薦如網路新聞, 網頁以及書籍。 使用者檔案和商品檔案都以使用資訊提取技術或資訊過濾技術提取出的關鍵詞集合來表示。鑑於兩個檔案都以權重向量的形式表示,則相似度分數則可以使用如餘弦近似度方程或皮爾森相關係數等啟發式方程來計算得到。其它的技術如分類模型,構建一個統計方法或者資料探勘方法,來判斷文件內容和使用者是否相關。

        基於內容過濾侷限:

     (1)不容易找到足夠數量的特徵來構建檔案(特徵缺少問題);

       (2) 推薦內容侷限於目標使用者已購買商品(超特化問題);

       (3) 還未有購買記錄的新使用者或偏好特殊的使用者不能得到合適的推薦(新使用者、特殊使用者問題) 。

二、協同過濾

          協同過濾推薦系統思路如下:

     (1)從每個使用者對商品的評級資訊中構建使用者檔案;

     (2)使用如餘弦相似度、皮爾森相關係數或距離函式來識別和目標使用者具有相似意向的使用者,他們對商品有相似的評級;

     (3)對來自具有相似意向使用者的偏好評級取均值、加權和或調整後的加權和,推薦n個商品。

       所以,這種方法基於使用者之間的相似性來進行推薦。這種評級預測的方法稱為基於記憶的方法。其它的評級預測方法為基於模型的方法,這種方法從大量的評級資料上建立概率模型和機器學習模型來預測商品的評級。基於協同過濾的推薦系統目前有很多優化改進,包括推薦新聞的Tapestry演算法,網路新聞的GroupLens演算法,針對音樂的Ringo演算法。

        協同過濾推薦的侷限如下:

     (1)對於還未給商品評級的使用者無法進行商品推進(新使用者問題);

     (2)對未被評過的商品進行推薦也有難度(新商品問題);

     (3)評級資訊缺乏時推薦效果較差(稀疏問題)。

三、基於規則的方法

          還有計算簡單且流行的推薦方法為基於規則的方法。使用資料探勘技術從大量的過往交易資料中獲取規則。它可以是會同時被購買的商品之間的關聯規則,也可以是按時間依次被購買商品的序列模型。基於規則的推薦方法的主要侷限為難以為沒有在關聯規則或序列模型中出現的商品進行推薦。Aggarwal提出了一種針對目標市場的發現區域性關聯規則的技術。他們首先聚類分析了來自UCI機器學習資料中的蘑菇資料集和成人資料集兩個購物籃資料,然後從每個類別中提取關聯規則。Huang提出了一個序列模式推薦系統來預測超市中顧客隨時間變換的購買行為。

四、混合方法

        混合推薦系統目的在於減少乃至克服基於內容推薦、協同過濾和基於規則的推薦系統的侷限。Fab系統聯合了協同過濾和基於內容過濾技術來消除基於內容過濾技術中的特徵缺乏和超特化問題以及協同過濾中的新商品問題。在這個系統中,基於內容的使用者檔案依舊用來尋找相似的使用者來進行協同推薦,商品會在以下兩個條件同時滿足時推薦給使用者:(1)被推薦商品在目標使用者檔案中有較高的分數;(2)被推薦商品在目標使用者的相似使用者中有較高的評級。Liu對購物籃資料使用二變數選擇分析(購買/未購買)聚類並選出k個近鄰,從k個近鄰中的購買頻次來獲得商品(未被目標使用者購買)得分的預測值。同時,根據新的隱式使用者評級資訊來從整個使用者空間來選擇近鄰,並根據這些近鄰的評級的調整加權和來給出商品(未被購買或已被購買)得分的預測值。另外,他們將整個時間劃分為三段,並對每個時間段的交易資料進行聚類分析,然後得到由三個階段順序交易資料聚類得到的序列模式,由此得到整個時間段由一系列商品代表的序列模式。因此,這種方法比其它方法更優在於可以做更過的個性化推薦。

五、總結

       在不同的推薦系統技術中,所需的資訊類別也有所不同。基於內容過濾推薦系統使用商品的內容資訊來構建使用者檔案並基於內容相似性來尋找目標使用者可能購買商品的類似品。另一方面,協同過濾推薦系統使用使用者的評級資訊來代表使用者對相應商品的偏好,並根據使用者們在評級上的相似性來預測使用者對某商品的評級。基於規則的方法使用使用者的購買行為資訊來獲得有意義的關聯規則和序列模式,並基於此進行推薦。