1.13《推薦系統實踐》筆記（上）

阿新 • • 發佈：2018-12-30

兩天一口氣看完《推薦系統實踐》，非常的爽，收穫非常的大。作者不僅是技術性介紹，更是結合自己的商業理解。加上作者長時間的競賽工作第一手經驗，本書價值非常大！！！

《推薦系統實踐》筆記
作者：項亮
出版社：人民郵電出版社
圖靈原創

筆記作者：jinwangjoshua（Github歡迎加星）

第一章好的推薦系統

應用：
- 電子商務，電影視訊，音樂電臺，社交網路，閱讀，基於位置（外賣，打車），個性化郵件，個性化廣告
推薦系統評測
- 實驗方法：離線實驗，使用者調查，線上實驗（AB test）
- 評價指標：
  ○ 使用者滿意度：問卷調查
  ○ 預測準確度：評分RMSE, MAE; TopN推薦
  ○ 覆蓋率：發現長尾物品
  ○ 多樣性：覆蓋使用者不同興趣
  ○ 新穎性（流行度反過來）
  ○ 驚喜度，信任度，實時性，健壯性（Robust）
  ○ 商業目標（廣告盈利）
- 評價維度：使用者維度，物品維度，時間維度

第二章利用使用者行為資料

使用者行為資料一般以日誌儲存；一般分散式儲存：離線分析hadoop hive，線上分析google dremel
使用者行為在個性化推薦系統中一般分兩種——顯性反饋行為（explicit feedback）和隱性反饋行為（implicit feedback）。顯性反饋行為包括使用者明確表示對物品喜好的行為
使用者行為長尾分佈zipf；長尾分佈的雙對數曲線是直線
常用資料集delicious， citeUlike原始資料； netflix，movielens人工清洗過來
使用者越活躍，越傾向於瀏覽冷門物品
協同過濾演算法：如基於鄰域的方法（neighborhood-based基於使用者和基於物品）、隱語義模型（latent factor model）、基於圖的隨機遊走演算法（random walk on graph）
評測方法：離線實驗，使用者調查，線上實驗
實驗例子：本章著重研究隱反饋資料集中的TopN推薦問題，因此忽略了資料集中的評分記錄。也就是說，TopN推薦的任務是預測使用者會不會對某部電影評分，而不是預測使用者在準備對某部電影評分的前提下會給電影評多少分。
- 資料集：movielense
- 實驗設計：劃分資料集，測量評測指標
- 評測指標：
  ○ 召回率描述有多少比例的使用者—物品評分記錄包含在最終的推薦列表中
  ○ 準確率描述最終的推薦列表中有多少比例是發生過的使用者—物品評分記錄。
  ○ 覆蓋率反映了推薦演算法發掘長尾的能力，覆蓋率越高，說明推薦演算法越能夠將長尾中的物品推薦給使用者。覆蓋率表示最終的推薦列表中包含多大比例的物品
  ○ 推薦的新穎度，這裡用推薦列表中物品的平均流行度度量推薦結果的新穎度；越不流行越新穎
基於使用者的協同過濾演算法（UerCF演算法）：基於使用者相似的興趣和口味
- 計算使用者興趣相似度：很多使用者相互之間並沒有對同樣的物品產生過行為，為此，可以首先建立物品到使用者的倒排表，對於每個物品都儲存對該物品產生過行為的使用者列表；然後，建立一個4×4的使用者相似度矩陣W，對於物品a，將W[A][B]和W[B][A]加1，對於物品b，將W[A][C]和W[C][A]加1，以此類推。掃描完所有物品後，我們可以得到最終的W矩陣。這裡的W是餘弦相似度中的分子部分，然後將W除以分母可以得到最終的使用者興趣相似度。
- 得到使用者之間的興趣相似度後，UserCF演算法會給使用者推薦和他興趣最相似的K個使用者喜歡的物品。
- Random演算法每次都隨機挑選10個使用者沒有產生過行為的物品推薦給當前使用者，MostPopular演算法則按照物品的流行度給使用者推薦他沒有產生過行為的物品中最熱門的10個物品
改進User-IIF演算法（John S. Breese改進）：計算興趣相似度時候，懲罰了使用者u和使用者v共同興趣列表中熱門物品對他們相似度的影響。
UserCF應用：不多，比如Digg
- 缺點：當用戶數量太大，使用者相似度計算量（時間複雜度和空間複雜度）太大；
基於物品的協同過濾（ItemCF演算法）：）給使用者推薦那些和他們之前喜歡的物品相似的物品
- 並不利用物品內容屬性計算物品相似度，？？？？它主要通過分析使用者的行為記錄計算物品之間的相似度
- 給出推薦理由：根據你購買/喜歡/收藏的XX推薦；Customers Who Bought This Item Also Bought
ItemCF步驟：計算物品相似度；根據物品相似度和使用者的歷史行為進行推薦
- 計算物品相似度：
  
  ○ 首先建立使用者—物品倒排表，而不是基於內容屬性
- 評價：精度（準確度，召回率）；流行度；覆蓋率
改進ItemCF：（ItemCF-IUF）
- 為IUF（Inverse User Frequence），即使用者活躍度對數的倒數的引數；活躍使用者對物品相似度的貢獻應該小於不活躍的使用者, John S. Breese提出應該增加IUF 引數來修正物品相似度的計算公式
- 過於活躍使用者直接忽略，比如在噹噹進貨的實體店店主
- 相似度矩陣進行最大值歸一化，（提高準確度，覆蓋率，多樣性）
  ○ 消除類別內部之間相似度差異，可以提高推薦的多樣性。
  ○ 不進行歸一化，就會推薦比較熱門的類裡面的物品，而這些物品也是比較熱門的。因此，推薦的覆蓋率就比較低
- 哈利波特問題（極度熱門商品）：修改相似度，引入懲罰係數Alpha（通常0.5），加大懲罰
UserCF和ItemCF的綜合比較
- UserCF的推薦結果著重於反映和使用者興趣相似的小群體的熱點，而ItemCF 的推薦結果著重於維繫使用者的歷史興趣。換句話說，UserCF的推薦更社會化，反映了使用者所在的小型興趣群體中物品的熱門程度，而ItemCF的推薦更加個性化，反映了使用者自己的興趣傳承。為什麼Digg使用UserCF，而亞馬遜網使用ItemCF呢？
  ○ 內容上：在新聞網站中，使用者的興趣不是特別細化，絕大多數使用者都喜歡看熱門的新聞。即使是個性化，也是比較粗粒度的，比如有些使用者喜歡體育新聞，有些喜歡社會新聞，而特別細粒度的個性化一般是不存在的。
  ○ 技術上實效性：Item難以實現快速更新，因為需要維護物品相關度矩陣（書中說一天一更），而新聞注重實效性；但是電子商務和圖書電影方面，使用者興趣一般比較固定和持久
  ○ 計算上：使用者很多，那麼維護使用者興趣相似度矩陣需要很大的空間，
- 都是基於使用者對物品行為，不涉及物品的內容資料，這是與LFM隱語義模型區別所在
- 選擇：先滿足產品需求（比如解釋的需要）；其次看實現代價（技術能力）
隱語義模型（LFM，latent factor model ）
- 核心思想是通過隱含特徵 (latent factor)聯絡使用者興趣和物品．對書和物品的興趣進行分類。對於某個使用者，首先得到他的興趣分類，然後從分類中挑選他可能喜歡的物品
- 總結一下，這個基於興趣分類的方法大概需要解決3個問題。
  ○ 如何給物品進行分類？
  § 編輯分類難點：和使用者分類有出入；難以控制顆粒度；難以給出多分類；很難多維度分類（內容，作者，出版社等等）；難決定物品在分類中權重
  § 解決：ＬＦＭ讓使用者分類；自動多分類；自動計算物品屬於每個類別權重和一個物品在某個分類中的權重；制定分類－＞數字越大，分類越細
  ○ 如何確定使用者對哪些類的物品感興趣，以及感興趣的程度？
  ○ 對於一個給定的類，選擇哪些屬於這個類的物品推薦給使用者，以及如何確定這些物品在一個類中的權重？
- 常用模型和方法：有pLSA、LDA、隱含類別模型（latent class model）、隱含主題模型（latent topic model）、矩陣分解（matrix factorization）
- 使用場景：
  ○ 顯性反饋資料（評分資料）達到很好精度；
  ○ 書中介紹隱形反饋資料集（問題是隻有正樣本而沒有負樣本）
  § 解決：採集負樣本–沒有行為的樣本
  § 遵循原則：正負數目平衡；儘量選取很熱門使用者卻沒有行為的物品
模型細節：損失函式（注意正則項）；隨機梯度下降
- LFM重要引數：
  ○ 隱形特徵F
  ○ 學習速率alpha
  ○ 正則係數lambda
  ○ 負/正樣本比例ratio：影響最大，控制推薦演算法發掘長尾能力（流行度），影響準確度（本書中1-10之內準確率上升趨勢，之後平穩）
- 例子：雅虎個性化首頁Bee-Chung Chen、Deepak Agarwal、Pradheep Elango和Raghu Ramakrishnan的“Latent Factor Models for Web Recommender Systems”; 雅虎的研究人員以CTR作為優化目標，利用LFM來預測使用者是否會單擊一個連結。為此，他們將使用者歷史上對首頁上鍊接的行為記錄作為訓練集。解決實效性？長期歷史行為LFM（每天更新） + 最近幾小時歷史行為LFM （快速計算）
LFM和基於鄰域比較
| LFM | UesrCF/ItemCF |
| 理論基礎 | 機器學習方法 | KNN, 統計 |
| 離線計算空間複雜度 | 小很多 | 大很多 |
| 離線計算時間複雜度 | 沒大區別 | 沒大區別 |
| 線上實時推薦 | 難以實時 | 將需要表格快取在記憶體中 |
| 推薦解釋 | 基於使用者行為進行內容分類，但是難以描述 | 根據使用者歷史記錄進行推薦
基於圖的模型：將user-item relationship當作二分圖，查詢兩個頂點相關性
- 相關性高度頂點的特徵：
  ○ 兩個頂點之間有很多路徑相連；
  ○ 連線兩個頂點之間的路徑長度都比較短；
  ○ 連線兩個頂點之間的路徑不會經過出度比較大的頂點。
- 典型演算法是基於隨機遊走的PersonalRank演算法：假設要給使用者u進行個性化推薦，可以從使用者u對應的節點vu開始在使用者物品二分圖上進行隨機遊走。遊走到任何一個節點時，首先按照概率 α 決定是繼續遊走，還是停止這次遊走並從vu節點開始重新遊走。如果決定繼續遊走，那麼就從當前節點指向的節點中按照均勻分佈隨機選擇一個節點作為遊走下次經過的節點。這樣，經過很多次隨機遊走後，每個物品節點被訪問到的概率會收斂到一個數。最終的推薦列表中物品的權重就是物品節點的訪問概率。
  （非本書內容）知乎嚴林：基於圖的演算法（如PersonalRank等），由於其計算複雜度很高，在工業界應用是比較少的。https://www.zhihu.com/question/30467586

2.1 2.2 系統目錄結構（上）（下）

都是掛載 sbin 樹形 dia user 重要網卡指定 1.ls列取系統目錄文件ls list [root@laozhilinux-01:~] # ls /bin data docs home lib media opt

《推薦系統實踐》（一）——推薦系統評測

一、預測準確度 <1>、評分預測 1.均方根誤差（RMSE）（1）均方根(RMS)也稱為效值，公式：Xrms=∑i=1NXi2NX_{rms}=\frac{\sqrt{\sum_{i=1}^NX_i^2}}{N}Xrms=N∑i=1NXi2

推薦系統論文筆記（4）：Comparison of Collaborative Filtering Algorithms:Limitations of Current Techniques .....

一、基本資訊論文題目：《Comparison of Collaborative Filtering Algorithms:Limitations of Current Techniques and Proposals for Scalable,High-Performance Recommen

推薦系統論文筆記（2）：Towards the Next Generation of Recommender Systems:A Survey of the State-of-the-Art ....

一、基本資訊論文題目：《Towards the Next Generation of Recommender Systems:A Survey of the State-of-the-Art and Possible Extensions》發表時間：July 2005,IEEE Tran

推薦系統論文筆記（7）：A survey of collaborative filtering based social recommender systems

一、基本資訊論文題目：《A survey of collaborative filtering based social recommender systems》發表時間：2014,Computer Communications 論文作者及單位：Yang, X.(Polytechni

推薦系統論文筆記（6）：Social Recommendation: A Review

一、基本資訊論文題目：《Social Recommendation: A Review》發表時間：2013 論文作者及單位：Jiliang Tang,Xia Hu,Huan Liu (Arizona State University) 論文地址：https://lin

mahout之推薦系統原始碼筆記（4） ---總結與優化

mahout之推薦系統原始碼筆記（4） —總結與優化花了幾天的時間閱讀分析了mahout推薦系統中基於java單機和基於hadoop的分散式mapreduce原始碼。根據其推薦系統hadoop程式的job劃分寫了筆記1、2、3。在這裡，基於筆記1，2，3做一

1.13《推薦系統實踐》筆記（上）

兩天一口氣看完《推薦系統實踐》，非常的爽，收穫非常的大。作者不僅是技術性介紹，更是結合自己的商業理解。加上作者長時間的競賽工作第一手經驗，本書價值非常大！！！《推薦系統實踐》筆記作者：項亮出版社：人民郵電出版社圖靈原創筆記作者：jinwan

推薦系統論文筆記（1）:Hybrid Recommender Systems:Survey and Experiments

一、基本資訊論文題目：《Hybrid Recommender Systems:Survey and Experiments》論文發表時間： 2002, 論文作者及單位：Robin Burke(California State University) 我的評分：5顆星

深度學習實踐系列之--身份證上漢字及數字識別系統的實現（上）

手動 ear 常用 env 窗口 mic 文件下載 oot edr 前言：本文章將記錄我利用深度學習方法實現身份證圖像的信息識別系統的實現過程，及學習到的心得與體會。本次實踐是我投身AI的初次系統化的付諸實踐，意義重大，讓自己成長許多。終於有空閑的時間，將其

2018-4-25 18周1次課分發系統-expect講解（上）

expect20.27 分發系統介紹由於業務叠代更新，需要更改代碼，如果機器很多，那麽久需要一個分發系統，可以把每段時間更新的代碼分別發布到機器上去分發系統就是上線的shell腳本，核心為expectexpect是一種腳本語言，和shell很像，可以用它去實現傳輸文件和遠程執行命令，不需要去輸入密碼20.28

《大型網站系統與Java中介軟體》讀書筆記（上）

前言只有光頭才能變強。文字已收錄至我的GitHub倉庫，歡迎Star：https://github.com/ZhongF

操作系統進程（上）

系統 span 理解 .html 來看是什麽方法外部 str 一、什麽是並發　　並發是什麽？很簡單，前面介紹的多道批處理系統就是典型的並發執行。這裏再次過一遍高性能的多道批處理系統，其本質在於保持對系統資源的占用，CPU運行一個任務，若這個任務中斷，如需要IO請求之

Unity3D之Mecanim動畫系統學習筆記（二）：模型導入

leg character ... sdk ocs 物體 mat 版本 sset 我們要在Unity3D中使用上模型和動畫，需要經過下面幾個階段的制作，下面以一個人形的模型開發為準來介紹。模型制作模型建模（Modelling）我們的美術在建模時一般會制作一個稱為

Unity3D之Mecanim動畫系統學習筆記（六）：使用腳本控制動畫

ont nim 復制代碼 info rip esc enter machine images 控制人物動畫播放這裏我重新弄了一個簡單的場景和新的Animator Controller來作為示例。下面先看看Animator Controller的配置：人物在站

Unity3D之Mecanim動畫系統學習筆記（五）：Animator Controller

浮點 key 發現菜單融合 stat mon 好的 project 簡介 Animator Controller在Unity中是作為一種單獨的配置文件存在的文件類型，其後綴為controller，Animator Controller包含了以下幾種功能：可以對

Unity3D之Mecanim動畫系統學習筆記（四）：Animation State

大致面板輸入 jpg any 動畫播放速度 nsf 顯示動畫的設置我們先看看Animation Clip的一些設置： Loop time：動畫是否循環播放。下面出現了3個大致一樣的選項： Root Transform Rotation：表示為播放動畫

3.2《深入理解計算機系統》筆記（二）內存和高速緩存的原理【插圖】

img sram 本質 text ddr rate too 是我很大的《深入計算機系統》筆記（一）主要是講解程序的構成、執行和控制。接下來就是運行了。我跳過了“處理器體系結構”和“優化程序性能”，這兩章的筆記繼續往後延遲！《深入計算機系統》的一個很大的用處

操作系統學習筆記（五）頁面置換算法

進入 es2017 問題簡單 .cn 討論相同一位四種操作系統將內存按照頁的進行管理，在需要的時候才把進程相應的部分調入內存。當產生缺頁中斷時，需要選擇一個頁面寫入。如果要換出的頁面在內存中被修改過，變成了“臟”頁面，那就需要先寫會到磁盤。頁面置換算法，就是要選出

Asp.net core 2.0.1 Razor 的使用學習筆記（一）

提升完成後安全 provider razor 官方 one text .cn 環境：vs2017 版本：15.5.6 這裏說明下， Razor頁面模式跟mvc出現了嚴重的不同。正如微軟官方說的一樣“Razor 頁面是 ASP.NET Core MVC 的一

1.13《推薦系統實踐》筆記（上）

第一章 好的推薦系統

第二章 利用使用者行為資料

相關推薦

第一章好的推薦系統

第二章利用使用者行為資料