《集體智慧程式設計》學習筆記（一）

阿新 • • 發佈：2018-12-23

第二章提供推薦

1、蒐集偏好

先構造一個簡單的資料集：

#使用者對不同電影的評分
critics={'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5,
 'Just My Luck': 3.0, 'Superman Returns': 3.5, 'You, Me and Dupree': 2.5, 
 'The Night Listener': 3.0},

'Gene Seymour': {'Lady in the Water': 3.0, 'Snakes on a Plane': 3.5, 
 'Just My Luck 
': 1.5, 'Superman Returns': 5.0, 'The Night Listener': 3.0, 
 'You, Me and Dupree': 3.5}, 

'Michael Phillips': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.0,
 'Superman Returns': 3.5, 'The Night Listener': 4.0},

'Claudia Puig': {'Snakes on a Plane': 3.5, 'Just My Luck': 3.0,
 'The Night Listener' 
: 4.5, 'Superman Returns': 4.0, 
 'You, Me and Dupree': 2.5},

'Mick LaSalle': {'Lady in the Water': 3.0, 'Snakes on a Plane': 4.0, 
 'Just My Luck': 2.0, 'Superman Returns': 3.0, 'The Night Listener': 3.0,
 'You, Me and Dupree': 2.0}, 

'Jack Matthews': {'Lady in the Water': 3.0, 'Snakes on a Plane': 4.0,
  
'The Night Listener': 3.0, 'Superman Returns': 5.0, 'You, Me and Dupree': 3.5},

'Toby': {'Snakes on a Plane':4.5,'You, Me and Dupree':1.0,'Superman Returns':4.0}}

2、相似度評價值

評價值	特點
歐幾里德距離	多維空間中兩點之間的距離，用來衡量二者的相似度。距離越小，相似度越高。
皮爾遜相關度評價	判斷兩組資料與某一直線擬合程度的一種度量。在資料不是很規範的時候（如影評者對影片的評價總是相對於平均水平偏離很大時），會給出更好的結果。相關係數越大，相似度越高。

#歐幾里得距離
def disitance_simulation (critics, person1, person2):
    result = [name for name in critics[person1] if name in critics[person2]]
    if 0 == len(result):
        return 0
    #else:
    #    print (result)
    return (1 / (1 + sqrt(sum([pow(critics[person1][name] - critics[person2][name], 2) for name in result]))))
    
#皮爾遜相關度
#找出兩位評論者都曾評價過的物品，然後計算兩者的評分總和與平方和，並求出評分的乘積之和。
#利用上述計算結果計算出皮爾遜相關係數
def pearson_simulation (critics, person1, person2):
    result = [name for name in critics[person1] if name in critics[person2]]
    if 0 == len(result):
        return 0
    #else:
    #    print (result)
    #評分和
    sum1 = sum([critics[person1][name] for name in result])
    sum2 = sum([critics[person2][name] for name in result])
    #平方和
    sum1Sq = sum([pow(critics[person1][name], 2) for name in result])
    sum2Sq = sum([pow(critics[person2][name], 2) for name in result])
    #同一個電影的評分乘積之和
    sumM = sum([critics[person1][name] * critics[person2][name] for name in result])

    n = len(result)
    num = sumM - (sum1 * sum2 / n)
    den = sqrt((sum1Sq - pow(sum1, 2)/n) * (sum2Sq - pow(sum2, 2)/n))
    if 0 == den: return 0
    return (num/den)

注：皮爾遜相關度的計算中，如果某人總是傾向於給出比另一個人更高的分值，而兩者的分值之差又始終保持一致，則他們依然可能會存在很好的相關性。畢竟，這個方法認為最相關的時候就是“y=x”直線的時候。

3、提供推薦

①為評論者打分：

#為評論者打分
#計算其他使用者與某一使用者的相似度，並且排序
def sort_simulation (critics, person, simularity):
    result = [(simularity(critics, person, other), other) for other in critics if other != person]
    result.sort()
    result.reverse()
    return result

相似度越大，說明兩個人越具有相近的品味

②推薦物品：通過一個經過加權的評價值來為影片打分，並推薦給對應的影評者

#提供推薦
#根據與其他使用者的相似度，向用戶推薦電影
def get_recommendations(critics, person, simularity):
    sum = {}
    sumS = {}
    #計算出與不同使用者的相似度
    result = sort_simulation(critics, person, simularity) 
    #遍歷每個其他使用者的評分
    for i in range(0, len(result)):
        if 0 > result[i][0]: continue
        for movie in critics[result[i][1]]:
            #找到別人看過並且自己沒有看過的電影
            if movie in critics[result[i][1]] and movie not in critics[person]:
                sum.setdefault(movie, 0)
                #相似度*評分
                sum[movie] = sum[movie] + result[i][0] * critics[result[i][1]][movie]
                sumS.setdefault(movie, 0)
                #相似度之和
                sumS[movie] += result[i][0]
    #建立歸一化的表
    rank = [(sum[movie]/sumS[movie], movie) for movie in sum]
    rank.sort()
    rank.reverse()
    return (rank)

③匹配商品：通過將資料集中的人員和物品對換，構建新的資料集即可。

#將人名和電影名轉換
def tranfer_name(critics):
    result = {}
    for name in critics:
        for movie in critics[name]:
            result.setdefault(movie, {})
            result[movie][name] = critics[name][movie]
    return result

4、基於使用者進行過濾還是基於物品進行過濾？

協作型過濾：對一大群人進行搜尋並給出與我們相近的人的排名列表。

密集資料集：在涉及電影的例子中，由於每個評論者幾乎對他看過的每部影片都做過評價，所以資料集是密集的。

稀疏資料集：而每部電影並不會被所有的使用者評價，只有看過的使用者才會評價，這就形成了一個稀疏資料集。

基於使用者進行過濾和基於物品進行過濾最顯著的區別：物品間的比較不會像使用者間的比較那麼頻繁變化。

在擁有大量資料集的情況下，基於物品的協作型過濾能夠得出更好的結論，而且它允許我們將大量計算任務預先執行，從而使需要給予推薦的使用者能夠快速地得到他們所要的結果。

對於稀疏資料集，基於物品的過濾方法通常要優於基於使用者的過濾方法，而對於密集資料集而言，兩者的效果則幾乎是一樣的。

對商品推薦的一個通俗的解釋：

基於使用者的協同過濾基本思想非常簡單，就是找到志同道合的朋友，並把朋友感興趣的而使用者沒有接觸過的商品推薦給使用者。

但是這有一個問題，由於新使用者的註冊量非常高，基於使用者的協同過濾推薦需要計算新使用者和之前的使用者之間的相似度，這會將資料稀疏，延展性差等問題暴露的非常明顯。

所以基於商品的協同過濾方法被提出，相較於使用者之間的相似度，商品之間的相似度相對是靜態的，當新使用者註冊並有了一些自己感興趣的商品資訊時，無需再進行計算，直接根據之前儲存的商品之間的相似度，將使用者可能感興趣的商品推薦給使用者。

參考：

https://www.cnblogs.com/xiaoYu3328/p/5173854.html

https://blog.csdn.net/u014473918/article/details/79771558

集體智慧程式設計學習筆記（2.1）提供推薦

第二章提供推薦（一）協作型過濾 Collaborative Filtering 如果想了解商品、影片或網站的推薦性資訊，最沒有技術含量的方法是向朋友們詢問，其中一部分人的品味會比其他人高一些，通過觀察這些人是否通常也和我們一樣喜歡同樣的東西，可以逐步對這些情況有所瞭解

Excel中VBA程式設計學習筆記（一）

1、註釋及編碼規則註釋：單引號：可以位於句子結尾或者單獨一行； Rem：單獨一行編碼規則：如果VB中的關鍵字是由多個英文字母組成，則系統自動將每個單詞的首字母轉換成大寫字母，其餘字母一律轉換成小寫字母。對於使用者自定義的變數名、

java丨事件驅動程式設計學習筆記（一）

一、事件和事件源事件：事件可以定義為程式發生了某些事情的訊號源物件（源元件）：能建立一個事件並觸發該事件的元件成為源物件事件類的根類：java.util.EventObject 可以使用EventObject類中的例項方法getSource（）獲得事件的源物件如果一

linux網路程式設計學習筆記（一）

目錄 1. 獲取系統呼叫錯誤資訊：errno strerror() perror(); 他跟c語言中的fopen()有什麼區別呢？他也呼叫的是這個open(); 2.常規檔案操作之建立、讀、寫

shell程式設計學習筆記（一）

導讀注意，這篇部落格是記錄博主學習的筆記，撰寫風格可能不適合沒有程式設計基礎的讀者。變數定義不需要宣告型別，只需要加賦值號（=）輸入輸出 name=’hemim’ echo $name hemim 只能以數字和下劃線開頭，如：

java 併發程式設計學習筆記（一）之併發基礎

併發基礎併發小測試 java.util.concurrent.Semaphore 類 public class SemTest { /** * Se

java 併發程式設計學習筆記（一）之基礎框架搭建和併發模擬工具，程式碼

基礎框架搭建和併發模擬工具,程式碼（1）基礎框架搭建（2）併發模擬（3）CountDownLatch 通常用來保證幾個執行緒執行完成之後，再執行其他的程式碼 Semaphore

Socket程式設計學習筆記（一）

一、什麼是Socket程式設計: socket是一種最簡單的客戶機/伺服器通訊模式。即客戶程序向伺服器程序發出某種服務請求，伺服器響應該請求。如圖所示，同常，一個伺服器程序會同時為多個客戶程序服務，圖中的伺服器程序B1同時為客戶程序A1、A2和B2提供服務。

Windows高階程式設計學習筆記（一）

寫在前面的話之前學的Windows程式設計都是介面啊、網路程式設計啊之類的純應用層面的東西，總是感覺而自己沒有達到自己期望中的水平。什麼水平呢？如果讓你編寫監控系統資源的工具，或者DLL注入相關軟體，或者底層安全軟體，可以勝任嗎？我的答案是，並不會。

組合語言程式設計學習筆記（一）（Linux 版）

參考《組合語言程式設計》 1.每條指令碼都是從記憶體中讀取的，指令碼所需的資料也是儲存在記憶體中並從記憶體中讀取。包含指令碼的記憶體位元組和包含處理器所用的資料的位元組沒有區別。 2.區分資料和指令碼--資料指標和指令指標。 3.資料指標幫助處理器瞭解記憶體中資料區域的起

《集體智慧程式設計》學習筆記（一）

第二章提供推薦 1、蒐集偏好先構造一個簡單的資料集： #使用者對不同電影的評分 critics={'Lisa Rose': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5, 'Just My Luck': 3.0, 'Superman

JAVA程式設計思想學習筆記（一）

物件導論 1.1 抽象過程 Smalltalk的五個基本特性：萬物皆為物件。程式是物件的集合，它通過傳送訊息來告知彼此所要做的。每個物件都有自己的由其他物件所構成的儲存。每個物件都有其型別。某一特定型別的所有物件都可以接受同樣的訊息。

《程式設計導論——以Python為舟》學習筆記（一）

春遊坐車問題【問題描述】有學生70人組織春遊，要租用大巴，每輛大巴可承載30人，至少要多少輛大巴可裝載所有學生？，請問每輛車要裝載多少學生才能讓每輛車的人數較為平均的分佈，請輸出每輛車的所載人數。【解題思路】先求得最少需要多少輛大巴，得到大巴數目後需要儘量將學生平均分到所有大巴上，所

C學習筆記（一）－程式設計作業

C學習筆記（一）－程式設計作業第十一週作業： [Loop]雙基迴文數 [Loop]校門外的樹 [Algorithm]約瑟夫環 [Recursion] 漢諾塔 [Algorithm]紀念郵票 [algorithm]

阿里Java開發手冊學習筆記（一）----程式設計規約

一、命名規範不以下劃線（_）或美元符號（$）開始/結尾。不允許中英文混合使用，不允許直接使用中文。類名使用UpperCamelCase風格；方法名、引數名、成員變數使用lowerCamelC

Hive程式設計指南-學習筆記（一）資料型別和分隔符

一、Hive概述 Hive定義了類似SQL的查詢語言——HiveQL，使用者編寫HiveQL語句執行MapReduce任務，查詢儲存在Hadoop叢集中的資料。 HiveQL與MySQL最接近，但還是有顯著性差異的。Hive不支援行級插入、更新操作和刪除操作。Hive不支

程式設計與演算法（二）演算法基礎_北京大學學習筆記（一）

第一週列舉所有題目用python實現例題1 完美立方 N=int(input ('N=')) for a in range(3,N+1): for b in range(

Opencv3程式設計入門學習筆記（一）

1.影象載入 a) IplImage* srcImage0 = cvLoadImage("lenna", 1);//程式退出前如果步release，會出現記憶體洩漏問題。 b) Mat srcImage = imread("lenna.png", 1);//同樣使讀取圖片，

《GPU高效能程式設計CUDA實戰》學習筆記（一）

第一天讀這本書，先將封面讓大家看看吧這兩張圖好大啊，不過讀者會更加清晰的看到作者資訊，這樣也不錯。近年來英偉達在CUDA上float運算效能基本上已經超過了cpu，並且gpu（Graphics Procdss Unit）程式設計難度也接近cpu程式設計。NVID

《C程式設計語言》學習筆記（一）——導言

Book 1.5.4 while (c = getchar() != EOF) { if(c == ‘ ‘ || c == ‘\n’) flag= 1; else

《集體智慧程式設計》學習筆記（一）

第二章 提供推薦

1、蒐集偏好

2、相似度評價值

3、提供推薦

4、基於使用者進行過濾還是基於物品進行過濾？

相關推薦

第二章提供推薦