python 多維向量相似度計算_推薦系統-協同過濾-相似度計算

阿新 • • 發佈：2020-12-26

技術標籤：python 多維向量相似度計算

餘弦相似度

餘弦相似度（Cosine Similarity）：衡量了兩個使用者向量之間的向量夾角大小；夾角越小，證明餘弦相似度越大，兩個使用者也就越相似。

這裡的A，B指的就是使用者的向量；

舉例：

如圖：是四個使用者對於四個物品的購買記錄；

我們計算User_A跟User_B的相似度約等於0.408；

Python Demo:

import numpy as np

def cosine_similarity(x, y):
    """ 計算兩個向量x和y的餘弦相似度 """
    assert len(x) == len(y), "len(x) != len(y)"
    zero_list = [0] * len(x)
    if x == zero_list or y == zero_list:
        return float(1) if x == y else float(0)

    res = np.array([[x[i] * y[i], x[i] * x[i], y[i] * y[i]] for i in range(len(x))])
    cos = sum(res[:, 0]) / (np.sqrt(sum(res[:, 1])) * np.sqrt(sum(res[:, 2])))
    
    return cos

User_A = [1, 1, 0, 1]
User_B = [1, 0, 1, 0]
print('User_A與User_B的餘弦相似度為: ', cosine_similarity(User_A, User_B))

皮爾遜相關係數

相比餘弦相似度，皮爾遜相關係數通過使用使用者平均分對各獨立評分進行修正，減小了評分偏置的影響。（評分偏置：例如兩個使用者，愛好一致，但是甲對所有物品的評分偏低，而乙對所有物品的評分偏高）

公式

舉例：

如圖：為四個使用者對四個商品的歷史評分；

根據公式計算User_A跟User_B的相似度約等於0.8868；

Python Demo:

import numpy as np

User_A = [0, 3, 3, 5]
User_B = [1, 2, 2, 5]

A_mean = User_A - np.mean(User_A)
B_mean = User_B - np.mean(User_B)

print('User_A與User_B的皮爾遜相關係數為: ', np.dot(A_mean, B_mean)/(np.linalg.norm(A_mean)*np.linalg.norm(B_mean)))

# 方法二:
# np.corrcoef(np.vstack([User_A, User_B]))[0][1]

python 多維向量相似度計算_推薦系統-協同過濾-相似度計算

技術標籤：python 多維向量相似度計算餘弦相似度餘弦相似度（Cosine Similarity）：衡量了兩個使用者向量之間的向量夾角大小；夾角越小，證明餘弦相似度越大，兩個使用者也就越相似。

python 多維高斯分佈資料生成方式

我就廢話不多說了，直接上程式碼吧！ import numpy as np import matplotlib.pyplot as plt def gen_clusters():

python多維陣列分位數的求取方式

在python中計算一個多維陣列的任意百分比分位數，只需用np.percentile即可，十分方便

將不規則的Python多維陣列拉平到一維的方法實現

原始需求：例如有一個列表： l = [[1,2,3],[4,5,6],[7,8,9]] 希望把它轉換成下面這種形式：

將不規則的Python多維陣列拉平到一維

技術標籤：python 作者：小小明簡介：Pandas資料處理專家，致力於幫助無數資料從業者解決資料處理難題。

python多維巢狀列表轉換為一維列表

技術標籤：pythonpython 直接看程式碼： arr = [[1,1],2,[1,1,[4,5]]] res = [] def flat(arr): for a in arr:

Python 多維多層級巢狀，逐級提取目標key

# 多維巢狀字典資料 # 目標鍵名稱,巢狀資料,儲存變數 def Get_Target_Value(key,dic,tmp_list):

Spark/Scala在推薦系統中實現相似度演算法(歐氏距離、皮爾遜相關係數、餘弦相似度:帶實現程式碼)

技術標籤：pythonpython 在推薦系統中，協同過濾演算法被廣泛使用，主要分為基於使用者和基於專案的協同過濾演算法。核心點基於“一個人”或者“一個物品”。根據這個人或者物品的屬性，比如性別、年齡、工作、收

電商推薦系統七：基於物品的協同過濾相似推薦

技術標籤：推薦系統大資料推薦系統 7.2 基於物品的協同過濾相似推薦基於物品的協同過濾（Item-CF），只需收集使用者的常規行為資料（比如點選、收藏、購買）就可以得到商品間的相似度，在實際專案中應用很廣。

python 實現多維陣列轉向量

我就廢話不多說了，如下所示： >>>from compiler.ast import flatten >>>X matrix([[ 1,17,13,221,289,169],[ 1,14,238,196],15,255,225],18,234,324,252,270,19,247,361,266,285,225]])