歐氏距離和餘弦相似度

阿新 • • 發佈：2019-01-30

兩者相同的地方，就是在機器學習中都可以用來計算相似度，但是兩者的含義有很大差別，以我的理解就是：

前者是看成座標系中兩個點，來計算兩點之間的距離；

後者是看成座標系中兩個向量，來計算兩向量之間的夾角。

前者因為是點，所以一般指位置上的差別，即距離；

後者因為是向量，所以一般指方向上的差別，即所成夾角。

如下圖所示：

資料項A和B在座標圖中當做點時，兩者相似度為距離dist(A,B)，可通過歐氏距離（也叫歐幾里得距離）公式計算：

當做向量時，兩者相似度為cosθ，可通過餘弦公式計算：

假設||A||、||B||表示向量A、B的2範數，例如向量[1,2,3]的2範數為：

√(1²+2²+3²) = √14

numpy中提供了範數的計算工具：linalg.norm()

所以計算cosθ起來非常方便（假定A、B均為列向量）：

num = float(A.T * B) #若為行向量則 A * B.T
denom = linalg.norm(A) * linalg.norm(B)
cos = num / denom #餘弦值
sim = 0.5 + 0.5 * cos #歸一化

因為有了linalg.norm()，歐氏距離公式實現起來更為方便：

dist = linalg.norm(A - B)
sim = 1.0 / (1.0 + dist) #歸一化

關於歸一化：

因為餘弦值的範圍是 [-1,+1] ，相似度計算時一般需要把值歸一化到 [0,1]，一般通過如下方式：

sim = 0.5 + 0.5 * cosθ
若在歐氏距離公式中，取值範圍會很大，一般通過如下方式歸一化：

sim = 1 / (1 + dist(X,Y))

說完了原理，簡單扯下實際意義，舉個栗子吧：

例如某T恤從100塊降到了50塊（A(100,50)），某西裝從1000塊降到了500塊（B(1000,500)）

那麼T恤和西裝都是降價了50%，兩者的價格變動趨勢一致，餘弦相似度為最大值，即兩者有很高的變化趨勢相似度

但是從商品價格本身的角度來說，兩者相差了好幾百塊的差距，歐氏距離較大，即兩者有較低的價格相似度

-- EOF --

numpy歐氏距離和餘弦相似度

兩者相同的地方，就是在機器學習中都可以用來計算相似度，但是兩者的含義有很大差別，以我的理解就是：前者是看成座標系中兩個點，來計算兩點之間的距離；後者是看成座標系中兩個向量，來計算兩向量之間的夾角。前者因為是點，所以一般指位置上的差別，即距離；後者因為是

歐氏距離和餘弦相似度

兩者相同的地方，就是在機器學習中都可以用來計算相似度，但是兩者的含義有很大差別，以我的理解就是：前者是看成座標系中兩個點，來計算兩點之間的距離；後者是看成座標系中兩個向量，來計算兩向量之間的夾角。前者因為是點，所以一般指位置上的差別，即距離；後者因為是向量，所以

文字相似度計算的幾個距離公式（歐氏距離、餘弦相似度、Jaccard距離、編輯距離）

本文主要講一下文字相似度計算的幾個距離公式，主要包括：歐氏距離、餘弦相似度、Jaccard距離、編輯距離。距離計算在文字很多場景下都可以用到，比如：聚類、K近鄰、機器學習中的特徵、文字相似度等等。接下來就一一介紹一下：假設兩個文字X=(x1, x2, x3,...xn)

機器學習_歐式距離和餘弦相似度的對比

【1】因為沒有示例自己去操作什麼情況下用餘弦距離，所以有點不透徹，用到再來複習【2】兩者主要差距 1.餘弦距離更加註重在兩個方向上的差異大小，對絕對的數值不敏感，更多的用於使用使用者對內容評分來區分興趣的相似度和差異，同時修正了使用者間可能存在的度量標準

【Python】歐氏距離和餘弦距離

一、歐幾里得距離(Euclidean Distance) 　　歐氏距離是最常見的距離度量，衡量的是多維空間中各個點之間的絕對距離。公式如下：　　因為計算是基於各維度特徵的絕對數值，所以歐氏度量需要保證各維度指標在相同的刻度級別，比如對身高（cm）和體重（kg）

皮爾遜相關係數和餘弦相似度

先看看二者定義，給定兩個n維向量A,B: A=(a1,a2,…,an)A = (a_1, a_2, \ldots ,a_n)A=(a1,a2,…,an) B=(b1,b2,…,bn)B = (b_1, b_2, \ldots ,b_n)B=(b1,b2

計算兩向量的歐式距離，餘弦相似度

來自：http://www.mtcnn.com >>> import numpy >>> vec1=[[1,1,1],[2,2,2]] >>> vec2=[[2,2,2],[1,1,1]] >>> vec1=numpy.

【matlab 異常點檢測】基於歐氏距離和馬氏距離的異常點檢測

基於歐式距離的異常點檢測： load data1.txt %匯入資料，行為樣本，列為特徵 X=data1; %賦值給X u=mean(X); %求均值 [m,n]=size(X); for

歐式距離與餘弦相似度

歐氏距離在歐幾里得空間裡面，點x =(x1,…,xn)和 y =(y1,…,yn)的歐幾里得距離為：歐幾里得距離關注的是同一個維度裡面，數值之間的差異。當不同維度的刻度差異較大，比如身高（m）和體重（kg），如果使用這兩個單位，歐式距離的變現出來的差

資料探勘之曼哈頓距離、歐幾裡距離、明氏距離、皮爾遜相關係數、餘弦相似度Python實現程式碼

# -*- coding:utf8 -*- from math import sqrt users = {"Angelica": {"Blues Traveler": 3.5, "Broken Bells": 2.0, "Norah Jones": 4.5, "Phoeni

餘弦相似度與正規化的歐氏距離的某種等價性

給一個集合, V={x|x∈Rn}V={x|x∈Rn}, 和一個點 u∈Rnu∈Rn, 依次計算uu與VV中各個點的距離, 然後按照從近到遠排序, 就可以得到一個序列A=<x1,x2,...>A=<x1,x2,...>. 距離函式可以取

Spark/Scala實現推薦系統中的相似度演算法（歐幾里得距離、皮爾遜相關係數、餘弦相似度：附實現程式碼）

在推薦系統中，協同過濾演算法是應用較多的，具體又主要劃分為基於使用者和基於物品的協同過濾演算法，核心點就是基於"一個人"或"一件物品"，根據這個人或物品所具有的屬性，比如對於人就是性別、年齡、工作、收入、喜好等，找出與這個人或物品相似的人或物，當然實際處理中參考的因子會複雜的多。本篇文章不介紹相關數學概念，

白話總結《餘弦相似度vs歐式距離&缺陷》

之前相似度計算很模糊，趁著休息總結一下，以便使用時更針對業務需要。餘弦相似度公式中p和q是兩個向量。餘弦相似度需要對兩個向量的長度做歸一化，然後度量兩個向量的方向，與向量的長度無關。也就是說，兩個向量只要方向一致，無論長度、程度如何，都視作“相似”。即“餘弦相

從零開始的文字TF-IDF向量構造和基於餘弦相似度的文字分類

一、任務需求 1、給定資料庫裡面的N行資料每行代表一篇文章，屬性分別是[id, title, summuary,content] ，從mysql資料庫獲取資料並生成DataFrame格式的資料，有兩列，分別是id 和con

曼哈頓距離和歐氏距離

平面上的兩個點（1,1）和（3,3），其曼哈頓距離為4，歐氏距離為曼哈頓距離：在平面中，有x、y兩個座標軸，那麼兩個點之間的曼哈頓距離，為他們分別投影到兩個座標軸上的距離的絕對值之和，座標軸更多則加數更多。歐式距離：兩個點之間的最短距離

18種和“距離(distance)”、“相似度(similarity)”相關的量的小結

在計算機人工智慧領域，距離(distance)、相似度(similarity)是經常出現的基本概念，它們在自然語言處理、計算機視覺等子領域有重要的應用，而這些概念又大多源於數學領域的度量(metric)

餘弦相似度與歐式距離選擇

轉載自：http://www.cnblogs.com/chaosimple/archive/2013/06/28/3160839.html 餘弦相似度公式：歐式距離公式：二維空間的公式 (2)三維空間兩點a(x1,y1,z1)與b(x2,y2,z2)間的歐氏距

曼哈頓距離和歐氏距離比較

曼哈頓距離是由十九世紀的赫爾曼·閔可夫斯基所創詞彙，是種使用在幾何度量空間的幾何學用語，用以標明兩個點在標準座標系上的絕對軸距總和。計程車幾何或曼哈頓距離（Manhattan Distance）是由十九世紀的赫爾曼·閔可夫斯基所創詞彙，是種使用在幾何度量空間的幾何

各種距離歐式距離、曼哈頓距離、切比雪夫距離、閔可夫斯基距離、標準歐氏距離、馬氏距離、余弦距離、漢明距離、傑拉德距離、相關距離、信息熵

form 密碼學一行 and gif 國際象棋 matlab 三維空間 ffi 1. 歐氏距離(Euclidean Distance) 歐氏距離是最容易直觀理解的距離度量方法，我們小學、初中和高中接觸到的兩個點在空間中的距離一般都是指歐氏距離。二維平面上點a(x1,

顏色直方圖+餘弦相似度 c++opencv實現

原理部分來自阮一峰部落格 http://www.ruanyifeng.com/blog/2013/03/similar_image_search_part_ii.html 顏色分佈法：每張圖片都可以生成顏色分佈的直方圖（color histogram）。如果兩張圖片的直方圖很接近，就可

歐氏距離和餘弦相似度

相關推薦