Mahout推薦系統

阿新 • • 發佈：2019-01-07

Mahout的推薦系統

什麼是推薦系統
為什使用推薦系統
推薦系統中的演算法

什麼是推薦系統

為什麼使用推薦系統？

　　促進廠商商品銷售，幫助使用者找到想要的商品

　　推薦系統無處不在，體現在生活的各個方面

　　圖書推薦；QQ好友推薦；優酷，愛奇藝的視訊推薦；豆瓣的音樂推薦；大從點評的餐飲推薦；世紀佳緣的相親推薦；智聯招聘的職業推薦。

　　亞馬遜的推薦系統深入到網站的各類商品，為亞馬遜帶來了至少30%的銷售額。

推薦引擎工作原理

　　推薦系統主要向用戶推薦可能感興趣商品的系統。系統會給使用者以TopN推薦給使用者商品。

　　系統主要使用的資料是使用者的歷史商品購買記錄，這部分資料存放在公司的資料庫中。

Mahout的推薦系統整體架構

推薦系統的實現

　推薦系統中的演算法

Apriori演算法
基於使用者
基於內容
基於協同過濾（用的最多）

Apriori演算法-購物籃分析(關聯分析)

　　“啤酒與尿布”的故事產生於20世紀90年代的美國沃爾瑪超市。沃爾瑪的超市管理人員分析銷售資料時發現了一個令人難於理解的現象：在某些特定的情況下，“啤酒”與“尿布”兩件看上去毫無關係的商品會經常出現在同一個購物籃中，這種獨特的銷售現象引起了管理人員的注意，經過後續調查發現。
　　原來，美國的婦女通常在家照顧孩子，所以她們經常會囑咐丈夫在下班回家的路上為孩子買尿布，而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。這樣就會出現啤酒與尿布這兩件看上去不相干的商品經常會出現在同一個購物籃的現象。
　　這個發現為商家帶來了大量的利潤，但是如何從浩如煙海卻又雜亂無章的資料

中，發現啤酒和尿布銷售之間的聯絡呢？

Apriori演算法的產生

　　1993年美國學者Agrawal提出通過分析購物籃中的商品集合，從而找出商品之間關聯關係的關聯演算法，並根據商品之間的關係，找出客戶的購買行為。Agrawal從數學及計算機演算法角度提出了商品關聯關係的計算方法——Apriori演算法。
　　沃爾瑪從上個世紀90年代嘗試將Aprior算法引入到POS機資料分析中，並獲得了成功，於是產生了“啤酒與尿布”的故事。

Apriori演算法

如何尋找？
　　在歷史購物記錄中，一些商品總是在一起購買。但人看上去不是那麼的直觀的，而是隱蔽的。讓計算機做這事，設法計演算法讓計算機自動去找，找到這樣的模式(規律)。

目標:尋找那些總是一起出現商品。
　　mahout實戰—>機器學習實戰

　　《mahout實戰》與《機器學習實戰》一起購買的記錄數佔所有商品記錄總數的比例——支援度(整體)
　　買了《mahout實戰》與《機器學習實戰》一起購買的記錄數佔所有購買《mahout實戰》記錄數的比例——置信度(區域性)
需要達到一定的閾值

　　支援度、置信度越大，商品出現一起購買的次數就越多，可信度就越大。

支援度：在所有的商品記錄中有2%量是購買《mahout實戰》與《機器學習實戰》
置信度：買《mahout實戰》的顧客中有60%的顧客購買了《機器學習實戰》

　　作用：找到商品購買記錄中反覆一起出現的商品，幫能助營銷人員做更好的策略，幫助顧客方便購買。

　　策略：
　　　　1、同時購買的商品放一起
　　　　2、同時購買的商品放兩端

支援度、置信度轉化為數學語言進行計算：
　　A表示《mahout實戰》 B表示《機器學習實戰》

support(A->B) = P(AB) （《mahout實戰》和《機器學習實戰》一起買佔總的購買記錄的比例）
confidence(A->B) = P(B|A) （購買了《mahout實戰》後，買《機器學習實戰》佔的比例）

項集：項的集合稱為項集，即商品的組合。
k項集：k種商品的組合，不關心商品件數，僅商品的種類。
項集頻率：商品的購買記錄數，簡稱為項集頻率，支援度計數。
注意，定義項集的支援度有時稱為相對支援度，而出現的頻率(比例)稱為絕對支援度。
頻繁項集：如果項集的相對支援度滿足給定的最小支援度閾值，則該項集是頻繁項集。
強關聯規則:滿足給定支援度和置信度閾值的關聯規則