使用者房源推薦—基於內容的推薦演算法（CB）

阿新 • • 發佈：2019-02-17

CB推薦演算法根據使用者過去喜歡的產品，為使用者推薦和他過去喜歡的產品相似的產品。採用基於特徵的空間向量模型，並用最近鄰方法進行推薦。
演算法步驟：

抽取房源的基本特徵，考慮到租房的實際情況，確定的基本特徵有價格 (house_price) 面積 (house_area),房屋型別 (house_type),地區 (district)
利用一個使用者過去喜歡（及不喜歡）的房源特徵資料，來學習出此使用者的喜好特徵。將各個特徵進行分類。其中價格分為10類，面積分10類，房屋型別6類，地區9類利用歷史資料統計出每個使用者的每個特徵中各類別的次數，之後相加取平均，表示某使用者的某特徵的喜好向量。
價格t1 ： (house_price) ，
面積t2： (house_area) ，
型別t3： (house_type)，
地區t4： (district)。

cosθ1=T1∙t1||T1||∙||t1||，cosθ2=T2∙t2||T2||∙||t2||，cosθ3=T3∙t3||T3||∙||t3||，cosθ4=T4∙t4||T4||∙||t4||
使用者在實際租房時，更多的是考慮房屋的價格和地區，因此主觀確定4個特徵的權重為
ω=[ω1,ω2,ω3,ω4]=[0.35,0.15,0.15,0.35]（權值可根據實際推薦進行調整）

則每個房源與使用者喜好的加權相識度
similar_item=ω1cosθ1+ω2cosθ2+ω3cosθ3+ω4cosθ4對所有的similar_item進行由大到小排序，取前10作為推薦房源。

#coding:utf-8
import pyodbc
import time
import numpy as np

class recommend_house:
    '''房源推薦演算法類'''
    def house_data(self):
        '''
        函式功能：獲取資料庫中收藏使用者的房源資料
        引數：無
        返回值：所有房源資料：rent_house_info,使用者收藏房源資料:user_house_info,使用者id列表：collect_user_id
        ''' 

        cnxn = pyodbc.connect('DSN=zjx;UID=root')
        cursor = cnxn.cursor()

        sql = "select DISTINCT uid,h_id from test.shoucang where  h_type = 1 order by uid"
        cursor.execute(sql)
        user_info = cursor.fetchall()

        sql = "select id, house_price, house_area, house_type, district,status from test.house_rent_info_geren"
        cursor.execute(sql)
        rent_house_info = cursor.fetchall()
        user_house_info = []
        each_user_info = []
        now_id = user_info[0][0]
        late_id = user_info[0][0]
        each_user_info.append([user_info[0][0],user_info[0][1]])
        count = 0
        collect_user_id = []
        for item in user_info[1:]:

            now_id = item[0]
            if now_id  == late_id:
                each_user_info[count].append(item[1])
            else:
                count = count + 1
                each_user_info.append([item[0],item[1]])
            late_id = item[0]

        count = 0
        for item in each_user_info:

            user_id = item[0]
            collect_user_id.append(item[0])
            flag = True
            for house_id in item[1:]:

                for each_house in rent_house_info:
                    if each_house[0] == house_id:

                        if flag :
                            user_house_info.append([each_house[1:]])
                            flag = False
                        else:
                            user_house_info[count].append(each_house[1:])
                        break

            count = count + 1

        return rent_house_info, user_house_info, collect_user_id

    def cosine_similarity(self, vector_A, vector_B,len_vector_A):
        '''
        函式功能：計算兩向量的餘弦相似度
        引數：向量vector_A,vector_B
        返回值：兩向量的餘弦相似度
        '''
        for i in range(len(vector_B)):
            if vector_B[i] == 1:
                index = i
                break
        vector_inner = vector_A[index]
        vector_cos = vector_inner/(len_vector_A)
        return vector_cos

    def price_classify(self, count1, price):
        '''
        函式功能：對房源價格進行分類
        引數：計數count1和房源價格
        返回值：計數count1
        '''
        if price <= 1000:
            count1[0] = count1[0] + 1
        elif 1000 < price <= 1500:
            count1[1] = count1[1] + 1
        elif 1500 < price <= 2000:
            count1[2] = count1[2] + 1
        elif 2000 < price <= 2500:
            count1[3] = count1[3] + 1
        elif 2500 < price <= 3000:
            count1[4] = count1[4] + 1
        elif 3000 < price <= 3500:
            count1[5] = count1[5] + 1
        elif 3500 < price <= 4000:
            count1[6] = count1[6] + 1
        elif 4000 < price <= 4500:
            count1[7] = count1[7] + 1
        elif 4500 < price <= 5000:
            count1[8] = count1[8] + 1
        else:
            count1[9] = count1[9] + 1
        return count1

    def area_classify(self, count2, area):
        '''
        函式功能：對房源面積進行分類
        引數：計數count2和房源面積
        返回值：計數count2
        '''
        if area <= 20:
            count2[0] = count2[0] + 1
        elif 20 < area <= 30:
            count2[1] = count2[1] + 1
        elif 30 < area <= 40:
            count2[2] = count2[2] + 1
        elif 40 <area <= 50:
            count2[3] = count2[3] + 1
        elif 50 < area <= 60:
            count2[4] = count2[4] + 1
        elif 60 < area <= 70:
            count2[5] = count2[5] + 1
        elif 70 < area <= 80:
            count2[6] = count2[6] + 1
        elif 80 < area <= 90:
            count2[7] = count2[7] + 1
        elif 90 < area <= 100:
            count2[8] = count2[8] + 1
        else:
            count2[9] = count2[9] + 1

        return count2

    def type_classify(self, count3, room_type):
        '''
        函式功能：對房源型別進行分類
        引數：計數count3和房源型別
        返回值：計數count3
        '''
        if room_type.find('1室') > -1:
            count3[0] = count3[0] + 1
        elif room_type.find('2室') > -1:
            count3[1] = count3[1] + 1
        elif room_type.find('3室') > -1:
            count3[2] = count3[2] + 1
        elif room_type.find('4室') > -1:
            count3[3] = count3[3] + 1
        elif room_type.find('5室') > -1:
            count3[4] = count3[4] + 1
        else:
            count3[5] = count3[5] + 1

        return count3

    def district_classify(self, count4, room_district):
        '''
        函式功能：對房源地區進行分類
        引數：計數count4和房源地區
        返回值：計數count4
        '''
        if room_district.find('濱江') > -1:
            count4[0] = count4[0] + 1
        elif room_district.find('西湖') > -1:
            count4[1] = count4[1] + 1
        elif room_district.find('上城') > -1:
            count4[2] = count4[2] + 1
        elif room_district.find('下城') > -1:
            count4[3] = count4[3] + 1
        elif room_district.find('江干') > -1:
            count4[4] = count4[4] + 1
        elif room_district.find('拱墅') > -1:
            count4[5] = count4[5] + 1
        elif room_district.find('蕭山') > -1:
            count4[6] = count4[6] + 1
        elif room_district.find('餘杭') > -1:
            count4[7] = count4[7] + 1
        else:
            count4[8] = count4[8] + 1

        return count4

    def count_price(self, collect_house_info):
        '''
        函式功能：獲取某使用者的房源價格偏好向量
        引數：某使用者收藏的房源資料
        返回值：某使用者的房源價格偏好向量
        '''
        count1 = [0]*10
        vector_price = []

        for item in collect_house_info:
            count1 = self.price_classify(count1, item[0])

        len_collect = float(len(collect_house_info))
        for item in count1:
            vector_price.append(item/len_collect)
        return vector_price

    def count_area(self, collect_house_info):
        '''
        函式功能：獲取某使用者的房源面積偏好向量
        引數：某使用者收藏的房源資料
        返回值：某使用者的房源面積偏好向量
        '''
        count2 = [0] *10
        vector_area = []
        area_null = 0
        for item in collect_house_info:

            try:
                item = list(item)
                item[1] = int(item[1])
                count2 = self.area_classify(count2, item[1])
            except:
                area_null = area_null + 1

        len_collect = float(len(collect_house_info))
        for item in count2:
            vector_area.append(item/(len_collect - area_null))

        return vector_area

    def count_type(self, collect_house_info):
        '''
        函式功能：獲取某使用者的房源型別偏好向量
        引數：某使用者收藏的房源資料
        返回值：某使用者的房源型別偏好向量
        '''
        count3 = [0]*6
        vector_type = []
        type_null = 0
        for item in collect_house_info:
            if item[2] == ''or item[2] == 'null':
                type_null = type_null + 1
            else:
                count3 = self.type_classify(count3, item[2])

        len_collect = float(len(collect_house_info))

        for item in count3:
            vector_type.append(item/(len_collect - type_null))

        return vector_type

    def count_district(self, collect_house_info):
        '''
        函式功能：獲取某使用者的房源地區偏好向量
        引數：某使用者收藏的房源資料
        返回值：某使用者的房源地區偏好向量
        '''
        count4 = [0] * 9
        vector_district = []
        district_null = 0
        for item in collect_house_info:
            if item[3] == 'null':
                district_null = district_null + 1
            else:
                count4 = self.district_classify(count4, item[3])

        len_collect = float(len(collect_house_info))

        for item in count4:
            vector_district.append(item/(len_collect - district_null))

        return vector_district

    def CB_recommend(self, similar_weight):
        '''
        函式功能：計算每個房源與使用者偏好向量之間的加權相似度
        引數：存放加權相似度的列表similar_weight
        返回值：加權相似度的列表similar_weight
        '''
        '''分別計算每個使用者各特徵的偏好向量'''
        vector_price = self.count_price(collect_house_info)
        vector_area = self.count_area(collect_house_info)
        vector_type = self.count_type(collect_house_info)
        vector_district = self.count_district(collect_house_info)

        price_cos_sim = []
        area_cos_sim = []
        type_cos_sim = []
        district_cos_sim = []

        for item in rent_house_info:

            if item[5] == 1:
                similar_weight.append(-9999)
            else:
                count1 = [0] * 10
                count2 = [0] * 10
                count3 = [0] * 6
                count4 = [0] * 9

                if item[1] is None:
                    sim_price = -9999
                    price_cos_sim.append(sim_price)
                else:

                    count1 = self.price_classify(count1, item[1])
                    len_vector_A = np.sqrt(np.inner(vector_price, vector_price))
                    sim_price = self.cosine_similarity(vector_price, count1,len_vector_A)
                    price_cos_sim.append(sim_price)

                try:
                    item[2] = int(item[2])
                    count2 = self.area_classify(count2, item[2])
                    len_vector_A = np.sqrt(np.inner(vector_area, vector_area))
                    sim_area = self.cosine_similarity(vector_area, count2, len_vector_A )
                    area_cos_sim.append(sim_area)
                except:
                    sim_area = -9999
                    area_cos_sim.append(sim_area)

                if item[3] == '' or item[3] == 'null':
                    sim_type = -9999
                    type_cos_sim.append(sim_type)
                else:
                    count3 = self.type_classify(count3, item[3])
                    len_vector_A = np.sqrt(np.inner(vector_type, vector_type))
                    sim_type = self.cosine_similarity(vector_type, count3, len_vector_A)
                    type_cos_sim.append(sim_type)

                if item[4] == 'null':
                    sim_district = -9999
                    district_cos_sim.append(sim_district)
                else:
                    count4 = self.district_classify(count4, item[4])
                    len_vector_A = np.sqrt(np.inner(vector_district, vector_district))
                    sim_district = self.cosine_similarity(vector_district, count4, len_vector_A)
                    district_cos_sim.append(sim_district)

                weight_cos = 0.35 * sim_price + 0.15 * sim_area + 0.15 * sim_type + 0.35 * sim_district
                similar_weight.append(weight_cos)

        return similar_weight

if __name__ == '__main__':

    t1 = time.time()
    test = recommend_house()
    rent_house_info, user_house_info, collect_user_id = test.house_data()
    id_num = 0
    print "共有使用者數：",len(collect_user_id)
    print "輸出格

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    使用者房源推薦—基於內容的推薦演算法（CB）
      
							
							
							CB推薦演算法根據使用者過去喜歡的產品，為使用者推薦和他過去喜歡的產品相似的產品。採用基於特徵的空間向量模型，並用最近鄰方法進行推薦。 
演算法步驟：


抽取房源的基本特徵，考慮到租房的實際情況，確定的基本特徵有價格  (house_price) 面積  (h 

  
 

    

    
    Neo4j 做推薦 （4）—— 基於內容的過濾（續）
       
 
 
   
 Neo4j 做推薦 （2）—— 基於內容的過濾  前文只是簡單描述了內容過濾的概念和簡單演示。 
 在此，我們將從具體例項來介紹如何使用基於內容的過濾方法來給使用者推薦電影。 
 首先，基於共同型別的相似性，如果使用者看過《Inception》，我們就可以給使用者推薦 

  
 

    

    
    基於內容推薦的個性化新聞閱讀實現（二）：基於SVD的推薦演算法
      

一、前言

SVD前面已經說了好多次了，先不論其資訊檢索被宣稱的各種長處如何如何，在此最主要的作用是將稀疏的term-doc矩陣進行降維，當一篇篇文章變成簡短的向量化表示後，就可以用各種科學計算和機器學習演算法進行分析處理了。
之前的推薦演算法的設計是用的最大熵估計，他和諸如樸素貝葉斯、邏輯迴歸等，本質就 

  
 

    

    
    移動推薦演算法（二）：基於簡單規則的預測
      
                本文為轉載文章，來源為： https://blog.csdn.net/Snoopy_Yuan/article/details/72850601

一直在探索資料探勘、資料建模的案例，百度搜到這篇文章，收穫頗豐，轉載以作記錄。

前言：移動推薦演算法是阿里天池賽2015年賽題之 

  
 

    

    
    基於內容推薦演算法詳解(比較全面的文章)
      
                 Collaborative Filtering Recommendations (協同過濾，簡稱CF) 是目前最流行的推薦方法，在研究界和工業界得到大量使用。但是，工業界真正使用的系統一般都不會只有CF推薦演算法，Content-based Recommendations  

  
 

    

    
    初談推薦演算法：基於內容推薦(CB)演算法
      
								
								            
							
							
							本章主要談談基於內容Content Based推薦演算法 
CB推薦演算法主要有兩種子推薦演算法： 
1、引入item屬性的Content Based推薦 
2、引入user屬性的Content Bas 

  
 

    

    
    移動推薦演算法（四）：基於LR, RF, GBDT等模型的預測
      
							
							
							移動推薦演算法是阿里天池賽2015年賽題之一，題目以移動電商平臺的真實使用者-商品行為資料為基礎來構建商品推薦模型。該題現已成為新人入門的經典演練物件，博主也希望基於該題場景，加深對機器學習相關知識的理解，積累實踐經驗。關於題目回顧與資料初探，可參考：天池離線賽 

  
 

    

    
    推薦系統實踐 0x06 基於鄰域的演算法（1）
      # 基於鄰域的演算法（1）
基於鄰域的演算法主要分為兩類，一類是基於使用者的協同過濾演算法，另一類是基於物品的協同過濾演算法。我們首先介紹基於使用者的協同過濾演算法。

## 基於使用者的協同過濾演算法(UserCF)
基於使用者的協同過濾演算法是最古老的演算法了，它標誌著推薦系統的誕生。當一個使用者甲需要個 

  
 

    

    
    推薦系統實踐 0x07 基於鄰域的演算法（2）
      # 基於鄰域的演算法（2）
上一篇我們講了基於使用者的協同過濾演算法，基本流程就是尋找與目標使用者興趣相似的使用者，按照他們對物品喜好的對目標使用者進行推薦，其中哪些相似使用者的評分要帶上目標使用者與相似使用者的相似度作為權重來計算。但是，基於使用者的協同過濾演算法存在一些弊端，如計算使用者興趣相似度矩陣將越 

  
 

    

    
    移動推薦演算法（三）：特徵構建
      
                本文為轉載文章，來源為： https://blog.csdn.net/Snoopy_Yuan/article/details/75105724

一直在探索資料探勘、資料建模的案例，百度搜到這篇文章，收穫頗豐，轉載以作記錄。

移動推薦演算法是阿里天池賽2015年賽題之一，題 

  
 

    

    
    SparkML之推薦演算法（一）ALS
      
                
ALS(alternating least squares ):交替最小二乘法
---------------------------------------------------------------------
原理應用
Matlab 主成分分析應用als
Spar 

  
 

    

    
    推薦系統之協同過濾（CF）演算法
      
							
							
							一，集體智慧（社會計算）： 
    集體智慧 (Collective Intelligence) 並不是 Web2.0 時代特有的，只是在Web2.0  時代，大家在 Web 應用中，利用集體智慧構建了更加有趣的應用或者得到更好的使用者體驗。集體智慧是指在大量 

  
 

    

    
    推薦演算法（二）--演算法總結
       
 
 轉自：https://www.jianshu.com/p/1464eab67711  
 推薦演算法分類 
 1 個性化推薦 
 1.1 基於使用者推薦（Demographic-based Recommendation) 
 推薦流程： 
 
  獲取使用者的註冊資訊。 
  根據使用者的 

  
 

    

    
    推薦演算法（一）--基本介紹
       
  
  
 1. 什麼是推薦演算法 
 推薦演算法最早在1992年就提出來了，但是火起來實際上是最近這些年的事情，因為網際網路的爆發，有了更大的資料量可以供我們使用，推薦演算法才有了很大的用武之地。 
 最開始，所以我們在網上找資料，都是進yahoo，然後分門別類的點進去，找到你想要的東西，這是一個人工 

  
 

    

    
    推薦機制 協同過濾和基於內容推薦的區別
      
                

來源

基於人口統計學的推薦

基於人口統計學的推薦機制（Demographic-based Recommendation）是一種最易於實現的推薦方法，它只是簡單的根據系統使用者的基本資訊發現使用者的相關程度，然後將相似使用者喜愛的其他物品推薦給當前使用者，圖 2 給出了 

  
 

    

    
    基於hadoop生態系統的mahout推薦和聚類分析（1）
      
                簡介

hadoop是Apache旗下的一個開源分散式計算平臺，在分散式環境下為使用者提供處理海量資料的能力。

mahout是hadoop下的一個子專案，主要用於推薦、分類和聚類分析

一、推薦

關於推薦的演算法有很多，本次主要介紹協同過濾演算法。

（1）基於使用者的協 

  
 

    

    
    推薦系統之基於內容推薦CB
      
                

（個性化）推薦系統構建三大方法：基於內容的推薦content-based，協同過濾collaborative filtering，隱語義模型(LFM, latent factor model)推薦。這篇部落格主要講基於內容的推薦content-based。
基於內容的推薦 

  
 

    

    
    新書推薦 | 《MySQL 8 Cookbook （中文版）》全網預售，尊享雙十一特惠價，送作者簽名
       
  
  
 新書推薦 | 《MySQL 8 Cookbook （中文版）》全網預售，尊享雙十一特惠價，送作者簽名 
 MySQL 8.0 已經發布多久了？ 都有哪些新功能？ 線上環境使用了沒？ MySQL 8 的官方文件閱讀了幾遍？ 
 納尼！！！ 小編英語不好尼，仲麼辦？學習起來感覺整個人都被掏空了  

  
 

    

    
    學習資料庫Mysql/Oracle/SQL從入門到進階書籍pdf版吐血整理推薦附網盤連結（珍藏版）
       
  
  
 轉載自某大佬部落格：https://pymlovelyq.github.io/2018/10/12/database/ 
  
  前言：技術書閱讀方法論 
  一.速讀一遍（最好在1~2天內完成） 
  人的大腦記憶力有限，在一天內快速看完一本書會在大腦裡留下深刻印象，對於之後複習以及總結 

  
 

    

    
    基於scikit-learn實現k近鄰演算法（kNN）與超引數的除錯
       
 
 前一篇關於kNN的部落格介紹了演算法的底層實現，這片部落格讓我們一起看一看基於scikit-learn如何快速的實現kNN演算法。 
 scikit-learn內建了很多資料集，就不用我們自己編造假資料了，下面我們分別選用鳶尾花和手寫數字識別的資料集。 
 首先匯入需要的庫 
 from sklea

使用者房源推薦—基於內容的推薦演算法（CB）

使用者房源推薦—基於內容的推薦演算法（CB）

Neo4j 做推薦（4）—— 基於內容的過濾（續）

基於內容推薦的個性化新聞閱讀實現（二）：基於SVD的推薦演算法

移動推薦演算法（二）：基於簡單規則的預測

基於內容推薦演算法詳解(比較全面的文章)

初談推薦演算法：基於內容推薦(CB)演算法

移動推薦演算法（四）：基於LR, RF, GBDT等模型的預測

推薦系統實踐 0x06 基於鄰域的演算法（1）

推薦系統實踐 0x07 基於鄰域的演算法（2）

移動推薦演算法（三）：特徵構建

SparkML之推薦演算法（一）ALS

推薦系統之協同過濾（CF）演算法

推薦演算法（二）--演算法總結

推薦演算法（一）--基本介紹

推薦機制協同過濾和基於內容推薦的區別

基於hadoop生態系統的mahout推薦和聚類分析（1）

推薦系統之基於內容推薦CB

新書推薦 | 《MySQL 8 Cookbook （中文版）》全網預售，尊享雙十一特惠價，送作者簽名

學習資料庫Mysql/Oracle/SQL從入門到進階書籍pdf版吐血整理推薦附網盤連結（珍藏版）

基於scikit-learn實現k近鄰演算法（kNN）與超引數的除錯