基於gensim TFIDF模型的文章推薦演算法

阿新 • • 發佈：2018-12-29

一訓練階段輸入資料格式：一個列表，列表中的每個元素(也是列表)代表一個文字。每個文字分詞後的詞語組成的一個列表代表該文字。生成的模型、tfidf矩陣、文章item_id列表，字典，語料分別儲存。

gensim版本的TFIDF模型的建立分為一下5步：

1. 生成字典 dictionary = corpora.Dictionary(train)
2. 生成語料 corpus = [dictionary.doc2bow(text) for text in train]
3. 定義TFIDF模型 tfidf_model = models.TfidfModel(corpus, dictionary=dictionary)
4. 用語料訓練模型並生成TFIDF矩陣 corpus_tfidf = tfidf_model[corpus]
5. 生成餘弦相似度索引 index = similarities.SparseMatrixSimilarity(corpus_tfidf, num_features=featurenum) 使用SparseMatrixSimilarity()，可以佔用更少的記憶體和磁碟空間。

from gensim import corpora,similarities,models
import jieba
import pandas as pd
import pickle
stopwords = [line.strip() for line in open('./doc/stopword.txt', 'r',encoding='utf-8').readlines()]
def chinese_word_cut(mytext):
    seg_list = []
    seg_text = jieba.cut(mytext)
    for word in seg_text:
        if word not in stopwords:
            seg_list.append(word)
    return " ".join(seg_list)
df = pd.read_csv("./doc/corpora.csv",sep='\t',encoding='utf-8')
t = pd.DataFrame(df['content'].astype(str))
df["content"] = t['content'].apply(chinese_word_cut)
train = []
train_item_id = []
for i in range(len(df["content"])):
    line = df["content"][i]
    line = line.split()
    train.append([w for w in line])
    train_item_id.append(df["item_id"][i])
    #print(len(train))
    #print(train)
print(len(train))
dictionary = corpora.Dictionary(train)
corpus = [dictionary.doc2bow(text) for text in train]
# corpus是一個返回bow向量的迭代器。下面程式碼將完成對corpus中出現的每一個特徵的IDF值的統計工作
tfidf_model = models.TfidfModel(corpus, dictionary=dictionary)
corpus_tfidf = tfidf_model[corpus]
dictionary.save('train_dictionary.dict')  # 儲存生成的詞典
tfidf_model.save('train_tfidf.model')
corpora.MmCorpus.serialize('train_corpuse.mm', corpus)
featurenum = len(dictionary.token2id.keys())  # 通過token2id得到特徵數
# 稀疏矩陣相似度，從而建立索引,我們用待檢索的文件向量初始化一個相似度計算的物件
index = similarities.SparseMatrixSimilarity(corpus_tfidf, num_features=featurenum)
index.save('train_index.index')
pickle.dump(train_item_id,'item_id.pkl')

二測試階段模型對測試集進行operation；求餘弦相似度。對於給定的新文字，找到訓練集中最相似的五篇文章作為推薦。

程式碼說明

1 import warnings   warnings.filterwarnings(action='ignore',category=UserWarning,module='gensim') 為了不報警告。
2 pickle.dump() 報錯，需要有wirite屬性。改為 from sklearn.externals import joblib。其dump 和load 方式和pickle一致。
3 index.get_similarities(test_vec) 返回test_vec 和訓練語料中所有文字的餘弦相似度。返回結果是個numpy陣列 
4 related_doc_indices = sim.argsort()[:-6:-1] 完成對numpy陣列的排序並獲取其top5最大值。

import jieba
from sklearn.externals import joblib
import warnings
warnings.filterwarnings(action='ignore',category=UserWarning,module='gensim')
from gensim import corpora,similarities,models


stopwords = [line.strip() for line in open('./doc/stopword.txt', 'r',encoding='utf-8').readlines()]
def chinese_word_cut(mytext):
    seg_list = []
    seg_text = jieba.cut(mytext)
    for word in seg_text:
        if word not in stopwords:
            seg_list.append(word)
    return seg_list

 # 讀取文章
def readfile(path):
    fp = open(path, "r", encoding="utf-8")
    content = fp.read()
    fp.close()
    return content

doc = readfile('doc/re0.txt')
test = chinese_word_cut(doc)
dictionary = corpora.Dictionary.load("train_dictionary.dict")
tfidf = models.TfidfModel.load("train_tfidf.model")
index = similarities.SparseMatrixSimilarity.load('train_index.index')
item_id_list = joblib.load('item_id.pkl')
corpus = corpora.MmCorpus('train_corpuse.mm')
print('模型載入完成')
# 產生BOW向量
vec = dictionary.doc2bow(test)
#生成tfidf向量
test_vec = tfidf[vec]
# 計算相似度
sim = index.get_similarities(test_vec)
related_doc_indices = sim.argsort()[:-6:-1]
print(related_doc_indices)
idlist = [] # 儲存item_id
for i in related_doc_indices:
    idlist.append(item_id_list[i])
print(idlist)

基於gensim TFIDF模型的文章推薦演算法

1. gensim.similarities.SparseMatrixSimilarity 的三個方法 2. TFIDF 原始碼淺析 3. gensim使用之一 tfidf 和lsi 一訓練階段輸入資料格式：一個

基於使用者的電視節目推薦演算法例項

# -*- coding: utf-8 -*- """ Created on Thu Nov 1 10:29:52 2018 @author: AZ """ # 程式碼說明： # 基於使用者的協同過濾演算法的具體實現 import math import numpy as np import

基於使用者的協同過濾和基於物品的協同過濾推薦演算法圖解

在協同過濾中，有兩種主流方法：基於使用者的協同過濾，和基於物品的協同過濾。具體怎麼來闡述他們的原理呢，看個圖大家就明白了基於使用者的 CF 的基本思想相當簡單，基於使用者對物品的偏好找到相鄰鄰居使用者，然後將鄰居使用者喜歡的推薦給當前使用者。計算上，就是將一個使用者對所有物品

今日頭條文章推薦演算法摘記

一、使用者標籤使用者標籤今日頭條常用的使用者標籤包括使用者感興趣的類別和主題、關鍵詞、來源、基於興趣的使用者聚類以及各種垂直興趣特徵(車型，體育球隊，股票等)。還有性別、年齡、地點等資訊。性別資訊通過使用者第三方社交賬號登入得到。年齡資訊通常由模型預測，通過機型、閱讀時間分佈等預估。常駐地點來

python資料分析：基於協同過濾的電影推薦演算法

協同過濾協同過濾（英語：Collaborative Filtering），簡單來說是利用某興趣相投、擁有共同經驗之群體的喜好來推薦使用者感興趣的資訊，個人透過合作的機制給予資訊相當程度的迴應（如評分）並記錄下來以達到過濾的目的進而幫助別人篩選資訊，迴應不一定侷限於特別感興趣的，特別

使用Python的Pandas庫實現基於使用者的協同過濾推薦演算法

本文在下文的程式碼基礎上修改而來：環境版本 Python 3.5.5 Pandas 0.22.0 import pandas as pd df = None def dataSet2Matrix(

基於使用者的協同過濾推薦演算法原理和實現

在推薦系統眾多方法中，基於使用者的協同過濾推薦演算法是最早誕生的，原理也較為簡單。該演算法1992年提出並用於郵件過濾系統，兩年後1994年被 GroupLens 用於新聞過濾。一直到2000年，該演算法都是推薦系統領域最著名的演算法。本文簡單介紹基於使用者的協同

基於隱語義模型的推薦系統

如何根據上邊兩位豆瓣使用者的圖書列表做出推薦？傳統的推薦方法 UserCF，首先需要找到和他們看了同樣書的其他使用者，然後給他們推薦那些使用者喜歡的其他書。 ItemCF，需要給他們推薦和他們已經看的書相似的書。基於隱語義模型通過矩陣分解建立

基於矩陣分解的電影推薦演算法（使用Tensorflow實現）

#!/usr/bin/env python # -*- coding:utf-8 -*- # 文中部分參考了： # https://blog.csdn.net/u012845311/article/details/77183491 # 改進：要劃分訓練集和測試集，並在進行模型

基於社交網路的使用者與基於物品的協同過濾推薦演算法-java

完整工程+資料來源：https://github.com/scnuxiaotao/recom_sysimport java.io.BufferedReader; import java.io.FileNotFoundException; import java.io.Fil

R語言-基於電商平臺真實使用者-商品行為資料的移動推薦演算法模型

推薦模型以阿里移動電商平臺的真實使用者-商品行為資料為基礎訓練。該資料包含了抽樣出來的一定量使用者在一定時間之內的移動端行為資料，評分資料是這些使用者在之後的一天對商品子集的購買資料。任務是使用訓練資料建立推薦模型，並輸出使用者在接下來一天對商品子集購買行為的預測結果

資料科學個人筆記：推薦系統之推薦演算法（基於內容+標籤+半監督學習模型）

一、基於內容的模型（一）推薦系統冷啟動問題使用者冷啟動：給新使用者推薦物品冷啟動：新物品被推薦系統冷啟動：為新開發的網站（還沒有使用者和使用者行為，只有一些物品資訊）設計推薦系統冷啟動問題的一些解決方案：1.推薦熱門；2.用註冊資訊進行粗粒度的個性化；3.

基於內容推薦演算法詳解(比較全面的文章)

Collaborative Filtering Recommendations (協同過濾，簡稱CF) 是目前最流行的推薦方法，在研究界和工業界得到大量使用。但是，工業界真正使用的系統一般都不會只有CF推薦演算法，Content-based Recommendations

移動推薦演算法（四）：基於LR, RF, GBDT等模型的預測

移動推薦演算法是阿里天池賽2015年賽題之一，題目以移動電商平臺的真實使用者-商品行為資料為基礎來構建商品推薦模型。該題現已成為新人入門的經典演練物件，博主也希望基於該題場景，加深對機器學習相關知識的理解，積累實踐經驗。關於題目回顧與資料初探，可參考：天池離線賽

基於圖模型的智慧推薦演算法學習筆記（含知識圖譜/圖神經網路，不止於智慧推薦）

【說在前面】本人部落格新手一枚，象牙塔的老白，職業場的小白。以下內容僅為個人見解，歡迎批評指正，不喜勿噴！[握手][握手] 【再囉嗦一下】如果你對智慧推薦感興趣，歡迎先瀏覽我的另一篇隨筆：智慧推薦演算法演變及學習筆記【最後再說一下】本文只對智慧推薦演算法中的基於圖模型的智慧推薦進行具體介紹！一、基於知識圖

基於多因素的搭配推薦模型

recommend list 推薦 glob 測距 pair lan .cn with 之所以起這個名字是因為對應之前的搭配推薦模型，如之前的博客基於圖像信息的搭配商品推薦中所述，可以看做是基於單因素對搭配進行建模，即認為搭配的商品應該在單因素--風格上相似，然後在對商

PersonalRank-基於圖的推薦演算法

演算法介紹在推薦系統中，使用者行為資料可以表示成圖的形式，具體來說是二部圖。使用者的行為資料集由一個個（u,i）二元組組成，表示為使用者u對物品i產生過行為。本文中我們認為使用者對他產生過行為的物品的興趣度是一樣的，也就是我們只考慮“感興趣”OR“不感興趣”。假設有下圖所示的行為資料集。

基於內容的推薦演算法的實現程式碼例項

本次例項需要三個資料檔案分別為節目及其所屬標籤型別的01矩陣；使用者--節目評分矩陣；使用者收視了的節目--標籤01矩陣。可以直接下載下來使用https://download.csdn.net/download/qq_38281438/10757266 具體程式碼如下： #

演算法文章推薦

大數a-b：https://blog.csdn.net/liusu201601/article/details/83054406 無向圖割點求法:https://blog.csdn.net/zsyz_ZZY/article/details/79907335 &nb

基於物品(使用者)的推薦演算法

mapreduce 用mapreduce計算框架實現了3個小demo: wordcount、基於物品的推薦演算法(itemCF)和基於使用者的推薦演算法(userCF) 程式碼連線： https://github.com/marvelousgirl/mapreduce item

基於gensim TFIDF模型 的文章推薦演算法

相關推薦

基於gensim TFIDF模型的文章推薦演算法