基於內容的推薦演算法之關鍵詞提取

阿新 • • 發佈：2019-01-14

基於內容的推薦演算法是比較早期的易理解的推薦演算法，其主要思想就是：我們首先給根據資訊的特徵給資訊一些屬性(可以稱之為“標籤”)。對於一篇文章，或者一段話它的屬性就可以理解成它的關鍵詞，這篇文章的主講內容就是文章的關鍵詞提取。

一、TF-IDF方法

TF(Term Frequency)詞頻，直觀上指的是某個詞在文章中的出現次數，為了避免文章長短帶來的影響，對於不同的文章，詞頻的計算應該歸一化。

文章的標籤應該是文章中重要的詞，他應該在文章中多次出現，於是我們需要進行詞頻統計。
但是，在每篇文章中，往往出現次數最多的詞是“的”“是”“在”等等，這些詞我們稱為“停用詞”，表示對結果毫無用處，必須過濾掉的詞。

另外，在其他有實際意義的詞中，又會遇到一些問題。比如在《中國蜜蜂養殖》這篇文章中，“中國”“蜜蜂”“養殖”三個詞出現的次數一樣多，但很顯然，我們更想要的標籤是後兩個詞

所以，我們需要一個重要性調整係數，衡量一個詞是不是常見詞。如果某個詞比較少見，但是它在這篇文章中多次出現，那麼它很可能就反映了這篇文章的特性，正是我們所需要的標籤。

用統計學的語言表達，這個權重叫做"逆文件頻率"（IDF），在計算IDF時需要一個語料庫，用來模擬語言的使用環境。

如果一個詞越關鍵，那麼包含這個詞的文件就會相對少，那麼該詞的逆文件頻率就越高。

綜上，TF和IDF都和詞的關鍵性成正比。

利用兩者的乘積來綜合考慮判斷一段文字的關鍵字成為了常用的關鍵詞提取法。

二、程式碼實現

這邊是對中文文章的關鍵詞提取，所以使用了jieba分詞器。

import os
import numpy
import jieba
import jieba.posseg as pseg
import string
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
import time

start=time.clock()

# 獲取檔案列表
def getfilelist():
    path = "./input/"
    filelist = []
    files = os.listdir(path)
    # 返回指定資料夾包含的檔案或資料夾的名字列表
    for f in files:
        if (f[0] == '.'):
            pass
        else:
            filelist.append(f)
    return filelist, path


# 對文件進行分詞處理
def fenci(argv, path):
    # 儲存分詞結果的目錄
    sFilePath = './segfile'
    if not os.path.exists(sFilePath):
        os.mkdir(sFilePath)
    # 讀取文件
    filename = argv#這裡的argv是文件
    f = open(path + filename, 'r+')
    file_list = f.read()
    f.close()

    # 對文件進行分詞處理，採用預設模式
    seg_list = jieba.cut(file_list, cut_all=True)

    # 對空格，換行符進行處理
    result = []
    for seg in seg_list:
        seg = ''.join(seg.split())
        if (seg != '' and seg != "\n" and seg != "\n\n"):
            result.append(seg)

    # 將分詞後的結果用空格隔開，儲存至本地。
    f = open(sFilePath + "/" + filename, "w+")
    f.write(' '.join(result))
    f.close()


# 讀取已分詞好的文件，進行TF-IDF計算
def Tfidf(filelist):
  #  filename = argv  # 這裡的argv是文件
    path = './segfile/'
    corpus = []  # 存取100份文件的分詞結果

    sFilePath = 'F:/fenciDoc/tfidffile'
    if not os.path.exists(sFilePath):
        os.mkdir(sFilePath)

    for ff in filelist:
        fname = path + ff
        f = open(fname, 'r+')
        print(fname)
        content = f.read()
        f.close()
        corpus.append(content)

    vectorizer = CountVectorizer()
    transformer = TfidfTransformer()
    tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))

    word = vectorizer.get_feature_names()  # 所有文字的關鍵字
    weight = tfidf.toarray()  # 對應的tfidf矩陣



    keyword=open(sFilePath + '/'+'keyword.txt','w+')#儲存關鍵詞的文件
    # 這裡將每份文件詞語的TF-IDF寫入tfidffile資料夾中儲存
    for i in range(len(weight)):
        print(u"--------Writing all the tf-idf in the", i, u" file into ",
              sFilePath + '/' + str(i+1) + '.txt', "--------")
        f = open(sFilePath + '/' + str(i+1) + '.txt', 'w+')

        #將每一篇的關鍵詞存入
        keyword.write("第"+str(i+1)+"篇關鍵詞："+'\n')
        x=weight[i]
        y=x.argsort()#返回從小到大的索引值
        max=len(word)
        #print(y)
        keyword.write(word[y[max-1]]+ "   " + str(x[y[max-1]])+"\n")
        keyword.write(word[y[max-2]]+ "   " + str(x[y[max - 2]])+"\n")
        keyword.write(word[y[max-3]]+ "   " + str(x[y[max - 3]])+"\n")
        keyword.write(word[y[max - 4]] + "   " + str(x[y[max - 4]]) + "\n")
        keyword.write("\n")

        f.write("全部分詞和TFIDF值："+"\n")
        for j in range(len(word)):
            f.write(word[j] + "    " + str(weight[i][j]) + "\n")
        f.close()

if __name__ == "__main__":
    (allfile, path) = getfilelist()
    for ff in allfile:
        print("Using jieba on " + ff)
        fenci(ff, path)

    Tfidf(allfile)
    end=time.clock()
    print("執行時間"+str(end-start)+"秒")

基於內容的推薦演算法之關鍵詞提取

一、TF-IDF方法

二、程式碼實現

基於內容的推薦演算法之關鍵詞提取

python 基於TF-IDF演算法的關鍵詞提取

基於內容推薦演算法詳解(比較全面的文章)

基於內容推薦的個性化新聞閱讀實現（二）：基於SVD的推薦演算法

推薦系統之基於內容推薦CB

初談推薦演算法：基於內容推薦(CB)演算法

推薦演算法之基於物品的協同過濾

opencv 基於內容的視訊關鍵幀提取（以HSV總量為特徵量）

推薦演算法之相似性推薦

推薦演算法之-皮爾遜相關係數計算兩個使用者喜好相似度

推薦演算法之Jaccard相似度與Consine相似度

協同過濾推薦演算法之Slope One的介紹

推薦演算法之-相似鄰居計算

推薦演算法之 slope one 演算法

推薦演算法之關聯規則例項

推薦機制協同過濾和基於內容推薦的區別

推薦演算法之協同過濾例項

推薦演算法之CB，CF演算法

資料探勘乾貨總結（六）--推薦演算法之CF

推薦演算法之FFM：原理及實現簡介

基於內容的推薦演算法之關鍵詞提取

一、TF-IDF方法

二、程式碼實現

相關推薦