TF-IDF演算法抽取中文內容的主題關鍵詞

阿新 • • 發佈：2019-01-09

db.ini

# db
[db]
db_port = 3306
db_user = user
db_host = localhost
db_pass = pwd
db_database = db

main.py

# -*-coding:utf-8-*-

import MySQLdb
import configparser
import os
import jieba.posseg as pseg

from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import 
 CountVectorizer
import numpy as np

import sys
reload(sys)
sys.setdefaultencoding('utf8')

PATH = lambda p: os.path.abspath(os.path.join(os.path.dirname(__file__), p))
db_file = PATH('db.ini')


class IfTdf(object):
    def init_db(self):
        dbc = configparser.ConfigParser()
        dbc.read(db_file)
        self.conn = MySQLdb.connect(
            host=dbc.get("db" 
, 'db_host'),
            user=dbc.get("db", 'db_user'),
            passwd=dbc.get("db", 'db_pass'),
            db=dbc.get("db", 'db_database'),
            port=int(dbc.get("db", 'db_port')),
            charset='utf8')
        self.cur = self.conn.cursor(MySQLdb.cursors.DictCursor)

    def __init__ 
(self):
        self.conn = None
        self.cur = None
        self.init_db()

    def get_data(self):
        self.cur.execute("SELECT id, content FROM `table` WHERE 1 ORDER BY `id` DESC LIMIT 1000")
        return self.cur.fetchall()

    def get_words(self, data):
        stop_word = [unicode(line.rstrip()) for line in open(PATH('chinese_stopwords.txt'))]
        for r in data:
            content = r['content'].strip().replace('\n', '').replace(' ', '').replace('\t', '').replace('\r', '')
            seg_list = pseg.cut(content)
            seg_list_after = []
            for seg in seg_list:
                if seg.word not in stop_word:
                    seg_list_after.append(seg.word)
            yield ' '.join(seg_list_after)

    def get_ids(self, data):
        for r in data:
            yield '%s %s Topic:\n' % (r['id'], r['content'])

    def __del__(self):
        self.cur.close()
        self.conn.close()
        print 'Finished!'

    def main(self):
        data = self.get_data()
        list_words = list(self.get_words(data))
        list_ids = list(self.get_ids(data))

        vectorizer = CountVectorizer()
        transformer = TfidfTransformer()
        tfidf = transformer.fit_transform(vectorizer.fit_transform(list_words))

        words = vectorizer.get_feature_names()
        weight = tfidf.toarray()

        n = 3

        for (id, w) in zip(list_ids, weight):
            print u'{}:'.format(id)
            loc = np.argsort(-w)
            for i in range(n):
                print u'-{}: {} {}'.format(str(i + 1), words[loc[i]], w[loc[i]])
            print '\n'

IfTdf().main()

參考：

TF-IDF演算法抽取中文內容的主題關鍵詞

db.ini # db [db] db_port = 3306 db_user = user db_host = localhost db_pass = pwd db_database = db main.py # -*-coding:utf-8-

TF-IDF演算法實現關鍵詞抽取

TF-IDF演算法是關鍵詞提取演算法中基礎，並且有效的一種演算法，實現簡單效果比較明顯，在使用中非常廣泛。假設現在有一批“短文字“，比如很多條一句話的新聞。現在需要提取這些一句話新聞的關鍵詞。我們可以採取tf-idf演算法來實現。TF-IDF（term frequen

python 基於TF-IDF演算法的關鍵詞提取

import jiaba.analyse jieba.analyse.extract_tags(content, topK=20, withWeight=False, allowPOS=()) content:為輸入的文字 topK：為返回tf-itf權重最大的關鍵詞，預設值為20個詞 wit

關鍵詞提取演算法—TF/IDF演算法

關鍵詞提取演算法一般可分為有監督學習和無監督學習兩類。有監督的關鍵詞提取方法可以通過分類的方式進行，通過構建一個較為完善的詞表，然後判斷每個文件與詞表中的每個詞的匹配程度，以類似打標籤的方式，達到關鍵詞提取的效果。優點是可以獲得較高的精度，缺點是需要大批量的標註資料，並且要對詞表進行人

關鍵詞提取/關鍵字提取之TF-IDF演算法

TF-IDF（term frequency–inverse document frequency）是一種用於資訊檢索與資訊探勘的常用加權技術。TF的意思是詞頻(Term - frequency), IDF的意思是逆向檔案頻率（inverse Document frequency）。TF-IDF是一

解析TF-IDF演算法原理：關鍵詞提取，自動摘要，文字相似度計算

Abstract：TF-IDF演算法是一種常用的詞頻統計方法，常被用於關鍵詞提取、文字摘要、文章相似度計算等。 TF-IDF的演算法思路 TF詞頻（Text Frequency）：統計出現次數最多的詞 IDF逆文件頻率（Inverse Document Frequ

TF-IDF演算法自動提取關鍵詞

前言關鍵詞提取可以是說是NLP中比較常見研究方向，這個涉及到資料探勘、文字處理、資訊檢索等很多計算機前沿領域。但今天我們就瞭解一個簡單的演算法來提取關鍵詞。那麼我們該如何實現計算機自動提取關鍵詞呢？讓我們從一個例項開始講起。假定現在有一篇長文《中國的

基於TF-IDF演算法的短標題關鍵詞提取

【自然語言處理】TF-IDF演算法提取關鍵詞

自然語言處理——TF-IDF演算法提取關鍵詞這個標題看上去好像很複雜，其實我要談的是一個很簡單的問題。有一篇很長的文章，我要用計算機提取它的關鍵詞（Automatic Keyphrase extraction），完全不加以人工干預，請問怎樣才能正確做到？這個問

自然語言處理——TF-IDF演算法提取關鍵詞

這個標題看上去好像很複雜，其實我要談的是一個很簡單的問題。有一篇很長的文章，我要用計算機提取它的關鍵詞（Automatic Keyphrase extraction），完全不加以人工干預，請問怎樣才能正確做到？這個問題涉及到資料探勘、文字處理、資訊檢索等很多計算機前沿領域，但是出乎意料的是，有一個非常簡單的經

TF-IDF + K-Means 中文聚類例子 - scala

Demo僅供參考使用spark1.6 import java.io.{BufferedReader, InputStreamReader} import java.util.Arrays import org.ansj.splitWord.analysis.ToAnaly

《數學之美》第11章—如何確定網頁和查詢的相關性（TF-IDF演算法）

文章目錄如何查詢關於“原子能的應用”的網頁？大致思路問題描述解決過程一、使用“總詞頻” 二、加入IDF權重三、IDF概念的理論支

簡單的抽取中文摘要及關鍵詞的方法

基於簡單的計算sentence間的相似度，並進行page ranking實現抽取文章摘要。使用jieba庫實現抽取關鍵詞。可以有很多優化的點，後面慢慢更新吧。具體理論解析可以參考https://blog.csdn.net/qq_32458499/article/details/78659372

ElasticSearch教程——lucene的相關度評分TF&IDF演算法以及向量空間模型演算法

1、boolean model 類似and這種邏輯操作符，先過濾出包含指定term的doc query "hello world" --> 過濾 --> hello / world / hello & world bool --> must/mu

TF-IDF演算法詳解

最近在做一些NLP的研究，由於也是第一次做這個東西，其實還是發現很多有意思的東西。相信很多做過NLP的人都應該接觸過提取關鍵詞的這個功能。現在有很多可以使用的第三方工具包可以很容易的來實現這個功能，比如snowNLP，jieba等，但是我們還是要做到知其然，知其所以然

elasticsearch核心知識---52.倒排索引組成結構以及實現TF-IDF演算法

首先實現了採用java 簡易的實現TF-IDF演算法package matrixOnto.Ja_9_10_va; import com.google.common.base.Preconditions; import org.nutz.lang.Strings; impo

情感分析之詞袋模型TF-IDF演算法（三）

在這篇文章中，主要介紹的內容有：1、將單詞轉換為特徵向量2、TF-IDF計算單詞關聯度在之前的文章中，我們已經介紹過一些文字的預處理和分詞。這篇文章中，主要介紹如何將單詞等分類資料轉成為數值格式，以方便我們後面使用機器學習來訓練模型。一、將單詞轉換為特徵向量詞袋模型(bag-

第六章（1.3）自然語言處理實戰——使用tf-idf演算法實現簡單的文字聚類

一、原理使用jieba切詞用td-idf計算文字的詞頻和逆文件詞頻排序選出最重要的2個或3個詞作為這段文字的id 具有相同id的文字被歸為一類二、使用python實現簡單的文字聚類，其中使用了tf-idf演算法，jieba分詞，把相似的文字聚合在

自然語言處理系列之TF-IDF演算法

TF-IDF演算法 TF-IDF（詞頻-逆文件頻率）演算法是一種統計方法，用以評估一字詞對於一個檔案集或一個語料庫中的其中一份檔案的重要程度。字詞的重要性隨著它在檔案中出現的次數成正比增加，但同時會隨著它在語料庫中出現的頻率成反比下降。該演算法在資料探勘、文字

ES 解決字串的排序問題以及相關度評分TF&IDF演算法

如何將一個field索引倆次來解決字串的排序問題如果對一個stringfield進行排序，結果往往不準確，因為分詞後是多個單詞，再排序就不是我們想要的結果了通常的解決方案是，將一個string fi

TF-IDF演算法抽取中文內容的主題關鍵詞

相關推薦