使用scikit-learn進行自然語言處理——文件特徵提取(基於詞袋模型bag-of-words) 計算tf-idf

阿新 • • 發佈：2020-08-18

首先python環境已經安裝了numpy, scipy, sklearn, jieba

# coding=utf-8
"""
@desc: 
"""
from scipy import sparse
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer, TfidfVectorizer
from jieba import cut

# 用jieba進行中文分詞
import jieba

'''
corpus是一個列表，每篇文章是該列表的一個字串型別的元素，word_separator是文章分詞後使用該分隔符分割每個單詞
 
'''


def word_cut_chinese(corpus, word_separator):
    word_cut_results = list()
    for document in corpus:
        word_cut_results.append(word_separator.join(jieba.cut(document)))
    # 可再加一步去停用詞
    return word_cut_results

# ---------------使用以上函式處理----------------------------------------


WORD_SEPARATOR  
= ' '
corpus = ['我第一次學習自然語言處理，真的有點慌真的好著急',
          '不要緊張一切都會好的']
train_data = word_cut_chinese(corpus, WORD_SEPARATOR)
print('word_cuted_corpus is :', train_data)
# word_cuted_corpus is : ['我 第一次 學習 自然語言 處理 ， 真的 有點 慌 真的 好 著急', '不要 緊張 一切 都 會 好 的']

print('--------分詞結果-------')
for doc in train_data:
     
print(doc)


# 用sklearn構建bag of words
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer, TfidfVectorizer
count_vectorizer = CountVectorizer()
# 訓練語料庫,得到一個scipy的稀疏矩陣count_matrix
count_matrix = count_vectorizer.fit_transform(train_data)
print(u"矩陣的稀疏表示count_matrix is:", '\n',count_matrix)
# count_matrix is: 含義：第0篇文件的編號為7的詞在第0篇文件中出現的的頻次是1
#    (0, 7)    1
#    (0, 3)    1

# 得到稠密矩陣
print(u"稠密矩陣count_matrix_todense  is:", '\n', count_matrix.todense())

# 檢視整個語料庫的tokens
tokens = count_vectorizer.vocabulary_
print('可以得到token字典，tokens is:', '\n', tokens)

# 通過單詞查詢id
print(u'真的這個詞的索引是：',count_vectorizer.vocabulary_.get('真的'))
# 通過id查詢單詞
print(tokens.items())
# filter函式過濾字典的每一項
print(u'索引為5的詞語是',list(filter(lambda x: x[1] == 5, tokens.items()))[0][0])

'''可以使用訓練語料生成的詞典為新的語料生成特徵矩陣'''

# 應用到新的語料
corpus_new=['我真的很喜歡你']
word_cuted_corpus_new=word_cut_chinese(corpus_new,WORD_SEPARATOR)
matrix_new = count_vectorizer.transform(word_cuted_corpus_new)
print(matrix_new.toarray())

'''使用sklearn計算tf-idf矩陣'''
tf_idf_transformer = TfidfTransformer()
tf_idf_matrix = tf_idf_transformer.fit_transform(count_matrix)
print('-------tf-idf矩陣密集表示----')
print(tf_idf_matrix.todense())

print('-------tf-idf矩陣稀疏表示----')
print(tf_idf_matrix)

ref: https://blog.csdn.net/chansonzhang/article/details/84023654?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.edu_weight&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.edu_weight

使用scikit-learn進行自然語言處理——文件特徵提取(基於詞袋模型bag-of-words) 計算tf-idf

首先python環境已經安裝了numpy, scipy, sklearn, jieba # coding=utf-8 \"\"\" @desc: \"\"\" from scipy import sparse

python+spaCy進行自然語言處理(NLP)

參考文章：使用 Python+spaCy 進行簡易自然語言處理 spaCy教程學習 - 人工智慧遇見磐創 - 部落格園

自然語言處理 - 二元語法與中文分詞

技術標籤：自然語言處理人工智慧機器學習二元語法與中文分詞之前的一篇文章裡(自然語言處理 - 分詞初窺)中我們介紹並實現了基於詞典的最大匹配分詞方法。這種方法簡單直觀，且詞典擴充很方便。但詞典分詞難以消

哈工大自然語言處理工具箱之ltp在windows10下的安裝使用教程

ltp是哈工大出品的自然語言處理工具箱,pyltp是python下對ltp(c++)的封裝. 在linux下我們很容易的安裝pyltp,因為各種編譯工具比較方便. 但是在windows下需要安裝vs並且還得做一些配置,因為我服務的人都是在windows下辦

Liquid模板語言參考文件

Liquid是由Shopify建立並使用Ruby編寫的模板語言。現在，它可以作為GitHub上的開源專案使用，並被許多不同的軟體專案和公司使用。 Liquid是所有Shopify主題的骨幹，用於將動態內容載入到線上商店的頁面上。

自然語言處理1-2: 編輯距離

原文出處：https://algorithms.tutorialhorizon.com/dynamic-programming-edit-distance-problem/ 問題：假設我們現在有兩個字串s1和s2，並且給出如下所示的三個編輯操作，寫出一個演算法，當每次只能使用其中一個編

自然語言處理4-3:語言模型之n-gram模型

n-gram模型 unigram模型：假設每個單詞的出現概率和前面的單詞無關，寫成表示式就是：

自然語言處理4-4：語言模型之模型評估perplexity

perplexity可以用來評估訓練的語言模型的好壞，其實就是下面這個公式 $$perplexity = 2^{-x}\\qquad x表示的是平均的log likelihood，也可以理解為平均的概率啦$$

自然語言處理4-5：語言模型之平滑操作

為什麼需要平滑操作假設有一個預料集我喜歡喝奶茶我喜歡吃巧克力我喜歡健身

自然語言處理「迷惑行為大賞」第二季

作為一名NLPer，"自然語言處理太難了" 成為你的口頭禪了嗎？今天整理了一系列自然語言處理的迷惑行為，和大家一起欣賞

自然語言處理「迷惑行為大賞」，自然語言處理太難難難了！

點選上方“AI遇見機器學習”，選擇“星標”公眾號重磅乾貨，第一時間送達

【學術】計算傳播學：自然語言處理技術的用途和應用潛力

目錄一、社會傳播學研究二、目前社會傳播學存在的挑戰（1）如何高效地收集、整合資料，並進行資訊的提取與利用。

人工智慧-自然語言處理（1）

人工智慧-自然語言處理（1）本章將介紹一些不同的方法，這些方法將我們正在使用的單詞轉換為可操縱和進行計算的向量。

自然語言處理中的Attention機制

Attention機制的理解 Attention機制也就是注意力機制，在自然語言處理中，就是對於一個語言序列的不同的部分給予不同的注意力，在數學上一般表現為權重，也就是對一個語言序列的各個元素加權。

W06 - 999、基於自然語言處理篩選簡歷

初學耗時：999h 注：CSDN手機端暫不支援章節內鏈跳轉，但外鏈可用，更好體驗還請上電腦端。

清華大學劉知遠：知識指導的自然語言處理

“語言是一塊琥珀，許多珍貴和絕妙的思想一直安全地儲存在裡面。”從人類誕生伊始，自然語言就承載著世世代代的智慧，積聚了無窮無盡的知識。這片深蘊寶藏的沃土吸引了眾多滿懷好奇的AI研究者，投入其中耕

【直播回放】新手如何入門並學習自然語言處理

大家好，歡迎來到我們的付費視訊直播回放欄目，在這個專欄中我們會每一次針對某一個主題，做1～2個小時左右的直播，包含PPT的講解與微信群的答疑交流。

自然語言處理（1）：Transformer模型實現原理詳解

劃時代的產物在2018年，谷歌推出了BERT模型之後，該模型在11項NLP任務中奪得STOA結果，引爆了整個NLP界。而BERT取得成功的一個關鍵因素是Transformer的強大作用。谷歌的Transformer模型最早是用於機器翻譯

自然語言處理之語料庫

語料庫定義：語料庫(corpus)就是存放語言材料的倉庫(語言資料庫）語料庫技術的發展

NLP自然語言處理

老實來講這課我一頭霧水滿腦袋問號 import numpy as np from collections import Counter counttime = 0

使用scikit-learn進行自然語言處理——文件特徵提取(基於詞袋模型bag-of-words) 計算tf-idf

相關推薦