sklearn: TfidfVectorizer 中文處理及一些使用參數
阿新 • • 發佈:2018-07-23
矩陣 feature model targe 詞語 -i style 相似度計算 nsf
TfidfVectorizer可以把原始文本轉化為tf-idf的特征矩陣,從而為後續的文本相似度計算,主題模型,文本搜索排序等一系列應用奠定基礎。基本應用如:
#coding=utf-8 from sklearn.feature_extraction.text import TfidfVectorizer document = ["I have a pen.", "I have an apple."] tfidf_model = TfidfVectorizer().fit(document) sparse_result = tfidf_model.transform(document) #得到tf-idf矩陣,稀疏矩陣表示法 print(sparse_result) # (0, 3) 0.814802474667 # (0, 2) 0.579738671538 # (1, 2) 0.449436416524 # (1, 1) 0.631667201738 # (1, 0) 0.631667201738 print(sparse_result.todense()) # 轉化為更直觀的一般矩陣 # [[ 0. 0. 0.57973867 0.81480247] # [ 0.6316672 0.6316672 0.44943642 0. ]]print(tfidf_model.vocabulary_) # 詞語與列的對應關系 # {‘have‘: 2, ‘pen‘: 3, ‘an‘: 0, ‘apple‘: 1}
https://blog.csdn.net/blmoistawinde/article/details/80816179
sklearn: TfidfVectorizer 中文處理及一些使用參數