tf-idf + svm 文字分類

阿新 • • 發佈：2019-01-01

01分類

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score , roc_auc_score , roc_curve
import matplotlib.pyplot as plt



def create_model(d_train , d_test):
    print("訓練樣本 = %d" % len(d_train))
    print("測試樣本 = %d" %len(d_test))
    vectorizer = TfidfVectorizer(ngram_range=(1,2),min_df=2 ) #tf-idf特徵抽取ngram_range=(1,2)
    features = vectorizer.fit_transform(d_train.title)
    print("訓練樣本特徵表長度為 " + str(features.shape))
    # print(vectorizer.get_feature_names()[3000:3050]) #特徵名展示
    test_features = vectorizer.transform(d_test.title)
    print("測試樣本特徵長度為："+str(test_features.shape))
    #支援向量機
    #C: 目標函式的懲罰係數C，用來平衡分類間隔margin和錯分樣本的，default C = 1.0
    svmmodel = SVC(C = 1.0 , kernel= "linear") #kernel：引數選擇有rbf, linear, poly, Sigmoid, 預設的是"RBF";

    nn = svmmodel.fit(features , d_train.two_category)
    print(nn)
    # predict = svmmodel.score(test_features ,d_test.two_category)
    # print(predict)
    pre_test = svmmodel.predict(test_features)
    d_test["01category"] = pre_test
    d_test.to_excel("wr01_pre_1025.xlsx", index=False)



# d_train , d_test = data_prepare()
print("對新樣本進行01預測")
df = pd.read_excel("wr01_new_train1012.xlsx") #訓練
d_train = df

d_test = pd.read_excel("wr_100樣本1023.xlsx") #測試
create_model(d_train, d_test)

60分類

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score , roc_auc_score , roc_curve
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split



def create_model(d_train , d_test):
    print("訓練樣本 = %d" % len(d_train))
    print("測試樣本 = %d" %len(d_test))
    vectorizer = TfidfVectorizer(ngram_range=(1,2),min_df=2 ) #tf-idf特徵抽取ngram_range=(1,2)
    features = vectorizer.fit_transform(d_train.title)
    print("訓練樣本特徵表長度為 " + str(features.shape))
    # print(vectorizer.get_feature_names()[3000:3050]) #特徵名展示
    test_features = vectorizer.transform(d_test.title)
    print("測試樣本特徵表長度為 "+ str(test_features.shape))
    #支援向量機
    #C: 目標函式的懲罰係數C，用來平衡分類間隔margin和錯分樣本的，default C = 1.0
    svmmodel = SVC(C = 1.0 , kernel= "linear") #kernel：引數選擇有rbf, linear, poly, Sigmoid, 預設的是"RBF";

    nn = svmmodel.fit(features , d_train.sku)
    print(nn)
    # predict = svmmodel.score(test_features ,d_test.sku)
    # print(predict)
    pre_test = svmmodel.predict(test_features)
    d_test["pre_skuno"] = pre_test
    d_test.to_excel("wr60_svm_pre1012.xlsx", index=False)

print("對新樣本進行60個車型預測")
d_train = pd.read_excel("wr60_train1012.xlsx") #訓練

df = pd.read_excel("wr機器學習分析報告.xlsx",sheetname="01預測") #測試
d_test = df[df.pre_category == 1]
create_model(d_train, d_test)

# 訓練樣本 = 75987
# 測試樣本 = 32606
# 訓練樣本特徵表長度為 (75987, 18040)
# SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
#   decision_function_shape=None, degree=3, gamma='auto', kernel='linear',
#   max_iter=-1, probability=False, random_state=None, shrinking=True,
#   tol=0.001, verbose=False)
# 0.920137398025
#0.933329022245

tf-idf + svm 文字分類

01分類 import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.linear_model import LogisticRegression

文字挖掘——基於TF-IDF的KNN分類演算法實現

一、專案背景此專案是用於基建大資料的文字挖掘。首先爬蟲師已經從各個公開網站上採集了大量的文字，這些文字是關於基建行業的各種招中標公告，文本里會有部分詞彙明顯或者隱晦的介紹此專案是關於哪一工程類別的，比如公路工程，市政工程，建築工程，軌道交通工程，等等。

TensorFlow之tf.keras的文字分類

這段時間在學習TensorFlow，這些都是一些官網上的例子，在這裡和大家分享記錄一下。此教程使用評論文字將電影評論分類為正面或負面。這是二元或兩類分類的一個例子，這是一種重要且廣泛適用的機器學習問題。我們將使用包含來自Internet電影資料庫的50

LDA + SVM 文字分類

關於LDA的一些理解對於語料庫中的每篇文件，LDA定義瞭如下生成過程（generative process）：對每一篇文件，從主題分佈中抽取一個主題；從上述被抽到的主題所對應的單詞分佈中抽取一個單詞；重複上述過程直至遍歷文件中的每一個單詞。 P(w

TF-IDF比較文字相似度

文字相似度 TF-IDF 演算法如果某個詞在給定文件中很少出現，但是在給定文件中的某一篇文章中出現的次數很大，該詞在很大程度上反映了該文章的特性，我們稱該詞為這篇文章的關鍵字參考連結：http://www.ruanyifeng.com/blog/2013/

【Spark Mllib】TF-IDF&Word2Vec——文字相似度

1 從資料中抽取合適的特徵 1.1 TF-IDF短語加權表示 TF-IDF公式的含義是:在一個文件中出現次數很多的詞相比出現次數少的詞應該在詞向量表示中得到更高的權值。而IDF歸一化起到了減弱在所有文件中總是出現的詞的作用。最後的結果就是,

從零開始的文字TF-IDF向量構造和基於餘弦相似度的文字分類

一、任務需求 1、給定資料庫裡面的N行資料每行代表一篇文章，屬性分別是[id, title, summuary,content] ，從mysql資料庫獲取資料並生成DataFrame格式的資料，有兩列，分別是id 和con

機器學習——文字分類（TF-IDF）

首先，文字資料屬於非結構化資料，一般要轉換成結構化的資料，一般是將文字轉換成“文件-詞頻矩陣”，矩陣中的元素使用詞頻或者TF-IDF。 TF-IDF的主要思想是：如果某一個詞或短語在一篇文章中出現的頻率高，並且在其他文章中很少出現，則認為此詞或短語具有很好的類別區分能力，適

文本分類學習（三）特征權重（TF/IDF）和特征提取

才會有用卡方檢驗改變其中關於思想意義 bsp 上一篇中，主要說的就是詞袋模型。回顧一下，在進行文本分類之前，我們需要把待分類文本先用詞袋模型進行文本表示。首先是將訓練集中的所有單詞經過去停用詞之後組合成一個詞袋，或者叫做字典，實際上一個維度很大的向量。這樣每個

NLP文字相似度(TF-IDF)

我們在比較事物時，往往會用到“不同”，“一樣”，“相似”等詞語，這些詞語背後都涉及到一個動作——雙方的比較。只有通過比較才能得出結論，究竟是相同還是不同。但是萬物真的有這麼極端的區分嗎？在我看來不是的，生活中通過“相似度”這詞來描述可能會更加準確。比如男人和女人，雖然生理器官和可能思想有

Python3——文字標題關鍵字提取_jieba分詞+sklearn計算tf-idf詞語權重

功能：實現文字標題關鍵字的提取由於jieba自身的jieba.analyse.set_idf_path方法依賴於idf.txt.big的逆文件率語料庫，因此本例採用sklearn轉換詞向量的方法，依靠包含的文件來計算TF-IDF的值。 Step1: 匯入相關工具包

NLP：主題模型LDA+SVM進行文字分類

參考：http://www.cnblogs.com/pinard/p/6908150.htmlhttp://blog.csdn.net/TiffanyRabbit/article/details/764

機器學習筆記筆記之三——文字型別處理-詞袋法、TF-IDF理解

在面對文字型特徵時，大致可以分為兩種。一是列舉型別，比如：男女，小學生初中生高中生大學生……這種型別下類別一般不會超過百種，那麼就可以使用啞編碼（one-hot）來處理。另一種就是真正意義上的文字，一條評論或是一篇文章。對於這樣的資

python進行文字分類，基於word2vec,sklearn-svm對微博垃圾評論分類

差不多一年前的第一個分類任務，記錄一下語料庫是關於微博的垃圾使用者評論，分為兩類，分別在normal,和spam資料夾下。裡面是很多個txt檔案，一個txt是一條使用者評論。一、進行分詞利用Jieba分詞和去除停用詞（這裡我用的是全模式分詞），每一篇文件為一行

Spark下實現LDA+SVM的文字分類處理

最新發布的Spark1.3.1版本中已經實現了LDA的演算法，並且以前實現過LDA+SVM進行文字分類的處理程式，藉此機會想將程式改為Spark的分散式，Spark已經支援SVM和LDA演算法。Spa

sklearn svm實現文字分類入門

正在學習sklearn , 實驗室專案需要實現一些文字的分類的功能。 sklearn提供了許多機器學習方面使用的到的寫好的工具。其中也包括分類器。sklearn在這裡不作介紹。有官網，有部落格，也正在學習中最開始是參照著這片文章： https://seg

文字分類與SVM

之前做過一些文字挖掘的專案，比如網頁分類、微博情感分析、使用者評論挖掘，也曾經將libsvm進行包裝，寫了一個文字分類的開軟軟體Tmsvm。所以這裡將之前做過一些關於文字分類的東西整理總結一下。 1 基礎知識 1. 1 樣本整理文字分類屬於有監督的學習，所以需要整理樣

[python] 使用scikit-learn工具計算文字TF-IDF值

轉載自：http://blog.csdn.net/liuxuejiang158blog/article/details/31360765 TF-IDF簡要介紹（來自：http://blog.csdn.net/eastmount/article/details/50323063）

第六章（1.3）自然語言處理實戰——使用tf-idf演算法實現簡單的文字聚類

一、原理使用jieba切詞用td-idf計算文字的詞頻和逆文件詞頻排序選出最重要的2個或3個詞作為這段文字的id 具有相同id的文字被歸為一類二、使用python實現簡單的文字聚類，其中使用了tf-idf演算法，jieba分詞，把相似的文字聚合在

解析TF-IDF演算法原理：關鍵詞提取，自動摘要，文字相似度計算

Abstract：TF-IDF演算法是一種常用的詞頻統計方法，常被用於關鍵詞提取、文字摘要、文章相似度計算等。 TF-IDF的演算法思路 TF詞頻（Text Frequency）：統計出現次數最多的詞 IDF逆文件頻率（Inverse Document Frequ

tf-idf + svm 文字分類

相關推薦