資料探勘文字分類（八）訓練和測試

阿新 • • 發佈：2019-02-05

今天來個大結局吧，我們有了chi值或者TF-IDF值以後，就可以拿他們用lib-svm工具進行訓練了。

當然我們還要對資料進行一些標準化處理，我們需要將某詞與該詞對應的值作為一個向量處理，這個就是特徵向量了。

舉個例子，我們得到的某個文本里有一個這樣的值：汽車 3456.2314 。

其實這就是一個二維的特徵向量，我們可以把文字編號比如“汽車”記為1，那麼這個向量就是 1：3456.2314 。

如果再加上該文字屬於某一類這個維度，假設汽車這個詞是第一類，向量就變成三維的了：1 1：3456.2341 。

之所以表示成這樣的形式，是lib-svm工具介面接受的資料形式。

我們每一類文章計算完特徵值的時候，還是分在1000篇左右的文本里的，我們需要取出來一部分來代表這類文字，可以每篇取2000個，1000個，甚至500或者300個，這個取決於文字的大小等各種因素。

這樣我們把每一類的前300（假設每個文字取300個）個特徵值最大的詞取出來放到一個文本里，去重，大概剩2000多個詞，這個就叫資料字典了。

比如第一類文字可能是這樣：1 1：3456.2341

1 2：3234.2211

1 3：344.4356

第一列數字是告訴訓練工具這個詞是來自哪一類，第二列就是對應的該類特徵值比較大的詞語編號了，第三列則是該詞對應的特徵值。

我們把每一類都做同樣的處理，這樣libsvm工具就能正確的來處理這些資料了。
開啟libsvm工具包，可以看到windows目錄下是這樣的：

我們可以把之前生成的dict.txt 檔案放到該目錄下，然後用svm-train.exe訓練文字。

操作命令如下：

當然，這個訓練工具提供了很多的引數可調，這裡我們就不管了，全部預設引數。操作命令裡不加任何調引數的命令，train.model就是訓練完生成的模型檔案，儲存在lib-svm目錄下的Windows目錄下。

然後我們呢可以用同樣的處理方式把訓練集處理一遍，生成test.txt（text.txt檔案形式與內容幾乎都跟dict.txt一樣，只不過dict是由訓練集通過一系列操作生成，而test.txt由測試集經過同樣的步驟生成）檔案，這樣我們就可以去預測了。

命令列如下：

這樣，整體的分類準確度就直接給出來了。

我們可以根據output檔案自己統計每一類的準確率和召回率。

資料探勘文字分類（八）訓練和測試

今天來個大結局吧，我們有了chi值或者TF-IDF值以後，就可以拿他們用lib-svm工具進行訓練了。當然我們還要對資料進行一些標準化處理，我們需要將某詞與該詞對應的值作為一個向量處理，這個就是特徵向量了。舉個例子，

資料探勘文字分類（七）特徵提取

上一篇我們做完了詞頻統計，下面就該提取文字特徵了。其實詞的頻率就是文字最重要的特徵了，但是我們如果只靠詞的頻率去判斷文字的分類的話，顯然正確率是很低的。當然，文字的特徵提取有很多辦法了，我上這門課程老師著重介紹的是TF-IDF和卡方校驗兩種

資料探勘文字分類（二）蒐集中文語料庫與ICTCLAS分詞

在上一篇部落格中簡單介紹了實驗環境和流程，這一篇我們繼續。第一步，下載搜狗中文語料庫。連結：http://www.sogou.com/labs/dl/c.html 我們下載

Python資料探勘學習筆記（1）文字挖掘入門

一、準備階段：（1）開啟cmd，pip安裝jieba（pip install jieba）（2）開啟python安裝目錄的Lib->site-packages->jieba，開啟dict.txt，可以看到這是jieba模組的詞典：每

MADlib——基於SQL的資料探勘解決方案（21）——分類之KNN

一、分類方法概要1. 分類的概念資料探勘中分類的目的是學會一個分類函式或分類模型，該模型能把資料庫中的資料項對映到給定類別中的某一個。分類可描述如下：輸入資料，或稱訓練集（Training Set），是由一條條資料庫記錄（Record）組成的。每一條記錄包含

Python資料探勘學習筆記（12）淘寶圖片爬蟲實戰

所謂圖片爬蟲，即是從網際網路中自動把對方伺服器上的圖片爬下來的爬蟲程式。一、圖片爬蟲前的網頁連結分析 1.首先開啟淘寶首頁，在搜尋框中輸入關鍵詞，如“神舟”，在搜尋結果介面中點選下一頁，分別開啟第一頁，第二頁，第三頁的搜尋結果，並記下每一頁結果的URL至記

MADlib——基於SQL的資料探勘解決方案（17）——迴歸之Cox比例風險迴歸

一、Cox比例風險迴歸簡介 Cox比例風險迴歸模型（Cox’s proportional hazards regression model），簡稱Cox迴歸模型，由英國統計學家D.R.Cox於1972年提出，主要用於腫瘤和其它慢性病的預後分析，也可用於佇列研究的

資料探勘乾貨總結（六）--推薦演算法之CF

本文共計1245字，預計閱讀時長八分鐘推薦演算法(二）--CF演算法一、推薦的本質推薦分為非個性化和個性化，非個性化推薦比如各類榜單，而本系列主要介紹個性化推薦，即：在合適的場景，合適的時機，通過合適的渠道，把合適的內容，推薦給合適的使用者二、推薦演算法的種類1. 基於內容C

MADlib——基於SQL的資料探勘解決方案（8）——資料探索之描述性統計

對資料進行統計是從定量的角度去探索資料，是最基本的資料探索方式，其主要目的是瞭解資料從統計學上反映的量的特徵，以便我們更好地認識這些將要被挖掘的資料。我們先要清楚兩個關於統計學的基本概念：總體和樣本。統計的總體是人們研究物件的全體，又稱母體，如

MADlib——基於SQL的資料探勘解決方案（26）——聚類之k-means方法

“物以類聚，人以群分”，其核心思想就是聚類。所謂聚類，就是將相似的事物聚集在一起，而將不相似的事物劃分到不同的類別的過程，是資料分析中十分重要的一種手段。比如古典生物學中，人們通過物種的形貌特徵將其分門別類，可以說就是一種樸素的人工聚類。如此，我們就可以將世界

資料探勘乾貨總結（一）--NLP基礎

本文共計1463字，預計閱讀時長八分鐘 NLP-基礎和中文分詞一、本質 NLP (Natural Language Processing)自然語言處理是一門研究計算機處理人類語言的技術二、NLP用來解決什麼問題語音合成（Speech synth

資料探勘乾貨總結（五）--推薦演算法之CB

本文共計927字，預計閱讀時長六分鐘推薦演算法(一)--CB演算法一、推薦的本質推薦分為非個性化和個性化，非個性化推薦比如各類榜單，而本系列主要介紹個性化推薦，即：在合適的場景，合適的時機，通過合適的渠道，把合適的內容，推薦給合適的使用者二、推薦演算法的種類1. 基於內容Co

資料探勘乾貨總結（二）--NLP進階-詳解Jieba分詞工具

NLP進階-詳解Jieba分詞工具一、Jieba分詞工具 1. 三種模式 • 精確模式：將句子最精確的分開，適合文字分析 • 全模式：句子中所有可以成詞的詞語都掃描出來，速度快，不能解決歧義 • 搜尋引擎模式：在精確模式基礎上，對長詞再次切分，提高召回 2.實現的演算法 • 基於Tri

caffe隨記（七）---訓練和測試自己的圖片

前面也介紹了tools工具，今天來試著自己跑一下影象分類的例項 1、下載資料我沒有用imagenet的資料，因為太大了不想下，而且反正也只是當作例程跑一下而已，所以我用的是另一位博主分享的網盤上的資料，共有500張圖片，分為大巴車、恐龍、大象、鮮花和馬五個類，每個類1

社交網站的資料探勘與分析（高清版）PDF

社交網站的資料探勘與分析（高清版）PDF百度網盤連結：https://pan.baidu.com/s/1ia57ZMxvdTtq7eragsITzg 提取碼：5hth 複製這段內容後開啟百度網盤手機App，操作更方便哦內容簡介 · · · · · · Facebook、Twitter和LinkedIn產生了大

機器學習&資料探勘筆記_16（常見面試之機器學習演算法思想簡單梳理）

　　前言：　　找工作時（IT行業），除了常見的軟體開發以外，機器學習崗位也可以當作是一個選擇，不少計算機方向的研究生都會接觸這個，如果你的研究方向是機器學習/資料探勘之類，且又對其非常感興趣的話，可以考慮考慮該崗位，畢竟在機器智慧沒達到人類水平之前，機器學習可以作為一種重要手段，而隨著科技的不斷髮展，

機器學習（資料探勘十個重要演算法）

資料探勘中常用的十個重要演算法一、 C4.5 C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3 演算法. C4.5演算法繼承了ID3演算法的長處。並在下面幾方面對ID3演算法進行了改進： 1) 用資訊增益率來選擇屬性，克服了用資訊增

資料探勘一般流程（資料清洗，特徵提取，建模，調參）

最近一直在實習，好長時間沒更新部落格了。哎，懶惰之心不可有啊！！實習的崗位是資料探勘相關的，所以正好把到目前為止實習期間遇到的一些問題、學到的一些東西總結一下，並參考了一些部落格，自我提升。嘿嘿嘿~

【Mark Schmidt課件】機器學習與資料探勘——線性分類器

本課件主要內容包括：上次課程回顧：L1正則化組合特徵選擇線性模型與最小二乘梯度下降與誤差函式正則化辨識重要郵件基於迴歸的二元分類？一維判決邊界二維判決邊界感知器演算法

【Mark Schmidt課件】機器學習與資料探勘——多元分類

本課件主要內容：上次課程回顧：隨機梯度無限資料的隨機梯度詞性標註POS POS特徵多元線性分類題外話：多標籤分類多元SVMs 多元Logistic迴歸題外話：Frobenius範數

資料探勘 文字分類 （八）訓練和測試

相關推薦

資料探勘文字分類（八）訓練和測試