基於sklearn的文字特徵提取與分類

阿新 • • 發佈：2019-01-04

文章開的比較久但內容沒怎麼寫，不好意思！

題目是80萬條簡訊作為訓練資料，10%的垃圾簡訊(label = 1)，90%正常簡訊(label = 0),然後在20萬條資料作為測試物件，找出垃圾簡訊與正常簡訊。我最終的評分是0.985，相對於第一0.997還是有很大差距，排名59/339。具體競賽內容可以參考中國好創意比賽官網。

文字分類大致可以分為：出本處理，特徵提取，特徵選擇，分類，預測幾個步驟，其中前三步佔用80%的工作量。

1.文字處理

分詞，去除停用詞等。文字處理要做的內容很多，如果需要請參考其他文獻。

分詞我採用結巴分詞，有比較好用的python包，Python中文分片語件以供參考

去除停用詞需要根據實際情況作考慮，一般情況是需要的。

文字處理後，得到的應該是每條簡訊對應的分詞表，如：原”商業祕密的祕密性那是維繫其商業價值和壟斷地位的前提條件之一“經過處理後為”商業祕密祕密性維繫商業價值壟斷地位前提條件之一 “

核心程式碼：

#   (i not in stopWords) and    
def cutWords(msg,stopWords):
    seg_list = jieba.cut(msg,cut_all=False)
    #key_list = jieba.analyse.extract_tags(msg,20) #get keywords 
    leftWords = [] 
    for i in seg_list:
        if (i not in stopWords):
            leftWords.append(i)        
    return leftWords

#獲取停用詞表
def loadStopWords(): 
    stop = [line.strip().decode('utf-8')  for line in open('../data/stopWord.txt').readlines() ] 
    return stop

2.特徵提取，特徵選擇

這裡呢就需要參考上面的提到的兩個參考博文了，具體API的用法可以參考sklearn官網這裡使用的是tfidf特徵

核心程式碼舉例，具體參考附錄的完整工程：

#navie bayes classifier
def nbClassifier(trainData,testData,trainLabel,testLabel):
    vectorizer = CountVectorizer(binary=True)
    fea_train = vectorizer.fit_transform(trainData)
    fea_test = vectorizer.transform(testData);  
#     tv=TfidfVectorizer()#該類會統計每個詞語的tf-idf權值    
#     fea_train = tv.fit_transform(trainData)    #return feature vector 'fea_train' [n_samples,n_features]  
#     fea_test = tv.transform(testData);  
    print 'Size of fea_train:' + repr(fea_train.shape) 
    print 'Size of fea_test:' + repr(fea_test.shape) 
    print fea_train.nnz
    print fea_test.nnz

    clf = MultinomialNB(alpha = 0.01)   
    clf.fit(fea_train,np.array(trainLabel))
    pred = clf.predict(fea_test)
    totalScore(pred,testData,testLabel)

3.分類，預測

這個不多說，常見的方法就那麼幾種，相差不會很大。如果需要達到很高的分數還需要演算法上的修改優化。

4.改進

由於垃圾簡訊中存在特殊字元,比如,三角/方框/繁體字等,在預處理時可以建立所有文件的異常符號詞庫,作為字典,對結果肯定有提升.

參考比賽第一名的ppt,對我來說參考意義也蠻大,需要的可以在我的資源點選開啟連結檢視.

本人的工程程式碼以及資料請到我的github主頁下載點選開啟連結

基於sklearn的文字特徵提取與分類

文章開的比較久但內容沒怎麼寫，不好意思！題目是80萬條簡訊作為訓練資料，10%的垃圾簡訊(label = 1)，90%正常簡訊(label = 0),然後在20萬條資料作為測試物件，找出垃圾簡訊與正常簡訊。我最終的評分是0.985，相對於第一0.997還是有很大差距，排

sklearn文字特徵提取CountVectorizer 和 TfidfVectorizer

fromsklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer1. CountVectorizervectorizer=CountVectorizer(analyzer = "word",

sklearn文字特徵提取

class sklearn.feature_extraction.text.CountVectorizer(input='content', encoding='utf-8', decode_error='strict', strip_accents=None, lowercase=True, preproc

sklearn基礎（一）文字特徵提取函式CountVectorizer()和TfidfVectorizer()

CountVectorizer()函式 CountVectorizer()函式只考慮每個單詞出現的頻率；然後構成一個特徵矩陣，每一行表示一個訓練文字的詞頻統計結果。其思想是，先根據所有訓練文字，不考慮其出現順序，只將訓練文字中每個出現過的詞彙單獨視為一列特徵，構成一個詞彙表(vocabulary

目標檢測的影象特徵提取之（四）OpenCV中BLOB特徵提取與幾何形狀分類

OpenCV中BLOB特徵提取與幾何形狀分類一：方法二值影象幾何形狀提取與分離，是機器視覺中重點之一，在CT影象分析與機器人視覺感知等領域應用廣泛，OpenCV中提供了一個對二值影象幾何特徵描述與分析最有效的工具 - SimpleBlobDetector類，使用它可以實現對二

文字特徵提取_03：基於詞頻數的文件向量CountVectorizer

王小草SparkML筆記筆記整理時間：2017年1月10日筆記整理者：王小草 1. 基於詞頻數的文件向量在文字特徵提取_01和02中分別介紹了TF-IDF文件矩陣和基於神經網路的word2vec詞嵌入矩陣。本文我們要介紹的是一個非常基礎非常

用Python開始機器學習（5：文字特徵抽取與向量化） sklearn

http://blog.csdn.net/lsldd/article/details/41520953 假設我們剛看完諾蘭的大片《星際穿越》，設想如何讓機器來自動分析各位觀眾對電影的評價到底是“贊”（positive）還是“踩”（negative）呢？這類問題就屬於情感分析問題。這類問題處理的第一步，就是

[ML with Sklearn]特徵提取與處理

①分類變數特徵提取分類變數通常用獨熱編碼(One-of-K or One-Hot Encoding)，通過二進位制來表示每個自變數特徵。例如，假設city變數有三個值：New York, San Francisco, Chapel Hill。獨熱編碼方式就是用三位二進位

特徵提取與檢測（二） --- SIFT演算法

SIFT（Scale-invariant feature transform）是一種檢測區域性特徵的演算法，該演算法通過求一幅圖中的特徵點（interest points,or corner points）及其有關scale 和 orien

Sklearn常用特徵提取和處理方法

1、將分類變數轉換為數值編號，才可以被處理 import pandas as pd import numpy as np from sklearn import preprocessing 用LabelEncoder對不同的犯罪型別編號 leCrime

文字特徵提取方法研究

一、課題背景概述文字挖掘是一門交叉性學科,涉及資料探勘、機器學習、模式識別、人工智慧、統計學、計算機語言學、計算機網路技術、資訊學等多個領域。文字挖掘就是從大量的文件中發現隱含知識和模式的一種方法和工具,它從資料探勘發展而來,但與傳統的資料探勘又有許多不同。文字挖掘的物件

機器學習-2.特徵工程和文字特徵提取

1. 資料集的組成前面講了，機器學習是從歷史資料當中獲得規律，那這些歷史資料的組成是個什麼格式？大都儲存在哪裡？ – 在機器學習裡大多數資料不會存在資料庫中，大都存在檔案中（比如csv檔案） – 不存在資料庫原因：1. 讀取速度導致存在效能瓶頸。2. 儲存的格式不太符合機器學習

經典演算法研究系列九影象特徵提取與匹配之SIFT演算法

經典演算法研究系列：九、SIFT演算法研究作者:July、二零一一年二月十五日。推薦閱讀：David G. Lowe, "Distinctive image features from scale-invariant keypoints," Internationa

機器學習系列：（三）特徵提取與處理

第一個SURF描述符： [ 1.15299134e+02 2.56185453e+02 3.51230841e+00 3.32786485e+02 1.00000000e+00 1.75644866e+00 -2.94268692e-03 3.30736379e-03 2

OpenCV中feature2D學習——FAST特徵點檢測與SIFT/SURF/BRIEF特徵提取與匹配

在前面的文章《OpenCV中feature2D學習——FAST特徵點檢測》中講了利用FAST運算元進行特徵點檢測，這裡嘗試使用FAST運算元來進行特徵點檢測，並結合SIFT/SURF/BRIEF運算元進行特徵點提取和匹配。 I、結合SIFT運算元進行特徵點提取

機器學習中的特徵提取與特徵轉換 [將線性不可分轉換為線性可分]

機器學習中，神經網路是如何將線性不可分的樣本，進行很好的分類的？如上圖所示，左圖中的藍色的圓圈和紅色的叉叉是線性不可分的。如上圖中右圖所示，我們發現它們是可以被一個圓分開的。假設黑色圓圈的公式為： x1^2 + x2^2 + 0.6 = 0，則可以使用如下公式將藍色的圓圈和紅色

用Python開始機器學習（5：文字特徵抽取與向量化）

假設我們剛看完諾蘭的大片《星際穿越》，設想如何讓機器來自動分析各位觀眾對電影的評價到底是“贊”（positive）還是“踩”（negative）呢？這類問題就屬於情感分析問題。這類問題處理的第一步，就是將文字轉換為特徵。因此，這章我們只學習第一步，如何從文字中抽取特徵，並將其向量化。由於中文的處理涉及

車輛識別（特徵提取+svm分類器）

以下為udacity的SDCND的一個專案 ps：這裡使用的是用opencv進行特徵提取+svm分類器的方法實現物體檢測，是在深度學習流行前比較經典的實現方法專案描述：使用openCV提取圖片特徵，訓練svm分類器，分類車輛與非車輛。用訓練好的模型識別汽車前置攝

卷積特徵提取與池化（Pooling）——處理大型影象

在之前的章節中，我們已經很好地解決了手寫體識別問題（維數為28*28）。但如果是更大的影象（維數為96*96）呢？如果你還是要學習400個特徵，那麼網路權重引數就有400*96*96即近400萬個。卷積特徵提取如果我們從大型彩色影象（64*64*3）中隨機抽取一些小

基於Harris的特徵檢測與匹配

基於sklearn的文字特徵提取與分類

相關推薦