基於的樸素貝葉斯的文本分類（附完整代碼(spark/java）

阿新 • • 發佈：2017-06-22

ava -s for 轉換成模型保存 ext js rgs cti txt

本文主要包括以下內容：
1）模型訓練數據生成（demo）
2 ) 模型訓練（spark+java）,數據存儲在hdfs上
3）預測數據生成（demo）
4）使用生成的模型進行文本分類。

一、訓練數據生成

spark mllib模型訓練的輸入數據格式通常有兩種，一種叫做 LIBSVM 格式，樣式如下：
label index1:value1 index2:value2
label為類別標簽，indexX為特征向量索引下標，value為對應的那維的取值。
另一種格式樣式如下：
label f1,f2,f3,…,fn
fx為特征取值
兩種格式的文件，分別可以通過方法：
org.apache.spark.mllib.util.MLUtils.loadLibSVMFile
org.apache.spark.mllib.util.MLUtils.loadLabeledData
讀取。
我們這裏采用第一種格式。

現在開始正式生成這種格式的數據文件。在模型訓練階段，會直接從這個文件中讀取數據訓練。這個後面會講到。
我們這裏假設對於文本，我們已經提取了關鍵詞作為特征。特征列表如下：
features = [w1,w2,w3,…,wn]
同時，文本的主題（類別）集為：
topics = [t1,t2,…tm]
然後有很多的經過簡單處理（分詞，去停用詞等）得到訓練數據，每行的格式大概如下：
t2 w1,w23,w34,w1,…
我們直接將詞頻當做特征的取值。下面是生成libsvm格式的python代碼，僅供參考：

    for info in result:
        sstr = ""
        topic_name = info[0] #主題名
        content = str(info[1]).split() #處理後的文本內容（詞列表）
        index = topics.index(channel_name)
        sstr += str(index)
        features_val = ""
        for i,word in enumerate(features):
            freq = content.count(word)
            if freq:
                features_val += " "
                features_val += str(i+1) + ":" + str(freq)
        if not features_val:continue
        sstr += features_val
        #bayes_data.write(sstr+"\n")
        print n
        n += 1
    hdfs_client.write_list(sstr_lst,BAYES_DATA_PATH)#寫到hdfs指定路徑

這樣，訓練數據就算生成完成了。

二、模型訓練

這步就簡單了。spark官網上有例子，直接拿來用就行了。現在貼出略做調整後的java代碼：

public static void training(JavaSparkContext jsc){
        String path = "data/libsvm_data.txt";

         JavaRDD<LabeledPoint> inputData = MLUtils.loadLibSVMFile(jsc.sc(), path).toJavaRDD();
         JavaRDD<LabeledPoint>[] tmp = inputData.randomSplit(new double[]{0.6, 0.4}, 12345);
         JavaRDD<LabeledPoint> training = tmp[0]; // training set
         JavaRDD<LabeledPoint> test = tmp[1]; // test set
         final NaiveBayesModel model = NaiveBayes.train(training.rdd());
         JavaPairRDD<Double, Double> predictionAndLabel =
           test.mapToPair(new PairFunction<LabeledPoint, Double, Double>() {
             @Override
             public Tuple2<Double, Double> call(LabeledPoint p) {
               return new Tuple2<Double, Double>(model.predict(p.features()), p.label());
             }
           });
         double accuracy = predictionAndLabel.filter(new Function<Tuple2<Double, Double>, Boolean>() {
           @Override
           public Boolean call(Tuple2<Double, Double> pl) {
             return pl._1().equals(pl._2());
           }
         }).count() / (double) test.count();
        //System.out.println(accuracy);
         // Save and load model
         model.save(jsc.sc(), "target/tmp/NaiveBayesModel");
    }

如何執行這個任務？
具體完整的代碼大家可以從spark的項目上找，或者看本文最後貼出的補充部分代碼，基本也就全了。
把代碼所在的工程打包（jar）,比如打包為XX.jar。
然後執行命令：
spark-submit –class “yourclass” –master yarn XX.jar
就可以了。打包，已經spark-submit命令就不要詳細講了吧？
模型訓練完成，可以打印模型的評測結果（準確率），並且將模型保存到hdfs上。註意上面的兩個路徑都是指hdfs上的路徑。

三、使用模型對文本進行分類

拿來展示分類的文本數據生成過程就不介紹了。和模型數據生成一樣。基本就是對你的文章分詞等，然後轉換成libsvm格式的文件，放到hdfs上。下面直接上分類的代碼：

public static void predict(JavaSparkContext jsc){
        NaiveBayesModel sameModel = NaiveBayesModel.load(jsc.sc(), "target/tmp/NaiveBayesModel");
        String path = "/data/pred_data.txt";
        JavaRDD<String> rdd = jsc.textFile(path);

        for(String features:rdd.collect()){
            //System.out.println(features);
            String[] feature_str_lst = features.split(",");
            double[] feature_lst = new double[feature_str_lst.length];
            for(int i = 0;i<feature_str_lst.length;i++){
                feature_lst[i] = Double.parseDouble(feature_str_lst[i]);
            }
            System.out.println(sameModel.predict(Vectors.dense(feature_lst)));

        }

    }

執行後的結果正常情況你會看到如下的輸出：（框起來的都是預測的類別）

技術分享

還不會，沒有執行完整個demo？
代碼main()方法的也貼給你們：

public static void main(String[] args){
        SparkConf sparkConf = new SparkConf().setAppName("JavaNaiveBayesExample");
         JavaSparkContext jsc = new JavaSparkContext(sparkConf);
         //training(jsc);
         predict(jsc);
    }

好了。講完了，是不是很簡單。實現很簡單，算法原理也很簡單。有興趣就自己去研究吧。

基於的樸素貝葉斯的文本分類（附完整代碼(spark/java）

ava -s for 轉換成模型保存 ext js rgs cti txt 本文主要包括以下內容： 1）模型訓練數據生成（demo） 2 ) 模型訓練（spark+java）,數據存儲在hdfs上 3）預測數據生成（demo） 4）使用生成的模型進行文本分類。一

基於的樸素貝葉斯的文本分類（附完整代碼(spark/java）

一、訓練數據生成

二、模型訓練

三、使用模型對文本進行分類

基於的樸素貝葉斯的文本分類（附完整代碼(spark/java）

樸素貝葉斯文本分類（詳解）

樸素貝葉斯文本分類簡單介紹

詳解使用EM算法的半監督學習方法應用於樸素貝葉斯文本分類

sklearn——樸素貝葉斯文字分類

sklearn——樸素貝葉斯文字分類5

利用Python實現樸素貝葉斯文字分類

樸素貝葉斯文字分類(python程式碼實現)

樸素貝葉斯文字分類java實現

sklearn——樸素貝葉斯文字分類6

樸素貝葉斯算法簡介及python代碼實現分析

基於樸素貝葉斯的關於網際網路金融新聞分類（python實現）

基於的樸素貝葉斯的文字分類（附完整程式碼(spark/java）

基於樸素貝葉斯分類器的文字分類演算法（上）

（資料探勘-入門-8）基於樸素貝葉斯的文字分類器

基於樸素貝葉斯分類器的 20-news-group分類及結果對比(Python3)

基於樸素貝葉斯算法的情感分類

kaggle | 基於樸素貝葉斯分類器的語音性別識別

MINIST | 基於樸素貝葉斯分類器的0-9數字手寫體識別

Python--基於樸素貝葉斯演算法的情感分類

基於的樸素貝葉斯的文本分類（附完整代碼(spark/java）

一、訓練數據生成

二、模型訓練

三、使用模型對文本進行分類

相關推薦