Spark平臺下的組合分類器AdaBoost

阿新 • • 發佈：2019-02-15

首先在github上發現了寫好的Adaboost包，可以用來測試下能否使用。

https://github.com/tizfa/sparkboost

對於Java程式需求的是JavaRDD<MultilabelPoint> 資料格式，而讀取的是RDD<labeledPoint>，轉化為JavaRDD<labeledPoint>。

所以要對於兩種資料格式進行轉換。把label，feature對應起來。

public class ClassifierTask {
public static void main(String[] args) {
SparkConf conf = new SparkConf().setAppName("ClassifierTask").setMaster("local");

JavaSparkContext sc = new JavaSparkContext(conf);

// 得到常用的Sparkconf和sc， JavaSparkContext to SparkContext
SparkContext sc1 = sc.sc();

String inputFile = "D:\\softs\\spark-1.6.0-bin-hadoop2.6\\data\\mllib\\sample_binary_classification_data.txt";
JavaRDD<String> StringFile = sc.textFile("D:\\softs\\spark-1.6.0-bin-hadoop2.6\\data\\mllib\\sample_libsvm_data.txt");

JavaRDD<LabeledPoint> FileLabeledPoint = MLUtils.loadLibSVMFile(sc1, inputFile).toJavaRDD();

// from RDD to train model，轉換成multilabelpoint
JavaRDD<MultilabelPoint> rdd = FileLabeledPoint.map(Row -> {
int a = (int)Row.label();
SparseVector b = (SparseVector)Row.features();
int docID =0;
int[] labels = {a};
SparseVector feature = b;
return new MultilabelPoint(docID, feature, labels);
});
//train set is 0.8, test set is 0.2，設定權重
double[] weights = {0.8,0.2};

JavaRDD<MultilabelPoint>[] data = rdd.randomSplit(weights);
AdaBoostMHLearner learner = new AdaBoostMHLearner(sc);

//設定分類器的各項引數
learner.setNumIterations(100);
learner.setNumDocumentsPartitions(2);
learner.setNumFeaturesPartitions(2);
learner.setNumLabelsPartitions(2);
BoostClassifier classifier = learner.buildModel(data[0]);

ClassificationResults results = classifier.classifyWithResults(sc, data[1], 1);

// Print results in a StringBuilder.
StringBuilder sb = new StringBuilder();
sb.append("**** Effectiveness\n");
sb.append(results.getCt().toString() + "\n");
sb.append("********\n");
for (int i = 0; i < results.getNumDocs(); i++) {
int docID = results.getDocuments()[i];
int[] labels = results.getLabels()[i];
int[] goldLabels = results.getGoldLabels()[i];
sb.append("DocID: " + docID + ", Labels assigned: " + Arrays.toString(labels) + ", Labels scores: " + Arrays.toString(results.getScores()[i]) + ", Gold labels: " + Arrays.toString(goldLabels) + "\n");
}
System.out.print(sb);
}
}

Spark平臺下的組合分類器AdaBoost

Spark平臺下的組合分類器AdaBoost

Dream team: Stacking for combining classifiers夢之隊：組合分類器

Python sklearn包——mnist資料集下不同分類器的效能實驗

Predix平臺上通過分類器實現時間序列的實時異常檢測

Spark ML下實現的多分類adaboost+naivebayes演算法在文字分類上的應用

Windows平臺下結合 tortoiseSVN 和 VisualSVN Server 搭建SVN服務器並實現 web 站點同步

Spark Mlib(六)用spark實現貝葉斯分類器

android平臺下基於ffmpeg和ANativeWindow實現簡單的視訊播放器

OpenCV學習記錄（二）：自己訓練haar特徵的adaboost分類器進行人臉識別

斯坦福cs231n計算機視覺——線性分類器(中下)，損失函式和最優化

windows平臺下的高精度定時器

分類器之adaboost

足球系統平臺出租.CSS：CSS選擇器之【組合選擇器】

機器學習 - 樸素貝葉斯（下）- 樸素貝葉斯分類器

使用adaboost+haar分類器檢測車輛demo

社交平臺輿情分析專案的總結和感想（SELENIUM,NLTK,貝葉斯分類器）(一)

評估分類器效能及提升分類器準確率的組合方法

linux下，使用opencv訓練級聯分類器opencv_traincascade

【VP9】libvpx在Windows和Linux平臺下的編譯和vp9編解碼器的命令列引數

Spark2.x學習筆記：6、在Windows平臺下搭建Spark開發環境（Intellij IDEA）

Spark平臺下的組合分類器AdaBoost

相關推薦