Spark快速獲得CrossValidator的最佳模型參數

阿新 • • 發佈：2018-10-22

tokenizer ctp best map 一個 pip eval set alua

Spark提供了便利的Pipeline模型，可以輕松的創建自己的學習模型。

但是大部分模型都是需要提供參數的，如果不提供就是默認參數，那麽怎麽選擇參數就是一個比較常見的問題。Spark提供在org.apache.spark.ml.tuning包下提供了模型選擇器，可以替換參數然後比較模型輸出。

目前有CrossValidator和TrainValidationSplit兩種，比如一個文本情感預測模型。

Pipeline只有三步，第一步切詞，第二步HashingTF，第三步NB分類

Pipeline pipeline = new Pipeline()
                .setStages( 
new PipelineStage[]{tokenizer, hashingTF, naiveBayes});

ParamMap[] paramMaps = new ParamGridBuilder()
                .addGrid(hashingTF.numFeatures(), new int[]{10000, 100000, 500000, 1000000})
                .build();
CrossValidator cv = new CrossValidator()
                .setEstimator(pipeline)
                .setEvaluator( 
new BinaryClassificationEvaluator())
                .setEstimatorParamMaps(paramMaps);

其中HashingTF的參數選擇非常重要，我們這裏就隨便嘗試幾種，然後放在CrossValidator中去。

最後我們會獲得一個CrossValidatorModel類，這裏有兩種選擇。

第一種是自己手動獲取其中的參數，因為bestModel的參數就是我們最後選擇的參數

Pipeline bestPipeline = (Pipeline) model.bestModel().parent();
PipelineStage stage  
= bestPipeline.getStages()[1];
stage.extractParamMap().get(stage.getParam("numFeatures"));

這種方法可以獲得值，但是需要根據你模型情況修改獲取的位置。

如果你只是想知道最佳參數是多少，並不是需要在上下文中使用，那還有一個更簡單的方法。

修改log4j的配置，添加

log4j.logger.org.apache.spark.ml.tuning.TrainValidationSplit=INFO
log4j.logger.org.apache.spark.ml.tuning.CrossValidator=INFO

效果如下：

技術分享圖片

Spark快速獲得CrossValidator的最佳模型參數

tokenizer ctp best map 一個 pip eval set alua Spark提供了便利的Pipeline模型，可以輕松的創建自己的學習模型。但是大部分模型都是需要提供參數的，如果不提供就是默認參數，那麽怎麽選擇參數就是一個比較常見的問題。Spark提

Spark快速獲得CrossValidator的最佳模型參數

Spark快速獲得CrossValidator的最佳模型參數

估計高斯混合模型參數的三種方式

保存及讀取keras模型參數

Word2Vec模型參數詳解

spark streaming 程序設置jvm參數

最小角回歸 LARS算法包的用法以及模型參數的選擇

機器學習基礎——模型參數評估與選擇

mxnet-保存模型參數

mxnet-讀取模型參數

模型參數選擇方法——GridSearch網格搜索

【Spark調優】內存模型與參數調優

R語言用nls做非線性回歸以及函數模型的參數估計

jvm內存模型及分配參數

【機器學習】隨機森林 Random Forest 得到模型後，評估參數重要性

獲得url地址？後的參數

Spark 性能相關參數配置具體解釋－任務調度篇

request.getParameterNames獲得請求參數的名字(Get或者Post請求的參數都可以)

機器學習：模型性能評估與參數調優

【轉載】Spark學習——spark中的幾個概念的理解及參數配置

mysql5.6快速安裝及參數詳解

Spark快速獲得CrossValidator的最佳模型參數

相關推薦