pyspark 隨機森林的實現

阿新 • • 發佈：2020-04-25

隨機森林是由許多決策樹構成，是一種有監督機器學習方法，可以用於分類和迴歸，通過合併彙總來自個體決策樹的結果來進行預測，採用多數選票作為分類結果，採用預測結果平均值作為迴歸結果。

“森林”的概念很好理解，“隨機”是針對森林中的每一顆決策樹，有兩種含義：第一種隨機是資料取樣隨機，構建決策樹的訓練資料集通過有放回的隨機取樣，並且只會選擇一定百分比的樣本，這樣可以在資料集合存在噪聲點、異常點的情況下，有些決策樹的構造過程中不會選擇到這些噪聲點、異常點從而達到一定的泛化作用在一定程度上抑制過擬合；第二種隨機是特徵隨機，訓練集會包含一系列特徵，隨機選擇一部分特徵進行決策樹的構建。通過這些差異點來訓練的每一顆決策樹都會學習輸入與輸出的關係，隨機森林的強大之處也就在於此。

廢話不多說，直接上程式碼：

from pyspark import SparkConf
from pyspark.sql import SparkSession
from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import StringIndexer
from pyspark.ml.classification import RandomForestClassifier
from pyspark.sql import Row
import pandas as pd
from sklearn import metrics
 
if __name__ == "__main__":
  appname = "RandomForestClassifier"
  master ="local[4]" 
  conf = SparkConf().setAppName(appname).setMaster(master) #spark配置        
  spark=SparkSession.builder.config(conf=conf).getOrCreate()#spark例項化
  
#讀取資料
  data=spark.read.csv('良惡性乳腺癌資料.csv',header=True)
  
#構造訓練資料集
  dataSet = data.na.fill('0').rdd.map(list)#用0填充空值  
  trainData,testData= dataSet.randomSplit([0.7,0.3],seed=7)
  trainingSet = trainData.map(lambda x:Row(label=x[-1],features=Vectors.dense(x[:-1]))).toDF()  
  train_num = trainingSet.count()
  print("訓練樣本數:{}".format(train_num))
 
   
#使用隨機森林進行訓練
  stringIndexer = StringIndexer(inputCol="label",outputCol="indexed")
  si_model = stringIndexer.fit(trainingSet)
  train_tf = si_model.transform(trainingSet)
  train_tf.show(5)  
  rf = RandomForestClassifier(numTrees=100,labelCol="indexed",seed=7)
  rfModel = rf.fit(train_tf)
   
#輸出模型特徵重要性、子樹權重
  print("模型特徵重要性:{}".format(rfModel.featureImportances))
  print("模型特徵數:{}".format(rfModel.numFeatures))
  
#預測測試集
  testSet = testData.map(lambda x:Row(label=x[-1],features=Vectors.dense(x[:-1]))).toDF()
  test_num=testSet.count()
  print("測試樣本數:{}".format(test_num))  
  si_model = stringIndexer.fit(testSet)
  test_tf = si_model.transform(testSet)  
  predictResult = rfModel.transform(test_tf)
  predictResult.show(5)
  spark.stop()
 
#將預測結果轉為python中的dataframe
  columns=predictResult.columns#提取強表字段
  predictResult=predictResult.take(test_num)#
  predictResult=pd.DataFrame(predictResult,columns=columns)#轉為python中的dataframe
 
#效能評估
  y=list(predictResult['indexed'])
  y_pred=list(predictResult['prediction'])
  y_predprob=[x[1] for x in list(predictResult['probability'])]
  precision_score=metrics.precision_score(y,y_pred)#精確率
  recall_score=metrics.recall_score(y,y_pred)#召回率
  accuracy_score=metrics.accuracy_score(y,y_pred)#準確率
  f1_score=metrics.f1_score(y,y_pred)#F1分數
  auc_score=metrics.roc_auc_score(y,y_predprob)#auc分數
  print("精確率:",precision_score )#精確率
  print("召回率:",recall_score )#召回率
  print("準確率:",accuracy_score )#準確率
  print("F1分數:",f1_score)#F1分數
  print("auc分數:",auc_score )#auc分數

執行結果：

pyspark 隨機森林的實現

到此這篇關於pyspark 隨機森林的實現的文章就介紹到這了,更多相關pyspark 隨機森林內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

pyspark 隨機森林的實現

pyspark 隨機森林的實現

python實現H2O中的隨機森林演算法介紹及其專案實戰

隨機森林R語言程式碼實現迴歸分析

Sklearn實現隨機森林

隨機森林：原理及python實現

基於python的隨機森林演算法的實現

如何在Python中從零開始實現隨機森林

機器學習演算法之隨機森林的R語言實現-表達晶片示例

Python中生成一個指定長度的隨機字串實現示例

演演算法崗面試題：模型的bias和variance是什麼？用隨機森林舉例

11-機器學習-隨機森林(bagging裝袋法的代表)

隨機森林

【Python基礎程式設計023 ● 判斷語句和迴圈語句 ● 使用if語句和隨機函式實現猜拳遊戲】

kaggle 入門比賽：使用隨機森林解Bag of Words Meets Bags of Popcorn解題報告

利用隨機森林進行特徵重要性評估

如何統計隨機森林節點數

機器學習之決策樹和隨機森林

資料分析模型之決策樹及隨機森林

決策樹與隨機森林

R語言用邏輯迴歸、決策樹和隨機森林對信貸資料集進行分類預測

pyspark 隨機森林的實現

相關推薦