Julia機器學習實戰——使用Random Forest隨機森林進行字元影象識別

阿新 • • 發佈：2018-11-22

文章目錄

0 Preface
1 載入資料
2 訓練隨機森林（train RF）
3 完整程式碼

0 Preface

相關引數說明

 - Julia: 1.0
 - OS: MacOS

訓練測試資料百度雲連結：點選下載密碼: u71o
檔案說明：

 - rf_julia_charReg
	 - resizeData.py    #批量重設定圖片尺寸
	 - test    #測試圖片檔案
	 - testResized    #resized 測試圖片檔案
	 - train    #訓練圖片檔案
	 - trainResized    #resized 訓練圖片檔案
	 - sampleTest.csv    #測試資料csv檔案
	 - trainLabels.csv     #訓練資料label csv檔案

1 載入資料

安裝需要使用到的包：

using Images
using DataFrames
using Statistics #use mean(), sum()... function
using DataFrames
using CSV

	注：如果沒有安裝包，使用以下指令碼安裝

import Pkg
Pkg.add([PKG NAME]) #例如：Pkg.add("Images")

讀取圖片檔案資料，並返回矩陣

function read_data(type_data, labelsInfo, imageSize, path)
    x = zeros( 
size(labelsInfo, 1), imageSize)
    for (index, idImage) in enumerate(labelsInfo.ID)
        nameFile = "$(path)/$(type_data)Resized/$(idImage).Bmp"
	    img = load(nameFile)
        temp = float32(img)
        temp = Gray.(temp)
        x[index, :] = reshape(temp, 1, imageSize)
    end
    return x
end

解釋：

float32(): 將其中的值轉化為浮點數
Gray.(): 將RGB影象轉化為灰度影象
reshape(): 在這裡做的是平鋪工作

設定影象大小以及專案路徑：

imageSize = 400
path = "..."

讀取訓練資料Label

labelsInfoTrain = CSV.read("$(path)/trainLabels.csv")

讀取訓練資料Label
讀取訓練影象資料：

xTrain = read_data("train", labelsInfoTrain, imageSize, path)

讀取訓練影象資料
讀取測試資料Label:

labelsInfoTest = CSV.read("$(path)/sampleSubmission.csv")

讀取測試資料Label

讀取測試影象資料：

xTest = read_data("test", labelsInfoTest, imageSize, path)

讀取測試影象資料

2 訓練隨機森林（train RF）

訓練：

model = build_forest(yTrain, xTrain, 20, 50, 1.0)

解釋：

$3(20)：number of features chosen at each random split
$4(50): number of trees
$5(1.0): ratio of subsampling

獲得測試結果：

predTest = apply_forest(model, xTest)

轉化預測結果：

labelsInfoTest.Class = Char.(predTest)

寫入檔案：

CSV.write("$(path)/predTest.csv", labelsInfoTest, header=true)

四折交叉驗證：

accuracy = nfoldCV_forest(yTrain, xTrain, 20, 50, 4, 1.0);
println("4 fold accuracy: $(mean(accuracy))")

3 完整程式碼

using Images
using DataFrames
using Statistics 
using DataFrames
using CSV
using DecisionTree

function read_data(type_data, labelsInfo, imageSize, path)
    x = zeros(size(labelsInfo, 1), imageSize)
    for (index, idImage) in enumerate(labelsInfo.ID)
        nameFile = "$(path)/$(type_data)Resized/$(idImage).Bmp"
        img = load(nameFile)
        temp = float32(img)
        temp = Gray.(temp)
        x[index, :] = reshape(temp, 1, imageSize)
    end
    return x
end


imageSize = 400
path = "/Users/congying/cyWang/projects/julia/kaggleFirstStepsWithJulia/all"
labelsInfoTrain = CSV.read("$(path)/trainLabels.csv")
xTrain = read_data("train", labelsInfoTrain, imageSize, path)
labelsInfoTest = CSV.read("$(path)/sampleSubmission.csv")
xTest = read_data("test", labelsInfoTest, imageSize, path)
yTrain = map(x -> x[1], labelsInfoTrain.Class)
yTrain = Int.(yTrain)


model = build_forest(yTrain, xTrain, 20, 50, 1.0)
predTest = apply_forest(model, xTest)
labelsInfoTest.Class = Char.(predTest)
CSV.write("$(path)/juliaSubmission.csv", labelsInfoTest, header=true)
accuracy = nfoldCV_forest(yTrain, xTrain, 20, 50, 4, 1.0);
println("4 fold accuracy: $(mean(accuracy))")

Julia機器學習實戰——使用Random Forest隨機森林進行字元影象識別

文章目錄 0 Preface 1 載入資料 2 訓練隨機森林（train RF） 3 完整程式碼 0 Preface 相關引數說明 - Julia: 1.0 - OS: MacOS

1.3.1 Julia機器學習實戰——使用Random Forest隨機森林進行字元影象識別

0 Preface 相關引數說明 - Julia: 1.0 - OS: MacOS 訓練測試資料百度雲連結：點選下載密碼: u71o 檔案說明： - rf_julia_charReg - resizeData.py #批量

機器學習——決策樹和隨機森林演算法

認識決策樹決策樹思想的來源非常樸素，程式設計中的條件分支結構就是if-then結構，最早的決策樹就是利用這類結構分割資料的一種分類學習方法。下面以一個問題引出決策樹的思想這個問題用圖來表示就是這樣: 為什麼先把年齡放在第一個呢，下面就是一個概念:資訊熵資訊熵

我與機器學習 - [Today is RF] - [隨機森林]

條件熵： H(X,Y) - H(X) : (X,Y)發生所包含的熵，減去X單獨發生包含的熵，即在X發生的前提下，Y發生新帶來的熵。該式子定義為X發生前提下，Y的熵 H(Y|X) 推導：即：即：1 * H(Y|X) 所以

機器學習之Bagging 與隨機森林演算法

在整合學習裡面，有兩種流派，一個是 boosting 流派，它的特點是對於各個學習器之間有著相互依賴的關係（比如說在某一次演算法結束後，分類錯誤的樣本會增大比例，以引起下一次的訓練時候的關注度），另一種是bagging 流派，它的特點是各個學習器之間沒有任何的

機器學習演算法概述：隨機森林&邏輯迴歸

摘要：機器學習演算法入門介紹：隨機森林與邏輯迴歸！隨機森林是用於分類和迴歸的監督式整合學習模型。為了使整體效能更好，整合學習模型聚合了多個機器學習模型。因為每個模型單獨使用時效能表現的不是很好，但如果放在一個整體中則很強大。在隨機森林模型下，使用大量“弱”因子的決

random forest 隨機森林（高亮！用於分類） matlab實現

最近要用到隨機森林，於是乎對它的原理了解了一番，並做了一下演算法的實現。本次實現是用於分類問題的，如果是迴歸問題，分裂規則不一樣，我還沒有實現..... 下面的原理摘自別人的筆記，如果瞭解決策樹CART的構建規則ID3或者C4.5的話，這部分原理的內容應該還

深度學習實戰（3）-打造自己的影象識別模型

這個筆記弄的我難受，推薦觀看者還是看原書吧............ 用VGG16作為例子簡單介紹：如何使用，去掉尾部，保留引數初始值如何訓練資料準備檔案轉換 data_convert.py原始碼： # coding:utf-8 fr

機器學習實戰sklearn_隨機森林

一、簡介這是一個使用天氣資料集，建立隨機森林模型，對資料集進行訓練，從而對天氣最高溫度進行預測，步驟： 1、載入資料 2、資料預處理 3、劃分資料集為訓練資料集，測試資料集 4、建立模型 5、預測，調優二、具體步驟， 1、載入資料： import pan

機器學習實戰-隨機森林二分類問題

lena elf 線性評估形式 www. 分類器 and 數據隨機森林概論前提 Random Forest:可以理解為Bagging with CARTS. Bagging是bootstrap aggregating（引導聚集算法）的縮寫。 CART(c

機器學習回顧篇（12）：整合學習之Bagging與隨機森林

1 引言¶ 整合學習演算法是當下炙手可熱的一類演算法，在諸多機器學習大賽中都頻繁出現它的身影。準確來說，整合學習演算法並不是一個單獨的機器學習演算法，而是通過構建多個學習器，博採眾家之長，共同求解問題的一種思想。古語有云：&ldquo

機器學習實戰之PCA

數據預處理每一個 numpy 矩陣分享 topn 文本 bsp 偽代碼一，引言　　降維是對數據高維度特征的一種預處理方法。降維是將高維度的數據保留下最重要的一些特征，去除噪聲和不重要的特征，從而實現提升數據處理速度的目的。在實際的生產和應用中，降維在一定的信息損失範

[機器學習實戰] Logistic回歸

.... log 運算 blog 死亡率在線實戰批處理參數更新 1. Logistic回歸：　　1）優點：計算代價不高，易於理解和實現；　　2）缺點：容易欠擬合，分類精度可能不高；　　3）適用數據類型：數值型和標稱型數據； 2. 分類思想：　　根據現有數

python機器學習實戰（三）

決策樹代碼《機器學習實戰》

必須 nbsp getter 什麽 key 畫圖不支持 spl name 22:45:17 2017-08-09 KNN算法簡單有效，可以解決很多分類問題。但是無法給出數據的含義，就是一頓計算向量距離，然後分類。決策樹就可以解決這個問題，分類之後能夠知道是問什麽被劃分到

python機器學習實戰（四）

機器學習實戰精讀--------K-近鄰算法

機器學習 knn算法 k-近鄰算法對機器學習實戰的課本和代碼進行精讀，幫助自己進步。#coding:utf-8 from numpy import * import operator #運算符模塊 from os import listdir #os.listdir() 方法用於返回指定的文件夾包含的

機器學習實戰精讀--------決策樹

決策樹機器學習 python感覺自己像個學走路的孩子，每一步都很吃力和認真！機器根據數據集創建規則，就是機器學習。決策樹：從數據集合中提取一系列規則，適用於探索式的知識發現。決策樹本質：通過一系列規則對數據進行分類的過程。決策樹算法核心：構建精度高，數據規模小的決策樹。ID3算法：此算法目的在於減少樹的深

機器學習實戰之第二章 k-近鄰算法

lifo -h 訓練數據 adl sdi 加載 erro orm 數據集第2章 k-近鄰算法 KNN 概述 k-近鄰（kNN, k-NearestNeighbor）算法主要是用來進行分類的. KNN 場景電影可以按照題材分類，那麽如何區分動作片和愛情片呢？

機器學習實戰精讀--------FP-growth算法

fp-growth算法頻繁項集從數據集獲取有趣信息的方法：常用的兩種分別是頻繁項集和關聯規則。FP-growth：雖然可以高效的發現頻繁項集，但是不能用於發現關聯規則。FP-growth算法只需要對數據庫進行兩次掃描，速度要比Apriori算法塊。FP-growth發現頻繁項集的基本過程：① 構建FP樹

Julia機器學習實戰——使用Random Forest隨機森林進行字元影象識別

文章目錄

0 Preface

1 載入資料

2 訓練隨機森林（train RF）

3 完整程式碼

相關推薦