1.3.1 Julia機器學習實戰——使用Random Forest隨機森林進行字元影象識別

阿新 • • 發佈：2018-12-09

0 Preface

相關引數說明

 - Julia: 1.0
 - OS: MacOS

訓練測試資料百度雲連結：點選下載密碼: u71o 檔案說明：

 - rf_julia_charReg
     - resizeData.py    #批量重設定圖片尺寸
     - test    #測試圖片檔案
     - testResized    #resized 測試圖片檔案
     - train    #訓練圖片檔案
     - trainResized    #resized 訓練圖片檔案
     - sampleTest.csv    #測試資料csv檔案
     - trainLabels.csv     #訓練資料label csv檔案

1 載入資料

安裝需要使用到的包：

using Images
using DataFrames
using Statistics #use mean(), sum()... function
using DataFrames
using CSV

    注：如果沒有安裝包，使用以下指令碼安裝

import Pkg
Pkg.add([PKG NAME]) #例如：Pkg.add("Images")

讀取圖片檔案資料，並返回矩陣

function read_data(type_data, labelsInfo, imageSize, path)
    x = zeros(size(labelsInfo, 1) 
, imageSize)
    for (index, idImage) in enumerate(labelsInfo.ID)
        nameFile = "$(path)/$(type_data)Resized/$(idImage).Bmp"
        img = load(nameFile)
        temp = float32(img)
        temp = Gray.(temp)
        x[index, :] = reshape(temp, 1, imageSize)
    end
    return x
end

解釋：

float32(): 將其中的值轉化為浮點數
Gray.(): 將RGB影象轉化為灰度影象
reshape(): 在這裡做的是平鋪工作

設定影象大小以及專案路徑：

imageSize = 400
path = "..."

讀取訓練資料Label

labelsInfoTrain = CSV.read("$(path)/trainLabels.csv")

讀取訓練資料Label 讀取訓練影象資料：

xTrain = read_data("train", labelsInfoTrain, imageSize, path)

讀取訓練影象資料讀取測試資料Label:

labelsInfoTest = CSV.read("$(path)/sampleSubmission.csv")

讀取測試資料Label

讀取測試影象資料：

xTest = read_data("test", labelsInfoTest, imageSize, path)

讀取測試影象資料

2 訓練隨機森林（train RF）

訓練：

model = build_forest(yTrain, xTrain, 20, 50, 1.0)

解釋：

$3(20)：number of features chosen at each random split
$4(50): number of trees
$5(1.0): ratio of subsampling

獲得測試結果：

predTest = apply_forest(model, xTest)

轉化預測結果：

labelsInfoTest.Class = Char.(predTest)

寫入檔案：

CSV.write("$(path)/predTest.csv", labelsInfoTest, header=true)

四折交叉驗證：

accuracy = nfoldCV_forest(yTrain, xTrain, 20, 50, 4, 1.0);
println("4 fold accuracy: $(mean(accuracy))")

3 完整程式碼

using Images
using DataFrames
using Statistics 
using DataFrames
using CSV
using DecisionTree

function read_data(type_data, labelsInfo, imageSize, path)
    x = zeros(size(labelsInfo, 1), imageSize)
    for (index, idImage) in enumerate(labelsInfo.ID)
        nameFile = "$(path)/$(type_data)Resized/$(idImage).Bmp"
        img = load(nameFile)
        temp = float32(img)
        temp = Gray.(temp)
        x[index, :] = reshape(temp, 1, imageSize)
    end
    return x
end


imageSize = 400
path = "/Users/congying/cyWang/projects/julia/kaggleFirstStepsWithJulia/all"
labelsInfoTrain = CSV.read("$(path)/trainLabels.csv")
xTrain = read_data("train", labelsInfoTrain, imageSize, path)
labelsInfoTest = CSV.read("$(path)/sampleSubmission.csv")
xTest = read_data("test", labelsInfoTest, imageSize, path)
yTrain = map(x -> x[1], labelsInfoTrain.Class)
yTrain = Int.(yTrain)


model = build_forest(yTrain, xTrain, 20, 50, 1.0)
predTest = apply_forest(model, xTest)
labelsInfoTest.Class = Char.(predTest)
CSV.write("$(path)/juliaSubmission.csv", labelsInfoTest, header=true)
accuracy = nfoldCV_forest(yTrain, xTrain, 20, 50, 4, 1.0);
println("4 fold accuracy: $(mean(accuracy))")

1.3.1 Julia機器學習實戰——使用Random Forest隨機森林進行字元影象識別

0 Preface 相關引數說明 - Julia: 1.0 - OS: MacOS 訓練測試資料百度雲連結：點選下載密碼: u71o 檔案說明： - rf_julia_charReg - resizeData.py #批量

Julia機器學習實戰——使用Random Forest隨機森林進行字元影象識別

文章目錄 0 Preface 1 載入資料 2 訓練隨機森林（train RF） 3 完整程式碼 0 Preface 相關引數說明 - Julia: 1.0 - OS: MacOS

機器學習——決策樹和隨機森林演算法

認識決策樹決策樹思想的來源非常樸素，程式設計中的條件分支結構就是if-then結構，最早的決策樹就是利用這類結構分割資料的一種分類學習方法。下面以一個問題引出決策樹的思想這個問題用圖來表示就是這樣: 為什麼先把年齡放在第一個呢，下面就是一個概念:資訊熵資訊熵

我與機器學習 - [Today is RF] - [隨機森林]

條件熵： H(X,Y) - H(X) : (X,Y)發生所包含的熵，減去X單獨發生包含的熵，即在X發生的前提下，Y發生新帶來的熵。該式子定義為X發生前提下，Y的熵 H(Y|X) 推導：即：即：1 * H(Y|X) 所以

機器學習之Bagging 與隨機森林演算法

在整合學習裡面，有兩種流派，一個是 boosting 流派，它的特點是對於各個學習器之間有著相互依賴的關係（比如說在某一次演算法結束後，分類錯誤的樣本會增大比例，以引起下一次的訓練時候的關注度），另一種是bagging 流派，它的特點是各個學習器之間沒有任何的

機器學習演算法概述：隨機森林&邏輯迴歸

摘要：機器學習演算法入門介紹：隨機森林與邏輯迴歸！隨機森林是用於分類和迴歸的監督式整合學習模型。為了使整體效能更好，整合學習模型聚合了多個機器學習模型。因為每個模型單獨使用時效能表現的不是很好，但如果放在一個整體中則很強大。在隨機森林模型下，使用大量“弱”因子的決

random forest 隨機森林（高亮！用於分類） matlab實現

最近要用到隨機森林，於是乎對它的原理了解了一番，並做了一下演算法的實現。本次實現是用於分類問題的，如果是迴歸問題，分裂規則不一樣，我還沒有實現..... 下面的原理摘自別人的筆記，如果瞭解決策樹CART的構建規則ID3或者C4.5的話，這部分原理的內容應該還

《機器學習實戰》第2章閱讀筆記3 使用K近鄰演算法改進約會網站的配對效果—分步驟詳細講解1——資料準備：從文字檔案中解析資料（附詳細程式碼及註釋）

本篇使用的資料存放在文字檔案datingTestSet2.txt中，每個樣本資料佔據一行，總共有1000行。樣本主要包含以下3中特徵：（1）每年獲得飛行常客里程數（2）玩視訊遊戲所耗時間百分比（3）每週消費的冰淇淋公升數在使用分類器之前，需要將處理的檔案格式

《機器學習實戰》中的程序清單2-1 k近鄰算法classify0都做了什麽

列表關鍵字難解 items 位置 class 做了 ict top k def start(): group,labels = createDataSet() return classify0([3,3], group, l

機器學習實戰讀書筆記(1)--k鄰近演算法

kNN演算法 kNN演算法概述 kNN演算法和kmeans演算法的比較 knn工作原理: 存在一個樣本資料集合(訓練樣本集),並且每個樣本都具有標籤,輸入新的樣本後,我們將樣本的特徵與訓練樣本集中的資料特徵比較,演算法提取特徵最相似的k個樣本的標籤,採用少數服從多數的

《機器學習實戰》學習總結1——K-近鄰演算法

新手入門學習機器學習，根據ApacheCN的視訊學習程式碼，視訊可以在bilibili線上播放。有需要資料的可以在GitHub下載：https://github.com/RedstoneWill/MachineLearning 本文最主要的是分析程式碼的功能與實現，相應的原理大家拿看就好了

《機器學習實戰1》

2017.2.27 第一章《機器學習基礎》思維導圖 1、關鍵術語的解釋特徵：測量所有可測屬性，而後再挑選出重要部分，也可以稱作屬性分類：機器學習的主要任務就是分類，即根據目標變數對特徵進行分類訓練集：通常我們為演算法輸人大量已分類資料作為演算法的訓練集。訓練集是用

《機器學習實戰》第2章閱讀筆記1 K近鄰演算法概述

K近鄰演算法採用測量不同特徵值之間的距離方法進行分類。 K-近鄰演算法工作原理：存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中的每個資料都存在標籤，即我們知道樣本集中每一資料與所屬分類的對應關係。輸入每一標籤的新資料後，將新資料的每個特徵與樣本集中資料對應的特徵進行比較，然後提取

機器學習實戰---讀書筆記：第10章利用K均值聚類演算法對未標註資料分組---1

#!/usr/bin/env python # encoding: utf-8 import os from matplotlib import pyplot as plt from numpy import * ''' 讀書筆記之--<<機器學習實戰>>--第10章_

簡易說人工智慧(三) 細數《美團機器學習實戰》裡的錯誤 1：開篇詞

美團的作品《美團機器學習實戰》，是工程領域非常好的一本書。也是難得的國內的人工智慧領域比較實用的作品，豆瓣評分大於7.5，這個評分在計算機領域算是不錯的書了。但是為什麼選材如此好的作品未到8分呢，最近剛開始讀，說說從第一節公式介紹看到的問題。 1、學習人工智慧大家都知道最令人懼

《機器學習實戰》學習總結1——K-近鄰演算法（程式清單2-1）

程式碼如下： def classify0(inX, dataSet, labels, k): # inX是用於分類的輸入向量，dataSet是輸入的訓練樣本集，lebels是標籤向量，k是用於選擇最近鄰居的數目 dataSetSiz

機器學習實戰—第5章：Logistic迴歸中程式清單5-1中的數學推導

如圖中梯度上升法給出的函式程式碼。假設函式為： 1、梯度上升演算法（引數極大似然估計值）：通過檢視《統計學習方法》中的模型引數估計，分類結果為類別0和類別1的概率分別為：則似然函式為：對數似然函式為：最大似然估計求使得對數似然函式取最大值時的引數

機器學習實戰——1.2決策樹（2）

宣告：參考書目《機器學習實戰》作者: Peter Harrington 出版社: 人民郵電出版社譯者: 李銳 / 李鵬 / 曲亞東 / 王斌宣告：參考書目《統計學習方法》作者: 李航出版社: 清華大學出版社 ISBN: 9787302275954

機器學習實戰——1.2決策樹（1）

機器學習實戰——1.1K近鄰演算法

宣告：參考書目《機器學習實戰》作者: Peter Harrington 出版社: 人民郵電出版社譯者: 李銳 / 李鵬 / 曲亞東 / 王斌參考部落格 Jack-Cui 作者個人網站：http://cuijiahua.com/ 公式： K近鄰演算法的

1.3.1 Julia機器學習實戰——使用Random Forest隨機森林進行字元影象識別

0 Preface

1 載入資料

2 訓練隨機森林（train RF）

3 完整程式碼

相關推薦