【opencv3--ANN神經網路訓練識別OCR資料集】

阿新 • • 發佈：2018-11-05


#include <string>
#include <iostream>
#include <opencv2\opencv.hpp>
#include <opencv2\ml.hpp>
#include<fstream>
using namespace std;
using namespace cv;
using namespace ml;
int main()
{
	////==========================讀取圖片建立訓練資料==============================////
	//將所有圖片大小統一轉化為8*16
	const int imageRows = 8;
	const int imageCols = 16;
	//圖片共有10類
	const int classSum = 10;
	//每類共20張圖片
	const int imagesSum = 20;
	//每一行一個訓練圖片
	//float trainingData[classSum*imagesSum][imageRows*imageCols] = { { 0 } };
	Mat trainData0; // = Mat(classSum*imagesSum, imageRows*imageCols, CV_8UC1, Scalar::all(0));
					//訓練樣本標籤
					//float labels[classSum*imagesSum] = { 0 };

	string img_path = "C:\\Users\\wangzhenlin\\Desktop\\ann\\Image\\";
	ifstream fin(img_path + "img.txt");
	string str;
	while (getline(fin, str)) {
		if (str.length()) {
			string imgname = img_path + str;
			//cout << imgname << endl;
			//getchar();

			Mat src = imread(imgname, 0);
			//imshow("aa", src);
			//waitKey(0);

			if (src.empty())
			{
				std::cout << "can not load image \n" << std::endl;
				return -9;
			}
			Mat  resizeImg, trainImg;
			int k = 0;
			//將所有圖片大小統一轉化為8*16
			resize(src, resizeImg, Size(imageRows, imageCols), (0, 0), (0, 0), INTER_AREA);
			//threshold(resizeImg, trainImg, 0, 255, CV_THRESH_BINARY | CV_THRESH_OTSU);
			threshold(resizeImg, trainImg, 0, 1, cv::THRESH_BINARY | cv::THRESH_OTSU);

			Mat rowMat = trainImg.reshape(0, 1);
			trainData0.push_back(rowMat);

			//int m = 0;

			//for (int j = 0; j < trainImg.rows; j++) {
			//	uchar *p = trainImg.ptr<uchar>(j);
			//	for (int k = 0; k < trainImg.cols; k++) {
			//		int index = k * j + k;

			//		trainingData[m][index] = p[k];


			//	}
			//}
			//m++;

		}

	}


	// 設定標籤資料
	Mat label0 = Mat(classSum*imagesSum, classSum, CV_8UC1, Scalar::all(0));
	//int a = 0;
	int b = 0;
	for (int i = 0; i < 200; i++)
	{
		b = i / 20;
		//labels[i] = (float)b;
		label0.at<uchar>(i, b) = 1.0;
		//a++;
	}

	//訓練樣本資料及對應標籤
	//Mat trainingDataMat(classSum*imagesSum, imageRows*imageCols, CV_32FC1, trainingData);
	//Mat labelsMat(classSum*imagesSum, classSum, CV_32FC1, labels);
	//std::cout<<"trainingDataMat: \n"<<trainingDataMat<<"\n"<<std::endl;
	//std::cout<<"labelsMat: \n"<<labelsMat<<"\n"<<std::endl;
	////==========================訓練部分==============================////

	Ptr<ANN_MLP>model = ANN_MLP::create();
	//Mat layerSizes = (Mat_<int>(1, 5) << imageRows * imageCols, 128, 128, 128, classSum);
	Mat layerSizes = (Mat_<int>(1, 3) << imageRows * imageCols, 500, classSum);
	model->setLayerSizes(layerSizes);
	model->setTrainMethod(ANN_MLP::BACKPROP, 0.001, 0.1);
	model->setActivationFunction(ANN_MLP::SIGMOID_SYM, 1.0, 1.0);
	model->setTermCriteria(TermCriteria(TermCriteria::MAX_ITER | TermCriteria::EPS, 10000, 0.0001));

	Mat trainDataFloat, lebalFloat;
	trainData0.convertTo(trainDataFloat, CV_32FC1);
	label0.convertTo(lebalFloat, CV_32FC1);
	Ptr<TrainData> trainData = TrainData::create(trainDataFloat, ROW_SAMPLE, lebalFloat);
	model->train(trainData);
	//儲存訓練結果
	model->save("MLPModel.xml");

	////==========================預測部分==============================////
	//讀取測試影象
	Mat test, dst;
	test = imread(img_path + "1475068321.png", 0);;
	//test = imread(img_path + "1475069602.png", 0);;
	if (test.empty())
	{
		std::cout << "can not load image \n" << std::endl;
		return -2;
	}
	
	resize(test, test, Size(imageRows, imageCols), (0, 0), (0, 0), INTER_AREA);
	threshold(test, test, 0, 1, cv::THRESH_BINARY | cv::THRESH_OTSU);
	Mat_<float> testMat(1, imageRows*imageCols);
	testMat = test.reshape(0, 1);
	//for (int i = 0; i < imageRows*imageCols; i++)
	//{
	//	testMat.at<float>(0, i) = (float)test.at<uchar>(i / 8, i % 8);
	//}
	model->save("123.xml");
	//使用訓練好的MLP model預測測試影象
	model->predict(testMat, dst);

	std::cout << "testMat: \n" << testMat << "\n" << std::endl;
	std::cout << "dst: \n" << dst << "\n" << std::endl;
	double maxVal = 0;
	Point maxLoc;
	minMaxLoc(dst, NULL, &maxVal, NULL, &maxLoc);
	std::cout << "測試結果：" << maxLoc.x << "置信度:" << maxVal * 100 << "%" << std::endl;
	imshow("test", test);
	waitKey(0);
	return 0;
}

結果輸出：

還有一種是基於KNN與隨機森林的：


#include "opencv2\opencv.hpp"
#include <iostream>
using namespace std;
using namespace cv;
using namespace cv::ml;

int main()
{
	Mat img = imread("123.png");
	Mat gray;
	cvtColor(img, gray, CV_BGR2GRAY);
	int b = 20;
	int m = gray.rows / b;   //原圖為1000*2000
	int n = gray.cols / b;   //裁剪為5000個20*20的小圖塊
	Mat data, labels;   //特徵矩陣
	for (int i = 0; i < n; i++)
	{
		int offsetCol = i*b; //列上的偏移量
		for (int j = 0; j < m; j++)
		{
			int offsetRow = j*b;  //行上的偏移量
								  //擷取20*20的小塊
			Mat tmp;
			gray(Range(offsetRow, offsetRow + b), Range(offsetCol, offsetCol + b)).copyTo(tmp);
			data.push_back(tmp.reshape(0, 1));  //序列化後放入特徵矩陣
			labels.push_back((int)j / 5);  //對應的標註
		}

	}
	data.convertTo(data, CV_32F); //uchar型轉換為cv_32f
	int samplesNum = data.rows;
	int trainNum = 3000;
	Mat trainData, trainLabels;
	trainData = data(Range(0, trainNum), Range::all());   //前3000個樣本為訓練資料
	trainLabels = labels(Range(0, trainNum), Range::all());



	//訓練樣本資料及對應標籤
	//Mat trainingDataMat(classSum*imagesSum, imageRows*imageCols, CV_32FC1, trainingData);
	//Mat labelsMat(classSum*imagesSum, classSum, CV_32SC1, labels);
	//std::cout<<"trainingDataMat: \n"<<trainingDataMat<<"\n"<<std::endl;
	//std::cout<<"labelsMat: \n"<<labelsMat<<"\n"<<std::endl;
	////==========================訓練部分==============================////
	Ptr<SVM> svm = SVM::create();//SVM分類器
	svm->setType(SVM::C_SVC);
	svm->setC(0.01);
	svm->setKernel(SVM::LINEAR);
	svm->setTermCriteria(TermCriteria(TermCriteria::MAX_ITER, 3000, 1e-6));
	std::cout << "Starting training..." << endl;
	svm->train(trainData, ROW_SAMPLE, trainLabels);//訓練分類器 
	std::cout << "Finishing training..." << endl;






	//使用KNN演算法
	int K = 5;
	Ptr<TrainData> tData = TrainData::create(trainData, ROW_SAMPLE, trainLabels);
	Ptr<KNearest> model = KNearest::create();
	model->setDefaultK(K);
	model->setIsClassifier(true);
	model->train(tData);

	double ktrain_hr = 0, ktest_hr = 0;
	
	// compute prediction error on train and test data
	for (int i = 0; i < samplesNum; i++)
	{
		Mat sample = data.row(i);
		float r = model->predict(sample);   //對所有行進行預測
											//預測結果與原結果相比，相等為1，不等為0
		r = std::abs(r - labels.at<int>(i)) <= FLT_EPSILON ? 1.f : 0.f;

		if (i < trainNum)
			ktrain_hr += r;  //累積正確數
		else
			ktest_hr += r;
	}

	ktest_hr /= samplesNum - trainNum;
	ktrain_hr = trainNum > 0 ? ktrain_hr / trainNum : 1.;

	printf("accuracy: train = %.1f%%, test = %.1f%%\n",
		ktrain_hr*100., ktest_hr*100.);





	//預測分類
	double train_hr = 0, test_hr = 0;

	// compute prediction error on train and test data
	for (int i = 0; i < samplesNum; i++)
	{
		Mat sample = data.row(i);
		float r = svm->predict(sample);   //對所有行進行預測
											//預測結果與原結果相比，相等為1，不等為0
		r = std::abs(r - labels.at<int>(i)) <= FLT_EPSILON ? 1.f : 0.f;

		if (i < trainNum)
			train_hr += r;  //累積正確數
		else
			test_hr += r;
	}

	test_hr /= samplesNum - trainNum;
	train_hr = trainNum > 0 ? train_hr / trainNum : 1.;

	printf("accuracy: train = %.1f%%, test = %.1f%%\n",
		train_hr*100., test_hr*100.);
	waitKey(0);
	getchar();
	return 0;
}

參考連結：https://www.cnblogs.com/denny402/p/5032839.html

https://www.cnblogs.com/cheermyang/p/5624333.html

【opencv3--ANN神經網路訓練識別OCR資料集】

#include <string> #include <iostream> #include <opencv2\opencv.hpp> #include <opencv2\ml.hpp> #include<fstream> using n

深度學習入門——利用卷積神經網路訓練CIFAR—10資料集

CIFAR-10資料集簡介 CIFAR-10是由Hinton的學生Alex Krizhevsky和Ilya Sutskever整理的一個用於普適物體的小型資料集。它一共包含10個類別的RGB彩色圖片：飛機、汽車、鳥類、貓、鹿、狗、蛙類、馬、船：資料集包含50000張訓練圖片和1000

TensorFlow學習－－卷積神經網路訓練CIFAR-10資料集

CIFAR-10資料集 CIFAR-10資料集包含10個類的60000張32x32的彩色影象，每個類有6000張影象。有50000張訓練影象和10000張測試影象。 10個分類明細及對應的部分圖片：卷積神經網路訓練CIFAR-10資料集

卷積神經網路CNN識別MNIST資料集

這次我們將建立一個卷積神經網路，它可以把MNIST手寫字元的識別準確率提升到99%，讀者可能需要一些卷積神經網路的基礎知識才能更好的理解本節的內容。程式的開頭是匯入TensorFlow： import tensorflow as tf from tensorflow.examples.tutori

斯坦福cs231n學習筆記（8）------神經網路訓練細節（資料預處理、權重初始化）

神經網路訓練細節系列筆記：這一篇，我們將繼續介紹神經網路訓練細節。一、Data Preprocessing（資料預處理）如圖是原始資料，資料矩陣X有三種常見的資料預處理形式，其中我們假定X的大小為[N×D]（N是資料的數量，D是它們的維數

神經網路訓練中影象資料預處理的一些方式(一)

神經網路訓練中影象資料預處理的一些方式 1. crop 1. 1 對於有黑色背景的圖片，將資料crop在有效區域內對於一些有黑色背景的圖片，如下圖：這樣的圖片在做資料預處理的時候，黑色背景的無效區域，帶來了很大的運算量開銷。面對這種圖片，

【SSD】用caffe-ssd框架自帶VGG網路訓練自己的資料集

一、挑選資料集我先是從ImageNet官網下載了所有關於杯子的圖片然後從ILSVRC2011，ILSVRC2012，ILSVRC2013和ILSVRC2015資料集通過搜尋xml中杯子的代號挑出了包含杯子的資料集。二、處理xml檔案我只需要杯子的資訊，其他物體資訊要從xm

TensorFlow之神經網路簡單實現MNIST資料集分類

import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data mnist=input_data.read_data_sets("MNIST_data",one_hot=True) ba

TensorFlow之卷積神經網路(CNN)實現MNIST資料集分類

import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data mnist=input_data.read_data_sets('MNIST_data',one_hot=True) #每

吳恩達深度學習筆記(28)-網路訓練驗證測試資料集的組成介紹

從今天開始我們進入新的一個大方向了，改善深層神經網路：超引數除錯、正則化以及優化，首先進入深度學習的一個新層面，先認識下在深度學習中的資料集的分類。之前可能大家已經瞭解了神經網路的組成的幾個部分，那麼我們將繼續學習如何有效運作神經網路，內容涉及超引數調優，如何構建資料，以及如何確保優化

《TensorFlow學習筆記》卷積神經網路CNN實戰-cifar10資料集（tensorboard視覺化）

IDE：pycharm Python: Python3.6 OS: win10 tf : CPU版本程式碼可在github中下載，歡迎star，謝謝 CNN-CIFAR-10 一、CIFAR10資料集資料集程式碼下載 from te

字元識別OCR研究一（模板匹配&BP神經網路訓練）

摘要在MATLAB環境下利用USB攝像頭採集字元影象，讀取一幀儲存為影象，然後對讀取儲存的字元影象，灰度化，二值化，在此基礎上做傾斜矯正，對矯正的影象進行濾波平滑處理，然後對字元區域進行提取分割出單個字元，識別方法一是採用模板匹配的方法逐個對字元與預先製作好的字元模

【深度學習】5：CNN卷積神經網路原理、識別MNIST資料集

前言：先坦白的說，深度神經網路的學習在一開始對我造成的困擾還是很大的，我也是通過不斷地看相關的視訊資料、文獻講解嘗試去理解記憶。畢竟這些內容大多都是不可查的，我們看到的都只是輸入輸出的東西，裡面的內部運作以及工作原理，都需要沉心靜思。這篇CNN卷積神經網路的

【python keras實戰】用keras搭建捲起神經網路訓練模型

端到端的MINIST訓練數字識別 MINIST資料集是由LeCun Yang 教授和他的團隊整理的，囊括了6萬個訓練集和1萬個測試集，每個樣本都是32*32的畫素值，並且是黑色的，沒有R、G、B三層。我們要做的就是把每一個圖片分類到0~9的類別中。 kera

OCR(人工神經網路漢字識別系統)

6 人工神經網路漢字識別系統6.1 電腦能“變成”人腦嗎計算機能夠識字，也能夠識別話音，辨別氣味，實現某種通常與人類智慧有關的功能。但是嚴格地說，現代的計算機並沒有智慧，只不過運算速度很高，能夠執行人們

TensorFlow官方文件樣例——三層卷積神經網路訓練MNIST資料

上篇部落格根據TensorFlow官方文件樣例實現了一個簡單的單層神經網路模型，在訓練10000次左右可以達到92.7%左右的準確率。但如果將神經網路的深度拓展，那麼很容易就能夠達到更高的準確率。官方中文文件中就提供了這樣的樣例，它的網路結構如

為什麼使用神經網路訓練得到的語言模型不需要做資料平滑

我們都知道，在自然語言處理的語言模型裡面，最核心的就是計算得到一個句子的概率，為了得到這個概率，我們需要計算得到一系列的條件概率。這些條件概率就是整個語言模型的引數。為了得到條件概率，我們可以有兩種不同的方法。第一種就是使用統計概率方法，通過統計的方法得到不同的詞對的條件概率。這種方

#####好好好好####Keras深度神經網路訓練分類模型的四種方法

Github程式碼： Keras樣例解析歡迎光臨我的部落格：https://gaussic.github.io/2017/03/03/imdb-sentiment-classification/ (轉載請註明出處：https://gaussic.github.io) Keras的官方E

Tensorpack，一個基於TensorFlow的神經網路訓練介面，原始碼包含很多示例

Tensorpack是一個基於TensorFlow的神經網路訓練介面。 https://github.com/tensorpack/tensorpack 特徵：它是另一個TF高階API，具有速度，可讀性和靈活性。

深度學習神經網路訓練調參技巧

本文主要介紹8種實現細節的技巧或tricks：資料增廣、影象預處理、網路初始化、訓練過程中的技巧、啟用函式的選擇、不同正則化方法、來自於資料的洞察、整合多個深度網路的方法原文如下：http://blog.csdn.net/u013709270/article/details/70949304。

【opencv3--ANN神經網路訓練識別OCR資料集】

相關推薦