yolo v2物體分類工程的前期影象預處理關鍵程式碼解析

阿新 • • 發佈：2019-01-23

1、其物體分類工程的樣本增強功能很強大，比caffe的好很多，下面是對訓練工程的樣本預處理程式碼進行解析，

其程式碼入口在data.c檔案，其程式碼如下：

matrix load_image_augment_paths(char **paths, int n, int min, int max, int size, float angle, float aspect, float hue, float saturation, float exposure)
{
    int i;
    matrix X;
    X.rows = n;
    X.vals = calloc(X.rows, sizeof(float*));
    X.cols = 0;

    for(i = 0; i < n; ++i){
        image im = load_image_color(paths[i], 0, 0);
		//這裡進行旋轉、裁剪
        image crop = random_augment_image(im, angle, aspect, min, max, size);
		//如果開啟了多執行緒，當有多條執行緒搶佔著個資源時，會報錯。 解決方法就是，使用單batch=1即可。       
        show_image(im, "orig");
        show_image(crop, "crop");
        cvWaitKey(0);

		//這裡是進行左右翻轉，不需要配置檔案制定
        int flip = random_gen()%2;
        if (flip) flip_image(crop);
		//這裡是進行資料樣本的色調、飽和度、曝光度的增強，其值儘可能設定小點。
        random_distort_image(crop, hue, saturation, exposure);
   
        free_image(im);
        X.vals[i] = crop.data;
        X.cols = crop.h*crop.w*crop.c;
    }
    return X;
}

其中random_augment_image()是進行樣本增強的函式入口，其程式碼位置在image.c，程式碼如下：

image random_augment_image(image im, float angle, float aspect, int low, int high, int size)
{
    aspect = rand_scale(aspect);

	//這裡的high的值是low的兩倍，這個值或許有點大了，裁剪是單邊裁剪。這裡是把影象按照網路輸入大小進行
	//放大操作，讓後在這裡面擷取輸入網路大小的區域，由於r的隨意性，則這個函式起到隨意裁剪影象的左右。
	int r = rand_int(low, high);
    int min = (im.h < im.w*aspect) ? im.h : im.w*aspect;
	//這裡假設樣本已經被歸一化為w=h大小的樣本了。如果要使用w，h不相等的樣本，則需要修改程式碼，分別計算
	//scalew，scaleh大小。
    float scale = (float)r / min;

	//這裡是進行仿射變化的角度值
    float rad = rand_uniform(-angle, angle) * TWO_PI / 360.;
	//float rad = 0 * TWO_PI / 360.;

    float dx = (im.w*scale/aspect - size) / 2.;
    float dy = (im.h*scale - size) / 2.;
    if(dx < 0) dx = 0;
    if(dy < 0) dy = 0;
    dx = rand_uniform(-dx, dx);
    dy = rand_uniform(-dy, dy);

	//dx = 0;
	//dy = 0;

	//這個函式進行旋轉和單邊裁剪。
    image crop = rotate_crop_image(im, rad, scale, size, size, dx, dy, aspect);
    return crop;
}

其中的rotate_crop_image()的程式碼位置在image.c，其程式碼如下：

image rotate_crop_image(image im, float rad, float s, int w, int h, float dx, float dy, float aspect)
{
    int x, y, c;
    float cx = im.w/2.;
    float cy = im.h/2.;
    image rot = make_image(w, h, im.c);
    for(c = 0; c < im.c; ++c){
        for(y = 0; y < h; ++y){
            for(x = 0; x < w; ++x){
				//這裡假設現有的座標x，y是旋轉後的座標，需要求出rx，ry是原始的座標，其值可能是負值，或者大於w，h但是在雙線性插值裡
				//進行了判斷，把其限制在適當的範圍，這個就是為什麼可以填補空白影象區域的原因，挺好的。
				//(x - w/2.)/s得出來的是樣本的影象座標點，這裡只取了放大影象（r邊長）中間的w，h大小的區域
				//所以起到隨意裁剪影象樣本大作用。
                float rx = cos(rad)*((x - w/2.)/s*aspect + dx/s*aspect) - sin(rad)*((y - h/2.)/s + dy/s) + cx;
                float ry = sin(rad)*((x - w/2.)/s*aspect + dx/s*aspect) + cos(rad)*((y - h/2.)/s + dy/s) + cy;
                //根據原始的座標來進行雙線性插值得出其畫素值，很妙。
				float val = bilinear_interpolate(im, rx, ry, c);
                set_pixel(rot, x, y, c, val);
            }
        }
    }
    return rot;
}

樣本例子展示：

a、這個是進行雙線性插值後，填補無畫素值的效果

b、使用的是w、h軸都不同比例的結果，並且沒有假設影象被放大，而是網路輸入等比例：

c、使用1724x724大小的樣本，在沒有任何裁剪和縮放的情況下，這種不完全情況，這是由於樣本的x，y軸都是採用相同的scale比例大小：

yolo v2物體分類工程的前期影象預處理關鍵程式碼解析

1、其物體分類工程的樣本增強功能很強大，比caffe的好很多，下面是對訓練工程的樣本預處理程式碼進行解析，其程式碼入口在data.c檔案，其程式碼如下：matrix load_image_augment_paths(char **paths, int n, int min,

ocr影象預處理-影象分割、文字方向校正

說明：文字方向校正(fft方式和放射變換方式)參考了網上的程式碼，只做了少量修改只針對醫療影像影象，自然場景下的另說因為處理的影象都很大很大，居然有11000*12000這種解析度的，有90M大小，我也是醉了，絕大部分都是6000左右解析度的影象，這種影象直接送到CTPN裡的話，

1. 特徵工程之特徵預處理

1. 前言 “資料決定了機器學習的上限，而演算法只是儘可能逼近這個上限”，這裡的資料指的就是經過特徵工程得到的資料。特徵工程指的是把原始資料轉變為模型的訓練資料的過程，它的目的就是獲取更好的訓練資料特徵，使得機器學習模型逼近這個上限。特徵工程能使得模型的效能得到提升，有時甚至在簡單的模型上也能取得不錯的效果

資料科學和人工智慧技術筆記四、影象預處理

四、影象預處理作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 影象二值化 # 載入庫 import cv2 import numpy as np from matplotlib import pyplot as plt

tf.data.Dataset影象預處理詳解

目錄 1、tf.data.Dataset 2、Dataset常用函式 3、影象預處理的第一種方式 3.1、匯入依賴庫 3.2、定義常量 3.3、讀取文字中的圖片標籤對 3.4、例項化Dataset並完成影象預處理

pytorch 目標檢測影象預處理

Faster RCNN 和Retinanet在將影象資料輸送到網路之前，要對影象資料進行預處理。大致上與部落格提到的相同。事實上還可以採取第三步，將圖片的寬和高擴充套件為32的整倍數，正如在Retinanet使用的。下面是一個簡單的Pytorch資料預處理模組： class Resizer():

影象預處理 | 【附高清經典影象處理書籍下載】

概述： 1）預處理是指處於最低抽象層次的影象上所進行的操作，這時處理的輸入和輸出都是亮度影象。 2）預處理並不會增加影象的資訊量預處理有助於抑制與特殊的影象處理或分析任務無關的資訊。因此預處理的目的是改善影象資料，抑制不需要的變形或者增強某些對於後續處理重要的影象特徵。影象預處理方

計算機視覺基礎~影象預處理（中）

5.1梯度Prewitt濾波/卷積水平梯度/垂直邊緣垂直梯度/水平邊緣 5.2梯度Sobel濾波/卷積梯度Sobel濾波/卷積垂直梯度/水平邊緣 5.3梯度Laplacian濾波/卷積二

影象預處理 && C實現

之前用到的一些預處理整理，主要是影象增強和濾波演算法。程式碼地址：https://github.com/WangLCG/Image_Process/tree/master/Image_enhance 1、直方圖均衡化調整影象的灰度分佈使其能在0-255範圍內分佈更均衡，可用於提

Tensorflow資料輸入---TFRecords詳解\TFRecords影象預處理

目錄 1、概述 2、預處理資料 2.1、常量定義 2.2、匯入庫 2.3、從train.txt檔案中讀取圖片-標籤對 2.4、預處理圖片並儲存 2.5、呼叫main函式 3、讀取預處理後的資料

halcon影象預處理之影象增強

影象增強一般通過如下幾種方式： 1. 灰度值線性變換 scale_image: g’ := g * Mult + Add g為當前的灰度值，Mult 為所乘的係數，Add為加的偏移值，由公式可以看出用scale_image來處理影象是個線性變化，會讓黑的地方更

matlab影象預處理中值濾波y與雙邊濾波

中值濾波前面所說的高斯平滑和均值濾波也是預處理的一種，不過他們用犧牲影象細節為代價來換取平滑影象，他們對處理小的噪聲點比較好，但是處理較大的噪聲點比較無力。平滑線性濾波器的工作原理可以比喻為用水沖洗桌面上的汙點，沖洗的結果是汙點並沒有消失，只是被淡化，如果汙

halcon影象預處理之影象銳化

影象銳化是為了讓影象的邊界、輪廓線以及影象的細節變得清晰。可以用高通濾波器和空間域微分法使影象變得邊界變得清晰。但是要注意的是對影象銳化影象要有較高的信噪比，否則銳化後圖像信噪比更低。可以先對影象進行平滑後再銳化。 1. 空間域銳化（微分法） frei_amp

openai/gym中的影象預處理

openai/gym中的影象預處理之前讀強化學習的文章，提到對gym模擬器的影象進行預處理，每4張圖片生成一個(84,84,4)的tensor，但是在網上沒有搜到具體的實現，因此寫一個預處理的函式，用到了cv2，這個模組需要安裝opencv-python這個庫步

ResNet--影象預處理

152層的 Resnet的圖片輸入尺寸為224*224，那對於大多數情況，圖片的解析度都是大於這個數值，那麼該如何把圖片的尺寸裁剪到這樣一個尺寸，又如何進行資料增強呢？第一，調整尺寸(Rescaling) 先將圖片較短的那條邊，隨機縮放到[256,480]這樣一個範圍內。注意，此時的圖片是等比

【OpenCV筆記】影象預處理

void FillWhite(IplImage *pImage) { cvRectangle(pImage, cvPoint(0, 0), cvPoint(pImage->width, pImage->height), CV_RGB(255, 255, 255), CV_FILLE

C++ Opencv——影象預處理——濾波

#include <opencv2/opencv.hpp> #include <opencv2\core\core.hpp> #include <opencv2\highgui\highgui.hpp> #include <opencv2\imgproc\i

Tensorflow影象預處理（2）大小調整

簡單的影象預處理，包含對影象的反轉和裁剪等基本操作，程式碼中有詳細註釋 #影象大小調整 import matplotlib.pyplot as plt image_raw_data=tf.gfile.FastGFile("pic/ma.jpg","rb").read()

Tensorflow常見問題處理 TensorFlow 影象預處理（一）影象編解碼，影象尺寸調整 tensorflow(一)：圖片處理 TensorFlow 處理圖片

1、Tensorflow中影象處理函式(影象大小調整) 　　Tensorflow中影象處理函式(影象大小調整) 　　tensorflow入門之---------影象大小調整　　TensorFlow 影象預處理（一）影象編解碼，影象尺寸調整　　Tensorflow針對不定尺寸的圖片讀寫tfreco

《影象處理、分析與機器視覺》（第4版）閱讀筆記——第五章影象預處理

預處理不會增加影象的資訊量，一般會降低熵。因此，從資訊理論的角度看，最好的預處理是沒有預處理：避免（消除）預處理的最好途徑是著力於高質量的影象獲取。實際影象中的屬於一個物體的相鄰畫素通常具有相同的或類似的亮度值，因此如果一個失真了的畫素可以從影象中被挑出來，它也許就可以用其鄰接畫素的平均值來複原。

yolo v2物體分類工程的前期影象預處理關鍵程式碼解析

相關推薦