【好玩的計算機視覺】KNN演算法手寫數字識別

阿新 • • 發佈：2019-01-18

OCR應用非常廣泛，而且有許多方法，今天用KNN演算法實現簡單的0-9手寫數字識別。本程式使用OpenCV 3.0和Python 3。

KNN演算法是K近鄰分類演算法，屬於機器學習中的監督學習，需要一定量的帶標籤的輸入樣本資料進行“訓練”，然後就可以識別。我給“訓練”打引號是因為其實KNN沒有明顯的前期訓練過程，它是要給一個樣本x分類，就從資料集中在x附近找離它最近的k各資料點，這k個數據點中包含的y類別最多，那麼就把x的標籤標記為y，這就完成了分類識別的過程。

首先，利用OpenCV自帶的手寫數字樣本集digits.png來進行初始訓練：

def initKnn():
    knn = cv2.ml.KNearest_create()
    img = cv2.imread('digits.png')
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    cells = [np.hsplit(row,100) for row in np.vsplit(gray,50)]
    train = np.array(cells).reshape(-1,400).astype(np.float32)
    trainLabel = np.repeat(np.arange(10),500)
    return knn, train, trainLabel

這是總共5000個數據，0-9各500個，我們讀入圖片後整理資料，這樣得到的train和trainLabel依次對應，影象資料和標籤。

def updateKnn(knn, train, trainLabel, newData=None, newDataLabel=None):
    if newData != None and newDataLabel != None:
        print(train.shape, newData.shape)
        newData = newData.reshape(-1,400).astype(np.float32)
        train = np.vstack((train,newData))
        trainLabel = np.hstack((trainLabel,newDataLabel))
    knn.train(train,cv2.ml.ROW_SAMPLE,trainLabel)
    return knn, train, trainLabel

updateKnn是增加自己的訓練資料後更新Knn的操作。

def findRoi(frame, thresValue):
    rois = []
    gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
    gray2 = cv2.dilate(gray,None,iterations=2)
    gray2 = cv2.erode(gray2,None,iterations=2)
    edges = cv2.absdiff(gray,gray2)
    x = cv2.Sobel(edges,cv2.CV_16S,1,0)
    y = cv2.Sobel(edges,cv2.CV_16S,0,1)
    absX = cv2.convertScaleAbs(x)
    absY = cv2.convertScaleAbs(y)
    dst = cv2.addWeighted(absX,0.5,absY,0.5,0)
    ret, ddst = cv2.threshold(dst,thresValue,255,cv2.THRESH_BINARY)
    im, contours, hierarchy = cv2.findContours(ddst,cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    for c in contours:
        x, y, w, h = cv2.boundingRect(c)
        if w > 10 and h > 20:
            rois.append((x,y,w,h))
    return rois, edges

findRoi函式是找到每個數字的位置，用包裹其最小矩形的左上頂點的座標和該矩形長寬表示(x, y, w, h)。這裡還用到了Sobel運算元。edges是原始影象形態變換之後的灰度圖，可以排除一些背景的影響，比如本子邊緣、紙面的格子、手、筆以及影子等等，用edges來獲取數字影象效果比Sobel獲取的邊界效果要好。

def findDigit(knn, roi, thresValue):
    ret, th = cv2.threshold(roi, thresValue, 255, cv2.THRESH_BINARY)
    th = cv2.resize(th,(20,20))
    out = th.reshape(-1,400).astype(np.float32)
    ret, result, neighbours, dist = knn.findNearest(out, k=5)
    return int(result[0][0]), th

findDigit函式是用KNN來分類，並將結果返回。th是用來手動輸入訓練資料時顯示的圖片。20x20pixel的尺寸是OpenCV自帶digits.png中影象尺寸，因為我是在其基礎上更新資料，所以沿用這個尺寸。

def concatenate(images):
    n = len(images)
    output = np.zeros(20*20*n).reshape(-1,20)
    for i in range(n):
        output[20*i:20*(i+1),:] = images[i]
    return output

concatenate函式是拼接數字影象並顯示的，用來輸入訓練資料。

while True:
    ret, frame = cap.read()
    frame = frame[:,:426]
    rois, edges = findRoi(frame, 50)
    digits = []
    for r in rois:
        x, y, w, h = r
        digit, th = findDigit(knn, edges[y:y+h,x:x+w], 50)
        digits.append(cv2.resize(th,(20,20)))
        cv2.rectangle(frame, (x,y), (x+w,y+h), (153,153,0), 2)
        cv2.putText(frame, str(digit), (x,y), cv2.FONT_HERSHEY_SIMPLEX, 1, (127,0,255), 2)
    newEdges = cv2.cvtColor(edges, cv2.COLOR_GRAY2BGR)
    newFrame = np.hstack((frame,newEdges))
    cv2.imshow('frame', newFrame)
    videoFrame.write(newFrame)
    key = cv2.waitKey(1) & 0xff
    if key == ord(' '):
        break
    elif key == ord('x'):
        Nd = len(digits)
        output = concatenate(digits)
        showDigits = cv2.resize(output,(60,60*Nd))
        cv2.imshow('digits', showDigits)
        cv2.imwrite(str(count)+'.png', showDigits)
        count += 1
        if cv2.waitKey(0) & 0xff == ord('e'):
            pass
        print('input the digits(separate by space):')
        numbers = input().split(' ')
        Nn = len(numbers)
        if Nd != Nn:
            print('update KNN fail!')
            continue
        try:
            for i in range(Nn):
                numbers[i] = int(numbers[i])
        except:
            continue
        knn, train, trainLabel = updateKnn(knn, train, trainLabel, output, numbers)
        print('update KNN, Done!')

這是主函式迴圈部分，按“x”鍵會暫停螢幕並顯示獲取的數字影象，按“e”鍵會提示輸入看到的數字，在終端輸入數字用空格隔開，按回車如果顯示“update KNN, Done!”則完成一次更新。下面是我用20多組0-9數字更新訓練後得到的結果：

【好玩的計算機視覺】KNN演算法手寫數字識別

【好玩的計算機視覺】KNN演算法手寫數字識別

【機器學習實戰】knn演算法手寫

機器學習實戰——KNN演算法手寫數字識別

機器學習使用python+OpenCV實現knn演算法手寫數字識別

Python實現knn演算法手寫數字識別

【機器學習演算法實現】kNN演算法手寫識別——基於Python和NumPy函式庫

基於KNN分類演算法手寫數字識別的實現（二）——構建KD樹

學習KNN（二）KNN演算法手寫數字識別的OpenCV實現

用 KNN 做手寫數字識別

KNN / SVM 手寫數字識別-PCA降維

kNN之手寫數字識別

【人工智慧】利用C語言實現KNN演算法進行手寫數字識別

【機器學習】手寫數字識別算法

【機器學習--opencv3.4.1版本基於Hog特徵描述子Svm對經典手寫數字識別】

【AI實戰】訓練第一個AI模型：MNIST手寫數字識別模型

【深度學習】python實現簡單神經網路以及手寫數字識別案例

【Python例項第20講】手寫數字識別問題的K-Means聚類

機器學習--k-近鄰演算法（kNN）實現手寫數字識別

【4】caffe的python介面學習：mnist例項---手寫數字識別

【機器學習 sklearn】手寫數字識別 SVM

【好玩的計算機視覺】KNN演算法手寫數字識別

相關推薦