基於SVM的python簡單實現驗證碼識別

阿新 • • 發佈：2018-08-08

save def lse highlight pro imp bubuko uac 如果

1. 爬取驗證碼圖片

from urllib import request


def download_pics(pic_name):
    url = ‘http://wsbs.zjhz.hrss.gov.cn/captcha.svl‘
    res = request.urlopen(url)
    get_img = res.read()

    with open(‘/Users/luacheng/project/python/image/vcode/%s.jpg‘ % (pic_name), ‘wb‘) as f:
        f.write(get_img)


if __name__ == ‘__main__‘:
    for i in range(100):
        pic_name = i
        download_pics(pic_name)

　技術分享圖片

2. 二值化

接下來要做的工作就是二值化驗證碼，所謂二值化，就是將每一個像素點用0或1來表示，圖像的每個像素點都有rgb三個值，我們首先轉化成灰度圖，這樣每個像素點就只有一個灰度值了。接下來根據自己設定的閾值來確定每個像素點是該為0還是為1。

我的思路是首先將圖像轉化為array處理，當然完全可以直接圖像處理。

from PIL import Image
import numpy


def binarization(im):  # 二值化
    imgry = im.convert(‘L‘)
    imgry = numpy.array(imgry)  # 將圖像轉化為數組
    height, width = imgry.shape
    f = open(‘1.txt‘, ‘w‘)
    for i in range(height):
        for j in range(width):
            gray = imgry[i, j]
            if gray <= 220:  # 閾值設為220
                imgry[i, j] = 0
            else:
                imgry[i, j] = 1
            f.write(str(imgry[i,j]))  #輸出到txt查看
        f.write(‘\n‘)
    ‘‘‘
    plt.figure(‘‘)
    plt.imshow(imgry, cmap=‘gray‘)
    plt.axis(‘off‘)
    plt.show()
    ‘‘‘
    return imgry


if __name__ == ‘__main__‘:
    img = Image.open(‘/Users/luacheng/project/python/image/vcode/1.jpg‘)
    binarization(img)

在二值化處理之後，處理結果如下所示：

技術分享圖片

3 圖片分割

接下來要做的就是將這四個字符分割開來形成訓練集，這個操作並不難。因為這些驗證碼的位置都是差不多的，如果驗證碼字符位置比較亂的話就會比較麻煩

 1 def cutImg(img):  #圖像切割
 2     s = 12
 3     w = 40
 4     h = 81
 5     t = 0
 6     cut_img = []
 7     for i in range(4):
 8         pic = img.crop((s + w * i, t, s + w * (i + 1), h))
 9         cut_img.append(pic)
 
10     return cut_img

技術分享圖片

4 圖片分類

這個步驟的目的就是人為的給訓練集打上標簽。將相同的數字放在同一個文件夾下面

技術分享圖片

5 訓練模型

訓練模型很簡單，因為直接就是使用libsvm庫，我們只需要按照數據格式生成一些特征值即可

 1 import os
 2 from PIL import *
 3 from PIL import Image
 4 import numpy as np
 5 from libsvm.python.svmutil import *
 6 from libsvm.python.svm import *
 7 
 8 
 9 address = ‘D:\python\驗證碼-sort\\‘
10 f = open(‘train.txt‘, ‘w‘)
11 
12 def get_feature(dir, file):
13     f.write(dir)
14     im = Image.open(address + dir +‘\\‘ + file)
15     imarr = np.array(im)
16     height, width = imarr.shape
17     for i in range(height):
18         for j in range(width):
19             gray = imarr[i,j]
20             if gray <= 150:
21                 imarr[i, j] = 0
22             else:
23                 imarr[i, j] = 255
24     im = Image.fromarray(imarr)
25     count = 0
26     width, height = im.size
27     for i in range(height):
28         c = 0
29         for j in range(width):
30             if im.getpixel((j, i)) == 0: c += 1
31         f.write(‘ %d:%d‘%(count, c))
32         count += 1
33     for i in range(width):
34         c = 0
35         for j in range(height):
36             if im.getpixel((i, j)) == 0: c += 1
37         f.write(‘ %d:%d‘%(count, c))
38         count += 1
39     f.write(‘\n‘)
40 
41 def train_svm_model():
42     y, x = svm_read_problem(‘train.txt‘)
43     model = svm_train(y, x)
44     svm_save_model(‘model_file‘, model)
45 
46 if __name__ == ‘__main__‘:
47     dirs = os.listdir(address)
48     for dir in dirs:
49         files = os.listdir(address + dir)
50         for file in files:
51             get_feature(dir, file)
52     train_svm_model()

6 測試模型

用測試數據對模型進行測試

1 from libsvm.python.svmutil import *
2 from libsvm.python.svm import *
3 import image_slove
4 
5 if __name__ == ‘__main__‘:
6     model = svm_load_model(‘model_file‘)
7     yt, xt = svm_read_problem(‘test.txt‘)
8     p_label, p_acc, p_val = svm_predict(yt, xt, model)

基於SVM的python簡單實現驗證碼識別

save def lse highlight pro imp bubuko uac 如果 1. 爬取驗證碼圖片 from urllib import request def download_pics(pic_name): url = ‘http://wsbs

2.CNN圖片多標籤分類（基於TensorFlow實現驗證碼識別OCR）

上一篇實現了圖片CNN單標籤分類（貓狗圖片分類任務）地址：juejin.im/post/5c0739… 預告：下一篇用LSTM+CTC實現不定長文字的OCR，本質上是一種不固定標籤個數的多標籤分類問題本文所用到的10w驗證碼資料集百度網盤下載地址（也可使用下文程式碼自行生成）： pan.baidu

python爬蟲實現登陸簡單圖片驗證碼識別（Tesseract識別）

Tesseract下載與安裝附：德國曼海姆大學發行的3.05版本下載安裝與配置PATH環境變數安裝略，環境變數只要將目錄新增到PATH路徑，PATH路徑針對於命令列解析。 tesseract 1.png output-l eng -psm 7 -ps

Tensorflow2.0——利用卷積神經網路實現簡單的驗證碼識別

之前用tensorflow1.13做了一個驗證碼識別的小東西準確率還是相當高的（當然其中大部分邏輯都是從網上很多大神的部落格中借鑑

使用TensorFlow 來實現一個簡單的驗證碼識別過程

本文我們來用 TensorFlow 來實現一個深度學習模型，用來實現驗證碼識別的過程，這裡識別的驗證碼是圖形驗證碼，首先我們會用標註好的資料來訓練一個模型，然後再用模型來實現這個驗證碼的識別。 1.驗證碼準備這裡我們使用 python 的 captcha 庫來生成即可，這個庫

基於SVM的字母驗證碼識別

區域總結 nim 系列 red clust 記錄完成 form 基於SVM的字母驗證碼識別摘要本文研究的問題是包含數字和字母的字符驗證碼的識別。我們采用的是傳統的字符分割識別方法，首先將圖像中的字符分割出來，然後再對單字符進行識別。首先通過圖像的初步去噪、濾波、形態

tensorflow實現驗證碼識別（二）

tfrecords 由於有個5W張圖片的訓練集，如果是placeholder的方式來把資料餵給graph的話，那可真蠢。。所以不如用tensorflow官方推薦的tfrecords來進行IO。這種IO方式主要是兩步： 1.先把資料dump成tfrecords檔案 2.用佇列來把資料餵

CNN卷積神經網路實現驗證碼識別（準確率達99%）

import tensorflow as tf from captcha.image import ImageCaptcha import numpy as np import matplotlib.pyplot as plt from PIL import Image import random n

使用Tensorflow構建和訓練自己的CNN來做簡單的驗證碼識別

Tensorflow是目前最流行的深度學習框架，我們可以用它來搭建自己的卷積神經網路並訓練自己的分類器，本文介紹怎樣使用Tensorflow構建自己的CNN，怎樣訓練用於簡單的驗證碼識別的分類器。本文假設你已經安裝好了Tensorflow，瞭解過CNN的一些知

TensorFlow實現驗證碼識別（十七）

TensorFlow實現驗證碼的識別使用的生成驗證碼庫是captcha。首先是驗證碼的生成，先生成一個驗證碼。程式碼：import random import tensorflow as tf from captcha.image import ImageCaptcha im

基於TensorFlow的簡單驗證碼識別

mini shu nal array pool 利用 imp 大小寫標註　　TensorFlow 可以用來實現驗證碼識別的過程，這裏識別的驗證碼是圖形驗證碼，首先用標註好的數據來訓練一個模型，然後再用模型來實現這個驗證碼的識別。生成驗證碼　　首先生成驗證碼，這裏使用

基於Python的Selenium自動化(3)— 實現驗證碼擷取並識別

這些天實在忙的冒煙，一大堆的專案堆在一起，沒日沒夜的加班。加上有些懶惰，學習進度一直沒有太多進展。這篇文章主要介紹前段時間抽空實現的一個功能，希望有需要用到可以得到一點啟發。基於UI層的自動化，有一些坑在裡面，幾乎幾個每個人都會遇到的，其中之一就是註冊或登入

基於Python簡單影象處理，識別驗證碼！

基本識別原理概述： 1、每一幅影象在構成上，都是由一個個畫素組成的矩陣，每一個畫素為單元格。 2、彩色影象的畫素的由三原色（紅，綠，藍）構成元組，灰度影象的畫素是一個單值，每個畫素的值範圍為（0,255）。問題來源某系統門戶登陸介面如下：現在我們要實現自動的驗證碼識

【KNN近鄰演算法】實現識別簡單數字驗證碼（演算法原理+程式碼筆記）

此筆記適合有一定python基礎，瞭解numpy科學計算庫的人，有一定線性代數基礎的人。對KNN演算法原理了解的更容易看懂，筆者水平受限，寫以下筆記主要目的是分享自己的學習過程以及便於以後複習檢視。 KNN 近鄰演算法實現原理：實現步驟： ①：處理資料

Java實現超簡單驗證碼識別

閒來想實現程式模擬登陸一個系統，說白了，就是寫個簡單的爬蟲，但是無奈，遇到了數字圖片驗證碼，在查閱了一些方案以後，遂決定自己手寫程式碼實現驗證碼識別，分享一下整個過程。圖片驗證碼是什麼圖片驗證碼，這個大家應該都見過。最普遍的圖片驗證碼就是一張

基於CNN的驗證碼識別神經網路實現

一、前言二、實戰 1、驗證碼生成 import random import numpy as np from PIL import Image from captcha.image import ImageCaptcha NUMBER = ['0', '1',

Python 新手實戰之機器學習實現簡單驗證碼識別(一)：用PIL簡單繪製驗證碼

驗證碼生成 from PIL import Image, ImageDraw, ImageFont import random, os def draw(): #隨機生成背景顏色 (RGB顏色範圍為0-255，越高越接近白色)，背景顏色不宜過深，

基於決策樹的簡單驗證碼識別

原理核心思想：相似的輸入必會產生相似的輸出。原理：首先從訓練樣本矩陣中選擇第一個特徵進行劃分，使每個子表中該特徵的值全部相同(比如第一個特徵是男女，則可以劃分出兩個子表，男表和女表)，然後再在每個子表中選擇下一個特徵按照同樣的規則繼續劃分更小的子表(比如第二個特徵是年齡，我可以劃分成三個子表(當然根據情況

Python 實現簡單圖片驗證碼登錄

需要 spa tps dem 圖片背景 round alt word exc 朋友說公司要在測試環境做接口測試，登錄時需要傳入正確的圖片的驗證碼，本著懶省事的原則，推薦他把測試環境的圖片驗證碼寫死，我們公司也是這麽做的^_^。勸說無果/(ㄒoㄒ)/~~，只能通過 OCR 技

php實現簡單的驗證碼功能

mage isset pat ech ace ring bcd ont es2017 1.根據php中的GD庫對圖片進行處理，繪制出驗證碼的圖片，code.php中2.表單界面，簡單的session保存及與用戶輸入對比，確定是否驗證正確，form.php中<?php

基於SVM的python簡單實現驗證碼識別

1. 爬取驗證碼圖片

2. 二值化

3 圖片分割

4 圖片分類

5 訓練模型

6 測試模型

相關推薦