驗證碼識別1---My way of AI 23

阿新 • • 發佈：2018-11-28

寫一個練手的驗證碼識別專案

資料集和完整程式碼我會傳到我的下載資源

這篇文章是專案第一步，建立tfrecords檔案

# 程式碼邏輯

1.讀取圖片檔案
2.讀取csv檔案
3.處理一下讀取好的csv檔案到數字張量
4.寫入tfrecords檔案

1.讀取圖片檔案

1.建立檔案佇列
2.構造閱讀器取讀取檔案內容
3.選擇相應的檔案解碼器取decode
4.要根據驗證碼的尺寸取setshape，因為讀取過來的是一起讀過來的
5.批處理資料

def get_image():
    """
    獲取驗證碼圖片內容
    :return: 批處理
    """ 

    file_name = os.listdir("./yz/train10000")

    # 構造路徑加檔名
    file_list = [os.path.join(FLAGS.captcha_dir, file) for file in file_name]

    # 構造檔案佇列
    file_queue = tf.train.string_input_producer(file_list, shuffle=False)

    # 構造閱讀器
    reader = tf.WholeFileReader()

    # 讀取檔案內容
    key, value = reader. 
read(file_queue)

    # 解碼檔案資料
    image = tf.image.decode_jpeg(value)
    image.set_shape([180, 60, 3])

    # 批處理資料
    image_batch = tf.train.batch([image], batch_size=10318, num_threads=1, capacity=10318)

    return image_batch

2.得到csv檔案

這裡要先說明一下資料集的樣式，他是jegp格式的，每個圖片的檔名就是驗證碼的內容。所以我先讀取了檔名建立了一個csv檔案，在來讀csv

建立csv檔案

import os
import tensorflow as tf

# def get_name():
#     """
#     得到訓練集真實資料的函式
#     :return: a
#     """
print(os.listdir("./genpics/train/"))

a=list()
file_list=os.listdir("./yz/train10000")
with open("./data2.csv","w") as f:
    for i in range(len(file_list)):
       f.write(file_list[i][0:4]+"\n")# a.append()

# print(a)

讀取csv

1.建立檔案佇列
2.建立檔案閱讀器
3.讀檔案
4.解碼decode，注意格式
5.批處理

def get_label():
    """
    獲取驗證碼檔案的標籤資料，其實也就是獲取真實值
    :return: 真實值
    """
    file_queue = tf.train.string_input_producer(["./data2.csv"], shuffle=False)

    reader = tf.TextLineReader()

    key, value = reader.read(file_queue)

    records = [[1], ["None"]]

    key, label = tf.decode_csv(value, record_defaults=records)

    label_batch = tf.train.batch([label], batch_size=10318, num_threads=1, capacity=10318)
    return label_batch

3.處理字串標籤張量

剛才讀取的csv檔案其實就是真實值，但是還是字串，怎麼能去比較呢，所以我們要把他處理成數字的型別，於是乎我們就要建立字典去把他們一一對應起來。

1.建立字元索引
2.鍵值反轉
3.構建標籤列表
4.對標籤列表進行處理

def deal_label(label_str):
    """
    處理字串標籤張量
    """
    # 構建字元索引
    num_letter = dict(enumerate(list(FLAGS.letter)))

    # 鍵值反轉
    letter_num = dict(zip(num_letter.values(), num_letter.keys()))

    # 構建標籤列表
    array = []

    # 對標籤資料進行處理
    for string in label_str:
        letter_list = []

        # 修改編碼方式為”utf-8“，並迴圈找到每張驗證碼字元對應的數字標記
        for letter in string.decode('utf-8'):
            letter_list.append(letter_num[letter])

        array.append(letter_list)

    # 將array轉換成tensor型別
    label = tf.constant(array)

    return label

4.寫tfrecoreds檔案

把處理好的標籤和image存到tfrecords檔案
1.把標籤轉換成tf.uint8型別
2.建立tfrecords儲存器
3.建立一個協議塊，規定格式，注意這裡的寫法
4.寫入，關閉檔案。當然這裡用with更好


def write_to_tfrecords(image_batch, label_batch):
    """
    將圖片內容和標籤寫入tfrecords檔案
    """
    # 轉換型別
    label_batch = tf.cast(label_batch, tf.uint8)

    # 建立tfrecords儲存器
    writer = tf.python_io.TFRecordWriter(FLAGS.tfrecords_dir)

    # 迴圈將圖片上每一個example協議快，序列化後寫入
    for i in range(5000):
        image_string = image_batch[i].eval().tostring()

        label_string = label_batch[i].eval().tostring

        example = tf.train.Example(feature=tf.train.Feature(feature={
            "image": tf.train.Feature(bytes_list=tf.train.BytesList(value=[image_string])),
            "label": tf.train.Feature(bytes_list=tf.train.BytesList(value=[label_string]))
        }))

        writer.write(example.SerializeToString())

    writer.close()

    return None

main函式

def main():
    # 獲取當前的圖片檔案
    image_bacth = get_image()

    # 獲取驗證碼檔案中標籤資料
    label_batch = get_label()

    print(image_bacth, label_batch)

    with tf.Session() as sess:
        coord = tf.train.Coordinator()
        threads = tf.train.start_queue_runners(sess=sess, coord=coord)

        label_str = sess.run(label_batch)

        # 處理字串標籤到數字張量
        babel = deal_label(label_str)

        # 寫入到tfrecords檔案中
        write_to_tfrecords(image_bacth, label_batch)

        coord.request_stop()

        coord.join(threads)

author：[email protected] 歡迎交流

驗證碼識別1---My way of AI 23

寫一個練手的驗證碼識別專案資料集和完整程式碼我會傳到我的下載資源這篇文章是專案第一步，建立tfrecords檔案 # 程式碼邏輯 1.讀取圖片檔案 2.讀取csv檔案 3.處理一下讀取好的csv檔案到數字張量 4.寫入tfrecords檔案 1.讀取圖片檔案 1.建立

MNIST手寫數字識別---My way of AI 19

手寫數字的識別相當於是深度學習的helloworld 首先這是一個流行資料集可以從網路下載，也可以直接import from tensorflow.examples.tutorials.mnist import input_data 學這個簡單的神經網路之前我

卷積神經網路---My way of AI 21

卷積神經網路上一篇文章實現了用全連線層神經網路手寫數字識別，但是全連線層神經網路有一個缺點就是：假設我是32323的RGB圖片，如果我的第一層全連線層是500個節點，那麼我需要的引數就是32323*500+500一共需要150多萬個引數，這樣會導致計算過慢以及

java驗證碼識別--1 收藏

(本文僅用於學習研究影象匹配識別原理，不得用於其他用途。最近看了看驗證碼的識別，先從最簡單的做起吧(固定大小，固定位置，固定字型) 驗證碼識別基本分四步，圖片預處理，分割，訓練，識別看一個最簡單驗證碼這是一個德克薩斯撲克的註冊頁面的驗證碼 1。影象的預處理這種直接

拉普拉斯平滑-My way of ML7.1

樸素貝葉斯演算法有一個問題：某篇文章是娛樂的概率是0這是不合理的，如果詞頻列表中出現很多次數都是0的話，很可能計算結果都是 0. 解決辦法：拉普拉斯平滑 p（Fi|C）=(Ni+alpha)/(N+alpha*m) alpha是指定的係數一般是1，m是訓練文件

python 驗證碼識別：pytesser .image_file_to_string('1.tif') WindowsError: [Error 2] 解決辦法

from pytesser import* image =Image.open('fnord.tif') # Open image object using PIL print image_t

Python3.4 12306 2015年3月驗證碼識別

like target bottom edr ocr extra spl apple creat import ssl import json from PIL import Image import requests import re import urllib.r

驗證碼識別

code threshold 識別 div out style end gray .cn # -*- coding: utf-8 -*- import urllib.request, urllib.parse from PIL import Image from pyt

python之驗證碼識別特征向量提取和余弦相似性比較

wow gif .get extra time ade upd orm log 0.目錄 1.參考2.沒事畫個流程圖3.完整代碼4.改進方向 1.參考 https://en.wikipedia.org/wiki/Cosine_similarity https://zh.wi

linux環境下pytesseract的安裝和央行征信中心的登錄驗證碼識別實戰

int tab 權限 linux a-z 都是提示解釋 text 首先是安裝，我參考的是這個 http://blog.csdn.net/xinghun_4/article/details/47860645 我是centos，使用yum yum install pyt

驗證碼識別（最簡單之印刷體數字）

轉化 end double show ray app def 藍色代碼實現 # -*- coding: utf-8 -*- import numpy from PIL import Image image = Image.open("5.gif") heigh

C#驗證碼識別基礎方法實例分析

renren 幫助流行人工 esp 導致 edi count public 本文實例講述了C#驗證碼識別基礎方法，是非常實用的技巧。分享給大家供大家參考。具體方法分析如下：背景最近有朋友在搞一個東西，已經做的挺不錯了，最後想再完美一點，於是乎就提議把這種驗證碼

深度學習下的驗證碼識別教程

www 2016年復制 egit 關於廣泛效果 yun 概念轉：https://bbs.125.la/thread-14031313-1-1.html 隨著大數據時代，人工智能時代的到來，深度學習的應用越來越廣，場景識別、目標檢測、人臉識別、圖像識別等等廣泛應用。在

python tesseract-ocr 基礎驗證碼識別功能（Windows）

please 沒有 pan eas pin mage 需要 utf 文件夾一、環境　　windows 7 x64 　　Python 3 + 二、安裝　　1、tesseract-ocr安裝　　http://digi.bib.uni-mannheim.

基於SVM的字母驗證碼識別

區域總結 nim 系列 red clust 記錄完成 form 基於SVM的字母驗證碼識別摘要本文研究的問題是包含數字和字母的字符驗證碼的識別。我們采用的是傳統的字符分割識別方法，首先將圖像中的字符分割出來，然後再對單字符進行識別。首先通過圖像的初步去噪、濾波、形態

python 豆瓣驗證碼識別總結

ops hold 成功驗證碼識別濾波 put else 函數直接總結： pytesseract 識別比較標準的圖片識別成功率還是不錯的。驗證碼的圖片識別需要先處理好再用pytesseract 識別 from PIL import Image

驗證碼識別——圖形驗證碼

img tex 下載分享 int class 驗證碼 pre imp 先找了一個簡單的圖形驗證碼進行測試，比如知網，從網頁裏把驗證碼下載到本地進行簡單的灰度處理和二值化處理，能夠提高不少識別正確率驗證碼：　　代碼： 1 import tess

基於TensorFlow的簡單驗證碼識別

mini shu nal array pool 利用 imp 大小寫標註　　TensorFlow 可以用來實現驗證碼識別的過程，這裏識別的驗證碼是圖形驗證碼，首先用標註好的數據來訓練一個模型，然後再用模型來實現這個驗證碼的識別。生成驗證碼　　首先生成驗證碼，這裏使用

驗證碼識別 Tesseract的簡單使用和總結

參數說明 stdout all 令行 github output 一個個其中簡單 Tesseract是什麽 OCR即光學字符識別，是指通過電子設備掃描紙上的打印的字符，然後翻譯成計算機文字的過程。也就是說通過輸入圖片，經過識別引擎，去識別圖片上的文字。Tesseract

基於SVM的python簡單實現驗證碼識別

save def lse highlight pro imp bubuko uac 如果 1. 爬取驗證碼圖片 from urllib import request def download_pics(pic_name): url = ‘http://wsbs

驗證碼識別1---My way of AI 23

寫一個練手的驗證碼識別專案

這篇文章是專案第一步，建立tfrecords檔案

1.讀取圖片檔案

2.得到csv檔案

建立csv檔案

讀取csv

3.處理字串標籤張量

4.寫tfrecoreds檔案

main函式

相關推薦