TensorFlow學習記錄-- 6.百度warp-ctc 引數以及測試例子2解釋

阿新 • • 發佈：2018-12-30

1 百度CTC

2 CTC詳解

總的來說就是想不對齊標籤，來設計一個loss，通過最小化這個loss，可以得到精確的識別效果(即最後還能在不對齊標籤的情況下解碼出來)，在語音識別方面效果和優勢明顯。
未完待續

3 解讀百度warp-ctc引數以及例子

1 ctc函式

ctc(activations, flat_labels, label_lengths, input_lengths, blank_label=0)
    Computes the CTC loss between a sequence of activations and a
    ground truth labeling.

    Args:

        activations: A 3 
-D Tensor of floats.  The dimensions
                     should be (t, n, a), where t is the time index, n
                     is the minibatch index, and a indexes over
                     activations for each symbol in the alphabet.
        #這個相當於logits吧（rnn預測的輸出）：在tensorflow中，相當於第一個是時間序列t，第二個為batch n，第三個為輸入資料的維度a，一樣的 

        flat_labels: A 1-D Tensor of ints, a concatenation of all the
                     labels for the minibatch.
        #labels是1-D的tensor，例如，對於倆個輸入資料，他的label分別為1,2，那麼1-D的label就可以記為[1,2],這是一個batch的，假如多個batch，也要把多個batch打平，假如倆個batch的label都為1,2，那麼倆個batch的label應該寫作[1,2,1,2]。
        label_lengths: A 1 
-D Tensor of ints, the length of each label
                       for each example in the minibatch.
        #這個是每個minibatch中每個例子的每個label的長度，可能是因為所有label都連在一起了，不告訴label的長度就無法區分了吧？
        input_lengths: A 1-D Tensor of ints, the number of time steps
                       for each sequence in the minibatch.
        #上面這個是輸入長度，這是每個minibatch的每個序列的時間嗎？
        blank_label: int, the label value/index that the CTC
                     calculation should use as the blank label
    #返回每個minibatch每個例子？的cost。
    Returns:
        1-D float Tensor, the cost of each example in the minibatch
        (as negative log probabilities).

    * This class performs the softmax operation internally.

    * The label reserved for the blank symbol should be label 0.

2 基礎測試 _test_basic輸入解讀

        #開始activations維度為(2,5)
         activations = np.array([
            [0.1, 0.6, 0.1, 0.1, 0.1],
            [0.1, 0.1, 0.6, 0.1, 0.1]
            ], dtype=np.float32)

        alphabet_size = 5
        # dimensions should be t, n, p: (t timesteps, n minibatches,
        # p prob of each alphabet). This is one instance, so expand
        # dimensions in the middle
        #現在activations維度為(2,1,5)，對應為(t,batch_size,dims)
        activations = np.expand_dims(activations, 1)
        #label
        labels = np.asarray([1, 2], dtype=np.int32)
        #每個minibatch中每個例子的每個label的長度
        label_lengths = np.asarray([2], dtype=np.int32)
        #輸入的時間序列長度
        input_lengths = np.asarray([2], dtype=np.int32)

3 多batch測試輸入解讀

        #開始activations維度為(2,5)
        activations = np.array([
            [0.1, 0.6, 0.1, 0.1, 0.1],
            [0.1, 0.1, 0.6, 0.1, 0.1]
        ], dtype=np.float32)

        alphabet_size = 5
        # dimensions should be t, n, p: (t timesteps, n minibatches,
        # p prob of each alphabet). This is one instance, so expand
        # dimensions in the middle
        #現在activations維度為(2,1,5)，對應為(t,batch_size,dims)
        _activations = np.expand_dims(activations, 1)
        #現在activations維度為(2,2,5)，對應為(t,batch_size,dims)
        activations = np.concatenate([_activations, _activations[...]], axis=1)
        #flat labels
        labels = np.asarray([1, 2, 1, 2], dtype=np.int32)
        #每個minibatch中每個例子的每個label的長度，然後再組合起來
        label_lengths = np.asarray([2, 2], dtype=np.int32)
        #輸入的時間序列長度，然後也再組合起來
        input_lengths = np.asarray([2, 2], dtype=np.int32)

TensorFlow學習記錄-- 6.百度warp-ctc 引數以及測試例子2解釋

1 百度CTC 2 CTC詳解總的來說就是想不對齊標籤，來設計一個loss，通過最小化這個loss，可以得到精確的識別效果(即最後還能在不對齊標籤的情況下解碼出來)，在語音識別方面效果和優勢明顯。未完待續 3 解讀百度warp-ctc引數

TensorFlow學習筆記6——《面向機器智慧的TensorFlow實踐》StanfordDog例程修改記錄

《面向機器智慧的TensorFlow實踐》深入淺出，將tensorflow的很多概念講的很清楚，很適合tensorflow的初學者學習。該書完整的程式碼在https://github.com

linux學習記錄.6.vscode調試c makefile

void 打開 lin out () tasks pick oid touch 參考 https://www.cnblogs.com/lidabo/p/5888997.html task有更新，不能使用文章的代碼。多文件終端 touch main.c hw.c hw.

快來學習怎麼提高百度收錄率

【芝麻代理】做新媒體運營經常遇到的問題是，我的網站每天都發布新文章，被百度收錄的文章卻很少，不知道是什麼原因，如何讓我釋出的文章被百度收錄？就此問題，個人總結了如下十一條經驗：一、檢查網站結構是否合理，模板是否被同行用的較多，如果是，必須重新設計模板和調整網站結構。二、檢視文章是

Android學習筆記之百度地圖（駕車路線搜尋及RouteOverlay步行路線搜尋及RouteOverlay）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

PS學習記錄6--html5 canvas+js實現ps鋼筆摳圖

html5 canvas+js實現ps鋼筆摳圖 1. 專案要求需要用js實現photoshop中鋼筆摳圖功能，就用了近三四天的時間去解決它，最終還是基本上把他實現了。做的過程中走了不少彎路，最終一同事找到了canvans以比較核心的屬性globalCo

tensorflow學習（6）：CNN必備函式tf.nn.conv2d和tf.nn.max_pool

一、卷積函式tf.nn.conv2d tf.nn.conv2d( input, filter, strides, padding, use_cudnn_on_gpu=None, name=None) 除去name引數用以指定該操作的name，與方法有關的一共五個引數：第一個引數in

TensorFlow學習指南6：詞向量

word2vec # -*- coding: utf-8 -*- """ Created on Thu Dec 29 00:39:23 2016 @author: tomhope """ import os import math import numpy as np i

TensorFlow學習筆記(6) TensorFlow最佳實踐樣例程式

在第三篇中編寫了一個程式來解決MNIST問題，這是一個沒有持久化訓練好的模型。當程式退出時，訓練好的模型就再也無法使用了，這導致得到的模型無法被重用。結合變數管理機制及模型持久化機制，對該程式進行進一步的優化重構。優化重構之後的程式分為三個：第一個是mnist_inference.py，定義前

Android學習筆記之百度地圖（周邊檢索poiSearchNearBy跳轉頁面並輸出搜尋結果）

package xiaosi.baiduMap;import android.app.AlertDialog;import android.content.DialogInterface;import android.os.Bundle;import com.baidu.map

win10+python3.6+百度AI——實現人臉識別

一、說明近來半個月的時間沉迷於python不能自拔，不是初學，而是好久沒有寫程式了。在此記錄pycharm建立Django專案基於百度AI實現的人臉檢測。該專案參考了知乎的一篇文章，詳情點選這裡，原文是在Linux環境下搭建的，用了Anaconda作為python的解析器，個人對Anacond

tensorflow(四)caffe-tensorflow學習記錄

按照Lenet裡面的例子進行模型和網路的轉換： LeNet Example Thanks to @Russell91 for this example This example showns you how to finetune code from

Asp.net學習記錄6--Textbox的自動完成、自動補充功能呢

類似百度、Google中搜索框自動提示的功能需要微軟的ajaxToolkit開源工具包解壓編譯後，在該目錄的SampleWebSite\Bin中將AjaxControlToolkit的dll和pdb檔案拷出，並引用到你的專案中。在工具欄中將其引用，呼叫AutoCom

【ASP.NET】6.百度富文字編輯器UEditor之從資料庫中取出來頁面展示

將資料存到資料庫中了，那麼怎麼讓資料原樣顯示到編輯器裡呢？讀取資料庫裡一條資料，獲取到的資料是這樣的：<p style="text-align:center;"> <img src="/LJWY/MGMT/attached/image/2016-1

初探機器學習之使用百度AI服務實現圖片識別與相似圖片

一、百度雲AI服務　　最近在調研一些雲服務平臺的AI（人工智慧）服務，瞭解了一下阿里雲、騰訊雲和百度雲。其中，百度雲提供了影象識別及影象搜尋，而且還細分地提供了相似圖片這項服務，比較符合我的需求，且百度雲提供了每日10000次入庫和500次檢索的免費次數，使得我可以更快地試用，且沒有任何花費。更為重要的是

tensorflow學習記錄-flag設定

tf定義了tf.app.flags，用於支援接受命令列傳遞引數，相當於接受argvimport tensorflow as tfflags = tf.flags #flags是一個檔案：flags.py，用於處理命令列引數的解析工作#第一個是引數名稱，第二個引數是預設值，第三個是引數描述flags.DEFIN

C++學習記錄6--srand(time(NULL)產生隨機數

time() 函式：返回從1970/1/1 00：00：00到呼叫time()函式時所經過的時間，以秒為單位，所以是個整數。time(NULL)或time(0)表示在記憶體中不儲存返回的數值。標頭檔案:#include<time.h> rand()

tensorflow學習記錄（一）：在windows下的安裝

接觸了caffe之後，想學習一下tensorflow，兩者結合使用。在幾天之前，Tensorflow官方出了0.12RC版本，改版本支援在windows下的pip一鍵安裝。我們可以通過安裝Python3.5和pip或者用Anaconda 3進行安裝。

Tensorflow學習記錄10--VGG網路

1 VGG網路總結感覺就是再alex-net的基礎上，研究了下如何加深網路來提高效能的。總體上也是五層卷積加上三層全連結，但是這五層卷積中都會以pooling來分割，且五層卷積嘗試疊加多層卷積再一起，並且嘗試以更小的核以及提高核的數量來提高網路的效能，比

TensorFlow學習記錄-- ７.TensorFlow高效讀取資料之tfrecord詳細解讀

一 why tfrecord? 對於資料量較小而言，可能一般選擇直接將資料載入進記憶體，然後再分batch輸入網路進行訓練（tip:使用這種方法時，結合yield 使用更為簡潔，大家自己嘗試一下吧，我就不贅述了）。但是，如果資料量較大，這樣的方法就不適用了，因

TensorFlow學習記錄-- 6.百度warp-ctc 引數以及測試例子2解釋

1 百度CTC

2 CTC詳解

3 解讀百度warp-ctc引數以及例子

1 ctc函式

2 基礎測試 _test_basic輸入解讀

3 多batch測試 輸入解讀

相關推薦

3 多batch測試輸入解讀