論文筆記：Connectionist Temporal Classification: Labelling Unsegmented Sequence

阿新 • • 發佈：2019-01-25

標記未分割的序列資料是現實世界序列學習中普遍存在的問題，並且在一些感知任務中是普遍實用的，例如手寫字型識別，語音識別，手勢識別（gesture recognition）。在感知任務中，帶有噪聲的實值輸入流用一串離散的標籤進行標註。例如字母或者單詞。

當前，圖模型，例如HMM,CRFs和他們的變體是序列標註的主要框架，而這些方法已經被證明對很多問題有用，但他們也有一些缺點：

（1）這些模型通常需要大量與任務相關的專業知識，例如設計HMMs的狀態模型，選擇CRFs的輸入特徵。

（2）模型需要明顯的依賴假設使得推理可行（tractable,即多項式時間內可解）的，例如HMMs的觀察狀態的獨立性假設。

（3）對於標準的HMMs，是生成式的訓練，但是序列標註是判別式的。

迴圈神經網路（RNNs）,不需要任何先驗知識，出了輸入和輸出的表示之外，他們可以進行判別式訓練，他們的內部狀態提供了一個強有力且通用的機制為時間序列建模。另外，他們對於時間和空間的噪聲都是健壯的。

現在，對於序列標註，使用RNNs的方式是讓它結合HMMs構成的混合方法（hybrid approach），混合系統使用HMMs去為長序列結構（long-range sequential structure）的資料進行建模，神經網路提供區域性的分類。HMMs元件可以自動在訓練中切分序列，把網路分類轉換成標籤序列（labelsequences）。由於HMMs本身具有前述的侷限性，混合系統（hybrid systems）未能完全利用RNNs的序列建模的潛能。

貢獻

這篇文章提出了一個用RNNs標記序列資料的新方法，移除了預先分割訓練資料和後處理輸出的必要，模型只用了一個網路結構就能處理序列的所有問題。基本想法是在給定輸入序列的情況下，把網路的輸出作為所有可能標記序列的概率分佈。給定這個分佈，目標函式目標函式就可以直接得到最大概率的正確標記，目標函式是判別式的，所以這個網路可以用標準的反向傳播進行訓練。

Temporal Classification（時間分類）

S是一個服從一個固定分佈DX*Z的訓練樣例集合.輸入空間X=（Rm）*是一個集合所有序列的m維實數值向量.目標空間Z=L*是所有字母L的標記序列的集合。通常，我們把L*作為標記序列或者標籤，每一個S中的樣例由一對（x,z）序列組成.目標序列為z=(z1,z2,…,zU)最多和輸入序列x=(x1,x2,…,xT)一樣長，例如U<=T.因為輸入序列和目標序列通常不是一樣長的，所以沒有任何先驗的方式去對齊。

使用S去訓練一個時間分類器h:X->Z的目的是分類原先未見過的輸入序列，使得一些與任務相關的誤差評估最小。

Label Error Rate

給定一個測試集S’⸦DX*Z, S‘和S集合不相交，定義一個時間分類h的labelerror rate(LER)為平均歸一化編輯距離，編輯距離在S’上的分類和目標進行的。

ED(p,q)是序列p和q的編輯距離，即把p變為q所需要的插入，替換，刪除的最少次數。

最小編輯距離的實現就是一個遞迴，如果讀者不懂，可以自行百度了。

Connectionist Temporal Classification

一個CTC網路有一個softmax輸出層，出了序列的輸出外，還增加了一個額外的輸出單元，最開始激勵的|L|個單元被解釋成在這個時刻對應標籤的觀察概率，激勵的額外的單元是一個空白的觀察概率或者無標籤的觀察概率。這些輸出定義為在給定輸入序列的情況下，所有可能的對齊所有標記序列的方式。標記序列的概率是所有可能對齊方式的概率和。

更正式的講，輸入序列x，長度為T,定義一個RNN，有m個輸入，n個輸出，權重向量w作為一個連續對映Nw：（Rm）->(Rn)T.讓y=Nw(x)為網路的序列輸出，ykt是單元k在時刻t的激勵。Ykt解釋為時刻t標記k的觀察概率，這定義了一個在集合L’T的長度為T的序列分佈，L’=L+{blank}:

L’T的所有元素，我們成為路徑，L‘T是所有路徑的集合，π表示其中的一個路徑。上式隱含的有一個假設，給定網路的內部狀態，網路在不同時刻的輸出是條件獨立的。這就要求輸出層沒有反饋連線到他自身或者網路。

下一步是定義多到一的對映β：L’T->L<=T,L<=T是可能標記的集合。我們簡單的移除所有的空白（blanks）和重複的標籤。

上圖是幀級（Framewise）和CTC網路分類一個語音訊號，陰影線是輸出激勵，對應特定時刻的音素的觀察概率，CTC僅僅預測音素序列（典型的一系列的尖狀物（a series of spikes），用blank分開了，或者沒有預測），幀級網路（framewise network）嘗試和人工分割的邊緣對齊（垂直的線）。幀級網路接收了一個錯誤的對齊邊界，雖然它預測了正確的音素（dh）.當一個音素一直出現並靠近另一個音素時（dcl總是以d結尾），CTC預測的是一個雙尖狀物（a double spike）。標記的選擇可以直接從CTC的輸出進行得到，而幀級網路必須經過後處理（post-processed）才能獲得。

最終，β定義為一個給定序列l屬於L<=T的條件概率，條件概率是所有路徑的概率和。公式如下：

構造分類器

分類器的輸出應該是在給定輸入序列下的最可能的標記輸出，

利用HMMs，我們把尋找這個標記過程記為解碼，但是我們找不到一個通用並且tractable的解碼演算法，下面是兩個近似的演算法，在實踐中給出了良好的結果。

第一個方法是最佳路徑解碼（best path decoding），基於的假設：最可能的路徑會對應最可能表標籤，

最佳路徑解碼非常容易計算，π*僅僅就是每個時間步的最可能輸出的連線。但是它不能保證找到最有可能的標記。

第二種方法是字首查詢解碼（prefix search decoding），通過修改前向後向演算法（forward-backward algorithm），我們可以高效的計算出標記字首的後繼拓展的概率。

如圖，字首查詢解碼字母X,Y.每個節點要麼以“e”結尾，要麼從父節點進行拓展字首，在每個end節點上面的數字是單個標記重點在父節點的概率（The number above an end node is the probability of the single labelling ending at its parent，翻譯得雲裡霧裡，我就直接上原文了，看圖相信就會懂了），在每一次迭代中，對最可能留下字首的拓展進行探索。當有一個標記（這裡是’XY’）比其他標記的概率更大時，搜尋就終止了。

一個訓練的CTC網路的輸出傾向於形成一系列的尖狀物（spikes），尖狀物被預測的blanks分隔開，我們把輸出的序列分為幾部分，這幾個部分可能都是是以一個blank開始和結尾。我們選擇邊界點，這些邊界點的是blank標記的觀察概率超過一個給定的閾值，然後我們對每個部分計算器最可能的標記序列，然後把他們連線起來得到最終的分類。

實踐中，字首搜尋在這個啟發式下工作得很好，通常超過了最佳路徑解碼，但是在有些情況下，效果不佳，例如，當相同的標籤在一個部分邊界的兩側都概率很低（if the same label is
predicted weakly on both sides of a section boundary，這個我也不是很明白，直接上原文）。

網路訓練

目標函式是從最大似然估計的規則中衍生出來的，即最小化log似然估計目標序列。給定目標函式，它的導數和網路輸出有關，因此我們可以通過標準的反向傳播計算權重梯度，網路通過任何基於梯度優化演算法進行訓練，

前向後向演算法

我們需要一個高效的方式去計算每一個標記的條件概率p（l|x）,乍一看，對一個給定標籤的所有路徑求和似乎有些不可能，通常，路徑太多了。

這個問題可以用動態規劃演算法（dynamic programming algorithm）解決，類似於HMMs的前向後向演算法，核心思想是對一個標記的所有路徑求和可以被分解為一個迭代路徑的求和，路徑對應標記的字首，這個迭代過程可以用遞迴的前向和後向變數高效的計算。

對於一些長度為r的序列q,用q1:p表示開始的p個符號，qr-p:r表示最後的p個符號。然後對於一個標記l,定義前向變數αt(s),表示在時刻t,l1:s的概率和。

Αt(s)可以遞迴的用αt-1(s)和αt-1(s-1)進行遞迴計算。

考慮到輸出路徑中海油空白（blanks），我們在每一對標籤之間插入了空白，在開始和末尾也加入了空白，這樣我們用l‘表示這個新的標記，l’的長度就為2|l|+1’.在計算l’字首的概率中，我們允許空白和非空白標籤之間轉移，我們允許所有的字首要麼以一個空白（b）開始，要麼是l(l1)的第一個標籤開始.

公式如下：

加這個條件是因為這些變數對應的狀態沒有留下足夠的時間步去完成這個序列，如下圖右上角未連線的圓圈：

前向後向演算法運用到標記‘CAT’序列的例子，黑圈代表標籤（labels），白圈代表空白。箭頭代表允許的轉移。前向變數王箭頭方向進行跟新，後向變數往箭頭的反方向更新。

L的概率是l’所有概率的求和，並且去除了T時刻的最後的blank得到的。

同樣，後向變數βt(s)是t時刻ls:|s|的概率和，

實際上，上面的遞迴將會迅速導致任何電腦的下溢，因此，我們需要變換一下。用α^代替α，用β^代替β

為了評估最大似然誤差，我們需要用到自然對數。

極大似然訓練（一大波公式來襲，不過按照它的推導也很容易）

訓練的目標是同時最大化訓練集上所有正確分類的log概率，意味著優化下式：

為了用梯度下降訓練網路，我們需要就網路輸出進行微分（differentiate），訓練樣例是獨立地，我們可以單獨來考慮

我們可以用前向後向演算法計算上式。主要思想是：對於一個標記l,在給定s和t的情況下，前向和後向變數的內積是對應l所有可能路徑的概率。表示式為：

論文筆記：Connectionist Temporal Classification: Labelling Unsegmented Sequence

標記未分割的序列資料是現實世界序列學習中普遍存在的問題，並且在一些感知任務中是普遍實用的，例如手寫字型識別，語音識別，手勢識別（gesture recognition）。在感知任務中，帶有噪聲的實值輸入流用一串離散的標籤進行標註。例如字母或者單詞。當前，圖模型，例如HMM,CRFs和他們的變體是序列標註

論文筆記：Histology Image Classification using Supervised Classification and Multimodal Fusion

該部落格由EMMA原創，隨意轉載，部落格原連結 Histology Image Classification using Supervised Classification and Multimodal Fusion 原文連結：paper 出處

教程：Connectionist Temporal Classification詳解補充

感想 CTC的想法很難懂，尤其是對前向後向演算法不熟的人，然後再網上發現了一篇很好的教程，我把它翻譯了下來，裡面有大量的例子，專注於原理的講解，非常透徹，不像CTC的原論文，那樣全面冗長，希望也能幫助大家理解。我在五六月份找過其它中文資料，發現原理詳解的很少，我特地彌補

CTC（Connectionist Temporal Classification）論文筆記

1. 思想序列學習任務需要從未分割的輸入資料中預測序列的結果。HMM模型與CRF模型是序列標籤任務中主要使用的框架，這些方法對於許多問題已經獲得了較好的效果，但是它們也有缺點：（1）需要大量任務相關的知識，例如，HMM中的狀態模型，CRF中的輸入特徵選擇；（2）需要有獨立性假設

論文筆記：Residual Attention Network for Image Classification

前言深度學習中的Attention，源自於人腦的注意力機制，當人的大腦接受到外部資訊，如視覺資訊、聽覺資訊時，往往不會對全部資訊進行處理和理解，而只會將注意力集中在部分顯著或者感興趣的資訊上，這樣有助於濾除不重要的資訊，而提升資訊處理的效率。最早將A

論文筆記：SGM: Sequence Generation Model for Multi-label Classification

感想這篇文章是我在參加DeeCamp 2018課程的時候，發現的，當時原作者還只是研一，就中了一篇CCF B類的Best paper，這篇文章的工作跟我的工作非常的像，不過我沒作者做得多，所以我發的論文的檔次沒他的高，anyway，我也學習一下，找一下靈感，模型的程式碼用

論文筆記：目標追蹤-CVPR2014-Adaptive Color Attributes for Real-time Visual Tracking

exploit orm dom ons tail red 最好早期形式化基於自適應顏色屬性的目標追蹤 Adaptive Color Attributes for Real-Time Visual Tracking 基於自適應顏色屬性的實時視覺追蹤 3月講的第一

論文筆記：Fast(er) RCNN

這也物體檢測因此 sele 疑惑修正 width 輸入重點在 RCNN 初步試水取得成功後，研究人員又迅速跟進，針對 RCNN 中的幾點不足提出改進，接連推出了 fast-rcnn 和 faster-rcnn。關於這兩篇論文，網上相關的文章實在是多如牛毛，因此，本

論文筆記：時間序列分析

論文筆記：Causal Inference on EventSequences 論文綜述解決的問題：兩個不同的序列xn與yn，是否能斷定他們相互關聯，或者說存在因果關係。依託的主要知識：概率論名詞解釋：格蘭傑因果關係 Granger c

論文筆記：Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

感想最近深度學習面試的時候，有個面試官問了我LSTM，我一下子傻眼了，確實不怎麼好懂，學LSTM已經有半年的時間了，但是對這個玩意兒卻還不怎麼明白，可能是沒用過它的緣故吧，我找了一篇它和GRU比較的論文，這篇論文沒有從理論上證明哪個模型的好壞，只是從實驗，應用場景的角度發現GRU在一些場景比LST

論文筆記：Interpret Neural Networks by Identifying Critical Data Routing Paths

這是一篇做可解釋性AI的文章，文章的主要內容就是提出了一種新的資料表示分析方法，在此之上做了一些分析工作。 Abstract：大概就是說定義了一個叫CDRPs（可分離路徑），這是文章的主要內容。 Introduction：大多的視覺化分析方法多是定性的，沒法定量分

CTC 白話CTC(connectionist temporal classification)演算法講解

轉自：https://blog.csdn.net/luodongri/article/details/77005948 白話CTC(connectionist temporal classification)演算法講解 2017年08月09日 17:24:21

論文閱讀筆記：《Contextual String Embeddings for Sequence Labeling》

文章引起我關注的主要原因是在CoNLL03 NER的F1值超過BERT達到了93.09左右，名副其實的state-of-art。考慮到BERT訓練的資料量和引數量都極大，而該文方法只用一個GPU訓了一週，就達到了state-of-art效果，值得花時間看看。一句話總結：使用BiLSTM模型，用動態embe

深度學習基礎--loss與啟用函式--CTC（Connectionist temporal classification）的loss

CTC（Connectionist temporal classification）的loss 用在online sequence。由於需要在分類結果中新增一個{no gesture}的類別，如果用在segmented video的分類時，需要去掉這類（因為視訊總屬於某個類）。

深度學習論文筆記：Deep Residual Networks with Dynamically Weighted Wavelet Coefficients for Fault Diagnosis of Planetary Gearboxes

這篇文章將深度學習演算法應用於機械故障診斷，採用了“小波包分解+深度殘差網路(ResNet)”的思路，將機械振動訊號按照故障型別進行分類。文章的核心創新點：複雜旋轉機械系統的振動訊號包含著很多不同頻率的衝擊和振盪成分，而且不同頻帶內的振動成分在故障診斷中的重要程度經常是不同的，因此可以按照如下步驟設計深度

論文筆記：Connectionist Temporal Classification: Labelling Unsegmented Sequence

貢獻

Temporal Classification（時間分類）

Label Error Rate

Connectionist Temporal Classification

構造分類器

網路訓練

前向後向演算法

極大似然訓練（一大波公式來襲，不過按照它的推導也很容易）

論文筆記：Connectionist Temporal Classification: Labelling Unsegmented Sequence

論文筆記：Histology Image Classification using Supervised Classification and Multimodal Fusion

教程：Connectionist Temporal Classification詳解補充

CTC（Connectionist Temporal Classification）論文筆記

論文筆記：Residual Attention Network for Image Classification

論文筆記：SGM: Sequence Generation Model for Multi-label Classification

論文筆記：目標追蹤-CVPR2014-Adaptive Color Attributes for Real-time Visual Tracking

論文筆記：Fast(er) RCNN

論文筆記：時間序列分析

論文筆記：Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

論文筆記：Interpret Neural Networks by Identifying Critical Data Routing Paths

CTC 白話CTC(connectionist temporal classification)演算法講解

論文閱讀筆記：《Contextual String Embeddings for Sequence Labeling》

深度學習基礎--loss與啟用函式--CTC（Connectionist temporal classification）的loss

深度學習論文筆記：Deep Residual Networks with Dynamically Weighted Wavelet Coefficients for Fault Diagnosis of Planetary Gearboxes

論文筆記：Deep Attentive Tracking via Reciprocative Learning

Connectionist Temporal Classification(CTC)、音識別模型小型綜述和一個簡易的語音識別模型的tensorflow實現

論文筆記：Visual Object Tracking based on Adaptive Siamese and Motion Estimation Network

論文筆記：2018 PRCV 頂會頂刊牆展

論文筆記：Learning Region Features for Object Detection

論文筆記：Connectionist Temporal Classification: Labelling Unsegmented Sequence

貢獻

Temporal Classification（時間分類）

Label Error Rate

Connectionist Temporal Classification

構造分類器

網路訓練

前向後向演算法

極大似然訓練（一大波公式來襲，不過按照它的推導 也很容易）

相關推薦

極大似然訓練（一大波公式來襲，不過按照它的推導也很容易）