論文筆記：SGM: Sequence Generation Model for Multi-label Classification

阿新 • • 發佈：2019-02-10

感想

這篇文章是我在參加DeeCamp 2018課程的時候，發現的，當時原作者還只是研一，就中了一篇CCF B類的Best paper，這篇文章的工作跟我的工作非常的像，不過我沒作者做得多，所以我發的論文的檔次沒他的高，anyway，我也學習一下，找一下靈感，模型的程式碼用pytorch寫的，地址為：https://github.com/lancopku/SGM

1. 介紹

多標籤分類（MLC，Multi-label classification）在NLP領域是一個很重要的任務，它可以被用於許多真實世界場景中，例如文字分類，標籤推薦 (tag recommendation)，資訊檢索等等。MLC任務的目標就是為資料集中的每個例項指派許多的標籤。

二元關係（Binary relevance, BR）是解決MLC任務的最早嘗試之一，它把MLC任務轉換成許多個單標籤分類的問題。可是，這種方法忽略了標籤之間的相互關係。Read等人提出了分類器鏈（CC，Classifier chains）方法，它把MLC任務變成了二分類問題鏈，用來對標籤（labels）之間的相關關係建模。但是，這種方法在大資料集上計算代價非常昂貴。其他的方法，例如ML-DT，Rank-SVM和ML-KNN僅僅可以用於捕獲標籤的一階和二階關係，或者他們在高階標籤相關關係上的計算代價是非常的昂貴的。

在最近幾年，神經網路在NLP領域取得了巨大的成功，一些神經網路也應用到了MLC任務重，並且取得了巨大的進步。例如，Zhang和Zhou等人就利用了帶有成對排序損失函式的全連線神經網路。Kurata等人使用CNN和RNN來捕獲文字中的語義資訊。可是，他們要麼忽略了標籤之間的相關關係，要麼沒有考慮到文字內容對預測標籤的貢獻差異。

在本文中，受機器翻譯，抽象摘要（abstractive summarization），風格遷移和其他領域中的sequence-to-sequence模型的巨大成功，我們提出了一個新的序列生成模型，這個模型用一個新的解碼器結果來解決MLC任務。我們提出的序列生成模型包含encoder和注意力機制的decoder。Decoder使用一個LSTM來序列化的產生標籤，並且基於已經預測的標籤來產生下一個標籤。因此，這個模型可以通過LSTM結構考慮到label之間的相關關係。此外，注意力機制考慮到了文字中不同部分對預測的貢獻。此外，我們提出帶有全域性嵌嵌入（global embedding）的解碼結構，通過融合整體的資訊訊號，來提升模型的整體效能。

2. 貢獻

這篇論文的貢獻列舉如下：

我們提出把MLC任務變為一個序列生成問題，用以把label的相關關係考慮在內。
我們提出帶有一個新的decoder結構的序列生成模型，這不僅能夠捕獲標籤之間的相關關係，而且在預測的時候自動選擇最有資訊量的單詞。
拓展實驗結果顯示我們的方法超過了baseline方法很多。進一步的分析證明我們提出方法在相互關係表示上的有效性。

3. 提出的方法

3.1概覽

首先，我們定義一些符號了並且描述MLC任務。給定有L個labels的label空間L={l1,l2,…,lL}，還有一個有m個單詞的文字序列x，MLC的任務是把一個在label空間L中含有n個標籤的子集合y指派給x。和傳統的單標籤分類不一樣，單標籤分類一次只給每個樣本一個標籤，而MLC任務中每個樣本有多個標籤。從序列生成的角度，MLC的任務就是尋找一個最優的標籤序列y*,來最大化條件概率p(y|x)，計算如下：

模型的概覽如下圖1。首先，我們把每個樣本的標籤序列根據標籤在訓練集中的頻率進行排序，高頻的標籤放在前面。另外，bos符號加入到了標籤序列的開頭，eos符號加入到了標籤序列的末尾。

文字序列x被編碼到了隱藏狀態，然後通過t時刻的注意力機制融合成一個上下文向量（context vector）ct. decoder 利用環境響亮ct,decoder上一個隱藏狀態st-1以及嵌入向量g(yt-1)當成輸入，用來產生t時刻的隱藏狀態st。這裡yt-1是預測的在標籤空間L 上的概率分佈。函式g把yt-1當作輸入，產生嵌入向量（embedding vector），隨後傳遞到decoder。最後，我們利用masked softmax層來輸出條件概率分佈yt。

3.2 序列產生

3.2.1 Encoder

令(w1,w2,…wm)為m個單詞的序列，wi是第i個單詞的one-hot表示。我們首先通過一個嵌入矩陣（embedding matrix）E∈Rk×|ν|把wi嵌入成一個稠密的嵌入向量xi，|v|是詞彙表的大小，k是嵌入向量的維度。

我們使用一個bidirectional LSTM從兩個方向上來讀取文字序列x，並且計算每個單詞的隱藏狀態：

我們通過連線兩個方向上的隱藏狀態來得到第i個單詞的最終隱藏狀態，

這使得狀態具有以第i個單詞為中心的序列資訊。

3.2.2 Attention

當模型預測不同的標籤的時候，並不是所有的單詞貢獻相同。通過關注不同比例的文字序列，聚合有資訊量的單詞的隱藏表示，注意力機制會產生一個上下文向量（context vector）。特別地，注意力機制會把權重αti在第t時刻指派給第i個單詞：

為了簡單起見，這篇文章中所有的偏置項都省去了。最終的上下文向量ct，在decoder中第t時刻計算如下：

3.2.3 Decoder

Decoder在第t時刻的隱藏狀態計算如下：

其中

的意思是g(yt-1)和ct-1的連線。g(yt-1)是標籤的嵌入，這裡的標籤指的是在yt-1分佈下的最高概率對應的標籤。yt-1是在t-1時刻在標籤空間L上的概率分佈，計算如下：

其中W，V都為權重引數，It∈RL是mask向量，這用於防止decoder預測重複的標籤，f是非線性激勵函式。

在訓練階段，損失函式是cross-entropy loss function。我們利用beam search演算法在inference的時候來找top-ranked預測。以eos結尾的預測路徑加入到了候選路徑集合。

3.3 Global Embedding

g(yt-1)是label的嵌入，這個label是在yt-1分佈下的最高概率所對應標籤得來的。可是，這個計算只是貪心的利用了yt-1的最大值。我們提出的模型序列化的產生標籤，基於先前預測的標籤來產生下一個標籤。因此，可能我們在第t時刻得到了錯誤的預測，然後我們就會在預測下一個標籤的時候得到了一個錯誤的後繼標籤，這也叫做exposure bias。從一定程度上，beam search演算法緩解了這個問題。但是它不能從根本上解決這個問題，因為exposure bias可能會出現在所有的路徑上。yt-1表示在t-1時刻的概率分佈，很顯然yt-1中的所有資訊對我們在第t時刻預測標籤是有幫助的。通過考慮所有包含在yt-1中的有效訊號，exposure bias問題應該會得到緩解。

基於這個動機，我們提出了一個新的decoder結構，其中在t時刻中的g(yt-1)可以表示第t-1時刻的整體資訊。受highway network中adaptive gate的想法的啟發，這裡我們引入我們的global embedding。令e表示在yt-1分佈下具有最高概率的嵌入標籤，e為時刻t上的帶權平均嵌入。計算如下：

其中H是transform gate，用於控制帶權平均嵌入的比例。所有的W為權重矩陣。通過考慮每一個label的概率，模型可以減少先前時間步帶來的錯誤預測的損失。這使得模型預測得更加準確。

Experiments

資料集

Reuters Corpus Volume I (RCV1-V2) :資料集包含800 000手工分類的新聞專線的故事（newswire stories），Reuters Ltd專門為學術目的製作的資料集。每個新聞專線的故事（newswire stories）可以指派多個話題，總共有103個話題。

Arxiv Academic Paper Dataset (AAPD) ：我們為多標籤分類建立了一個新的大資料集，我們收集了電腦科學領域內55 840篇學術論文的摘要和主題。一篇學術論文有多個主題，總共有54個主題。目標是根據摘要的內容來預測學術論文對應的主題。

兩個資料集的統計結果如下：

評估指標

Hamming-loss ：評估誤分類的instance-label對（相關的label沒有預測到或者預測出了不相關的標籤）的比例。

Micro-F1 ：可以被解釋為precision和recall的帶權平均。可以由true positives， false negatives和false positives計算得出。

細節

我們從訓練集中提出詞彙表。對於RCV1-12資料集，詞彙表的大小為50 000，out-of-vocabulary (OOV)的單詞用unk進行了代替。每一個文件長度被裁減為500，inference階段的beam size是5. 此外，word embedding的大小是512， encoder和decoder的隱藏單元的大小分別是256和512。Encoder和decoder的LSTM的層數是2.

對於AAPD資料集，word embedding大小為256，encoder有兩層LSTM，大小為256. Decoder有一層LSTM，大小為512. 詞典的大小為30 000，oov單詞也用unk進行代替。每個文件的長度為500，inference階段的beam size的大小為9.

使用了adam優化器，dropout等等。最終選擇在驗證集上有最佳micro-F1得分的用於在測試階段的評估。

Results

分析與討論

Global Embedding的探索

在decoder上使用不同的

論文筆記：SGM: Sequence Generation Model for Multi-label Classification

感想這篇文章是我在參加DeeCamp 2018課程的時候，發現的，當時原作者還只是研一，就中了一篇CCF B類的Best paper，這篇文章的工作跟我的工作非常的像，不過我沒作者做得多，所以我發的論文的檔次沒他的高，anyway，我也學習一下，找一下靈感，模型的程式碼用

[Coling2018]SGM: Sequence Geneatin Model for Multi-Label Classificatin

這篇文章是Coling2018年的best paper, 因為之前解決multi-label問題都是用分類的方法，本文提供了一種新思路，用生成的方式解決該問題。覺得還是挺新穎的，記錄一下。一：任務介紹 Multi-label classification(ML

論文閱讀筆記：《Contextual String Embeddings for Sequence Labeling》

文章引起我關注的主要原因是在CoNLL03 NER的F1值超過BERT達到了93.09左右，名副其實的state-of-art。考慮到BERT訓練的資料量和引數量都極大，而該文方法只用一個GPU訓了一週，就達到了state-of-art效果，值得花時間看看。一句話總結：使用BiLSTM模型，用動態embe

論文筆記：An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application

1.歷史方法 1）基於字元的DCNN,比如photoOCR.單個字元的檢測與識別。要求單個字元的檢測器效能很強，crop的足夠好。 2）直接對圖片進行分類。9萬個單詞，組合成無數的單詞，無法直接應用 3）RNN,訓練和測試均不需要每個字元的位置。但是需要預處理，從圖片得到特

論文筆記：DRAW: A Recurrent Neural Network For Image Generation

DRAW: A Recurrent Neural Network For Image Generation 2019-01-14 19:42:50 Paper：http://proceedings.mlr.press/v37/gregor15.pdf 本文將 V

論文筆記：Self-critical Sequence Training for Image Captioning

引言現在image caption主要存在的問題有： exposure bias：模型訓練的時候用的是叫“Teacher-Forcing”的方式：輸入RNN的上一時刻的單詞是來自訓練集的ground-truth單詞。而在測試的時候依賴的是自己

論文筆記：目標追蹤-CVPR2014-Adaptive Color Attributes for Real-time Visual Tracking

exploit orm dom ons tail red 最好早期形式化基於自適應顏色屬性的目標追蹤 Adaptive Color Attributes for Real-Time Visual Tracking 基於自適應顏色屬性的實時視覺追蹤 3月講的第一

論文筆記：Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

感想最近深度學習面試的時候，有個面試官問了我LSTM，我一下子傻眼了，確實不怎麼好懂，學LSTM已經有半年的時間了，但是對這個玩意兒卻還不怎麼明白，可能是沒用過它的緣故吧，我找了一篇它和GRU比較的論文，這篇論文沒有從理論上證明哪個模型的好壞，只是從實驗，應用場景的角度發現GRU在一些場景比LST

深度學習論文筆記：Deep Residual Networks with Dynamically Weighted Wavelet Coefficients for Fault Diagnosis of Planetary Gearboxes

這篇文章將深度學習演算法應用於機械故障診斷，採用了“小波包分解+深度殘差網路(ResNet)”的思路，將機械振動訊號按照故障型別進行分類。文章的核心創新點：複雜旋轉機械系統的振動訊號包含著很多不同頻率的衝擊和振盪成分，而且不同頻帶內的振動成分在故障診斷中的重要程度經常是不同的，因此可以按照如下步驟設計深度

論文筆記：SGM: Sequence Generation Model for Multi-label Classification

感想

1. 介紹

2. 貢獻

3. 提出的方法

3.1概覽