1. 程式人生 > >阿里AI工程師教你如何用CNN RNN Attention解決大規模文字分類問題

阿里AI工程師教你如何用CNN RNN Attention解決大規模文字分類問題

淘寶商品類目預測

近來做一個應用深度學習解決淘寶商品的類目預測問題的專案,趁此機會總結下文字分類領域特別是應用深度學習解決文字分類的相關的思路、做法和部分實踐的經驗。

1 業務問題描述

淘寶商品的一個典型的例子見下圖,圖中商品的標題是“夏裝雪紡條紋短袖t恤女春半袖衣服夏天中長款大碼胖mm顯瘦上衣夏”。淘寶網後臺是通過樹形的多層的類目體系管理商品的,覆蓋葉子類目數量達上萬個,商品量也是10億量級,我們是任務是根據商品標題預測其所在葉子類目,示例中商品歸屬的類目為“女裝/女士精品>>蕾絲衫/雪紡衫”。很顯然,這是一個非常典型的短文字多分類問題。接下來分別會介紹下文字分類傳統和深度學習的做法,最後簡單梳理下實踐的經驗。

一、傳統文字分類方法

訓練文字分類器過程見下圖:

整個文字分類問題就拆分成了特徵工程和分類器兩部分,玩機器學習的同學對此自然再熟悉不過了

1.1 特徵工程

特徵工程在機器學習中往往是最耗時耗力的,但卻極其的重要。抽象來講,機器學習問題是把資料轉換成資訊再提煉到知識的過程,特徵是“資料-->資訊”的過程,決定了結果的上限,而分類器是“資訊-->知識”的過程,則是去逼近這個上限。然而特徵工程不同於分類器模型,不具備很強的通用性,往往需要結合對特徵任務的理解。

文字分類問題所在的自然語言領域自然也有其特有的特徵處理邏輯,傳統文字分類任務大部分工作也在此處。文字特徵工程分位文字預處理、特徵提取、文字表示三個部分,最終目的是把文字轉換成計算機可理解的格式,並封裝足夠用於分類的資訊,即很強的特徵表達能力。

1)文字預處理

文字預處理過程是在文字中提取關鍵詞表示文字的過程,中文文字處理中主要包括文字分詞和去停用詞兩個階段。之所以進行分詞,是因為很多研究表明特徵粒度為詞粒度遠好於字粒度,其實很好理解,因為大部分分類演算法不考慮詞序資訊,基於字粒度顯然損失了過多“n-gram”資訊。

具體到中文分詞,不同於英文有天然的空格間隔,需要設計複雜的分詞演算法。傳統演算法主要有基於字串匹配的正向/逆向/雙向最大匹配;基於理解的句法和語義分析消歧;基於統計的互資訊/CRF方法。近年來隨著深度學習的應用,WordEmbedding + Bi-LSTM+CRF方法逐漸成為主流,本文重點在文字分類,就不展開了。而停止詞是文字中一些高頻的代詞連詞介詞等對文字分類無意義的詞,通常維護一個停用詞表,特徵提取過程中刪除停用表中出現的詞,本質上屬於特徵選擇的一部分。

經過文字分詞和去停止詞之後淘寶商品示例標題變成了下圖“ / ”分割的一個個關鍵詞的形式:

夏裝 / 雪紡 / 條紋 / 短袖 / t恤 / 女 / 春 / 半袖 / 衣服 / 夏天 / 中長款 / 大碼 / 胖mm / 顯瘦 / 上衣 / 夏

2)文字表示和特徵提取

文字表示:

文字表示的目的是把文字預處理後的轉換成計算機可理解的方式,是決定文字分類質量最重要的部分。傳統做法常用詞袋模型(BOW, Bag Of Words)或向量空間模型(Vector Space Model),最大的不足是忽略文字上下文關係,每個詞之間彼此獨立,並且無法表徵語義資訊。詞袋模型的示例如下:

( 0, 0, 0, 0, .... , 1, ... 0, 0, 0, 0)

一般來說詞庫量至少都是百萬級別,因此詞袋模型有個兩個最大的問題:高緯度、高稀疏性。詞袋模型是向量空間模型的基礎,因此向量空間模型通過特徵項選擇降低維度,通過特徵權重計算增加稠密性。

特徵提取:

向量空間模型的文字表示方法的特徵提取對應特徵項的選擇和特徵權重計算兩部分。特徵選擇的基本思路是根據某個評價指標獨立的對原始特徵項(詞項)進行評分排序,從中選擇得分最高的一些特徵項,過濾掉其餘的特徵項。常用的評價有文件頻率、互資訊、資訊增益、χ⊃2;統計量等。

特徵權重主要是經典的TF-IDF方法及其擴充套件方法,主要思路是一個詞的重要度與在類別內的詞頻成正比,與所有類別出現的次數成反比。

3)基於語義的文字表示

傳統做法在文字表示方面除了向量空間模型,還有基於語義的文字表示方法,比如LDA主題模型、LSI/PLSI概率潛在語義索引等方法,一般認為這些方法得到的文字表示可以認為文件的深層表示,而word embedding文字分散式表示方法則是深度學習方法的重要基礎,下文會展現。

1.2 分類器

分類器基本都是統計分類方法了,基本上大部分機器學習方法都在文字分類領域有所應用,比如樸素貝葉斯分類演算法(Naïve Bayes)、KNN、SVM、最大熵和神經網路等等,傳統分類模型不是本文重點,在這裡就不展開了。

二、深度學習文字分類方法

上文介紹了傳統的文字分類做法,傳統做法主要問題的文字表示是高緯度高稀疏的,特徵表達能力很弱,而且神經網路很不擅長對此類資料的處理;此外需要人工進行特徵工程,成本很高。而深度學習最初在之所以影象和語音取得巨大成功,一個很重要的原因是影象和語音原始資料是連續和稠密的,有區域性相關性,。應用深度學習解決大規模文字分類問題最重要的是解決文字表示,再利用CNN/RNN等網路結構自動獲取特徵表達能力,去掉繁雜的人工特徵工程,端到端的解決問題。接下來會分別介紹:

2.1 文字的分散式表示:詞向量(word embedding)

分散式表示(Distributed Representation)其實Hinton 最早在1986年就提出了,基本思想是將每個詞表達成 n 維稠密、連續的實數向量,與之相對的one-hot encoding向量空間只有一個維度是1,其餘都是0。分散式表示最大的優點是具備非常powerful的特徵表達能力,比如 n 維向量每維 k 個值,可以表徵 個概念。事實上,不管是神經網路的隱層,還是多個潛在變數的概率主題模型,都是應用分散式表示。下圖是03年Bengio在 A Neural Probabilistic Language Model 的網路結構:

http://link.zhihu.com/?target=http%3A//www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf

這篇文章提出的神經網路語言模型(NNLM,Neural Probabilistic Language Model)採用的是文字分散式表示,即每個詞表示為稠密的實數向量。NNLM模型的目標是構建語言模型:

詞的分散式表示即詞向量(word embedding)是訓練語言模型的一個附加產物,即圖中的Matrix C。

儘管Hinton 86年就提出了詞的分散式表示,Bengio 03年便提出了NNLM,詞向量真正火起來是google Mikolov 13年發表的兩篇word2vec的文章 Efficient Estimation of Word Representations in Vector Space (1)和 Distributed Representations of Words and Phrases and their Compositionality (2),更重要的是釋出了簡單好用的word2vec工具包 (3),在語義維度上得到了很好的驗證,極大的推進了文字分析的程序。下圖是文中提出的CBOW 和 Skip-Gram兩個模型的結構,基本類似於NNLM,不同的是模型去掉了非線性隱層,預測目標不同,CBOW是上下文詞預測當前詞,Skip-Gram則相反。

(1)地址:http://link.zhihu.com/?target=http%3A//ttic.uchicago.edu/%7Ehaotang/speech/1301.3781.pdf

(2)地址:http://link.zhihu.com/?target=https%3A//papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf

(3)地址:http://link.zhihu.com/?target=https%3A//code.google.com/archive/p/word2vec/

除此之外,提出了Hierarchical Softmax 和 Negative Sample兩個方法,很好的解決了計算有效性,事實上這兩個方法都沒有嚴格的理論證明,有些trick之處,非常的實用主義。詳細的過程不再闡述了,有興趣深入理解word2vec的,推薦讀讀這篇很不錯的paper:word2vec Parameter Learning Explained。額外多提一點,實際上word2vec學習的向量和真正語義還有差距,更多學到的是具備相似上下文的詞,比如“good”“bad”相似度也很高,反而是文字分類任務輸入有監督的語義能夠學到更好的語義表示,有機會後續系統分享下。

paper地址:http://link.zhihu.com/?target=http%3A//www-personal.umich.edu/%7Eronxin/pdf/w2vexp.pdf

至此,文字的表示通過詞向量的表示方式,把文字資料從高緯度高稀疏的神經網路難處理的方式,變成了類似影象、語音的的連續稠密資料。深度學習演算法本身有很強的資料遷移性,很多之前在影象領域很適用的深度學習演算法比如CNN等也可以很好的遷移到文字領域了,下一小節具體闡述下文字分類領域深度學習的方法。

2.2 深度學習文字分類模型

詞向量解決了文字表示的問題,該部分介紹的文字分類模型則是利用CNN/RNN等深度學習網路及其變體解決自動特徵提取(即特徵表達)的問題。

1)fastText

fastText 是上文提到的 word2vec 作者 Mikolov 轉戰 Facebook 後16年7月剛發表的一篇論文Bag of Tricks for Efficient Text Classification。把 fastText 放在此處並非因為它是文字分類的主流做法,而是它極致簡單,模型圖見下:

地址:http://link.zhihu.com/?target=https%3A//arxiv.org/pdf/1607.01759v2.pdf

原理是把句子中所有的詞向量進行平均(某種意義上可以理解為只有一個avg pooling特殊CNN),然後直接接 softmax 層。其實文章也加入了一些 n-gram 特徵的 trick 來捕獲區域性序列資訊。文章倒沒太多資訊量,算是“水文”吧,帶來的思考是文字分類問題是有一些“線性”問題的部分[from項亮],也就是說不必做過多的非線性轉換、特徵組合即可捕獲很多分類資訊,因此有些任務即便簡單的模型便可以搞定了。

2)TextCNN

本篇文章的題圖選用的就是14年這篇文章提出的TextCNN的結構(見下圖)。fastText 中的網路結果是完全沒有考慮詞序資訊的,而它用的 n-gram 特徵 trick 恰恰說明了區域性序列資訊的重要意義。卷積神經網路(CNN Convolutional Neural Network)最初在影象領域取得了巨大成功,CNN原理就不講了,核心點在於可以捕捉區域性相關性,具體到文字分類任務中可以利用CNN來提取句子中類似 n-gram 的關鍵資訊。

http://link.zhihu.com/?target=http%3A//colah.github.io/posts/2014-07-Understanding-Convolutions/

TextCNN的詳細過程原理圖見下:

TextCNN詳細過程:第一層是圖中最左邊的7乘5的句子矩陣,每行是詞向量,維度=5,這個可以類比為影象中的原始畫素點了。然後經過有 filter_size=(2,3,4) 的一維卷積層,每個filter_size 有兩個輸出 channel。第三層是一個1-max pooling層,這樣不同長度句子經過pooling層之後都能變成定長的表示了,最後接一層全連線的 softmax 層,輸出每個類別的概率。

特徵:這裡的特徵就是詞向量,有靜態(static)和非靜態(non-static)方式。static方式採用比如word2vec預訓練的詞向量,訓練過程不更新詞向量,實質上屬於遷移學習了,特別是資料量比較小的情況下,採用靜態的詞向量往往效果不錯。non-static則是在訓練過程中更新詞向量。推薦的方式是 non-static 中的 fine-tunning方式,它是以預訓練(pre-train)的word2vec向量初始化詞向量,訓練過程中調整詞向量,能加速收斂,當然如果有充足的訓練資料和資源,直接隨機初始化詞向量效果也是可以的。

通道(Channels):影象中可以利用 (R, G, B) 作為不同channel,而文字的輸入的channel通常是不同方式的embedding方式(比如 word2vec或Glove),實踐中也有利用靜態詞向量和fine-tunning詞向量作為不同channel的做法。

一維卷積(conv-1d):影象是二維資料,經過詞向量表達的文字為一維資料,因此在TextCNN卷積用的是一維卷積。一維卷積帶來的問題是需要設計通過不同 filter_size 的 filter 獲取不同寬度的視野。

Pooling層:利用CNN解決文字分類問題的文章還是很多的,比如這篇 A Convolutional Neural Network for Modelling Sentences最有意思的輸入是在 pooling 改成 (dynamic) k-max pooling ,pooling階段保留 k 個最大的資訊,保留了全域性的序列資訊。比如在情感分析場景,舉個例子:

“ 我覺得這個地方景色還不錯,但是人也實在太多了 ”

雖然前半部分體現情感是正向的,全域性文字表達的是偏負面的情感,利用 k-max pooling能夠很好捕捉這類資訊。

http://link.zhihu.com/?target=https%3A//arxiv.org/pdf/1404.2188.pdf

3)TextRNN

儘管TextCNN能夠在很多工裡面能有不錯的表現,但CNN有個最大問題是固定 filter_size 的視野,一方面無法建模更長的序列資訊,另一方面 filter_size 的超參調節也很繁瑣。CNN本質是做文字的特徵表達工作,而自然語言處理中更常用的是遞迴神經網路(RNN, Recurrent Neural Network),能夠更好的表達上下文資訊。具體在文字分類任務中,Bi-directional RNN(實際使用的是雙向LSTM)從某種意義上可以理解為可以捕獲變長且雙向的的 "n-gram" 資訊。

雙向LSTM算是在自然語言處理領域非常一個標配網路了,在序列標註/命名體識別/seq2seq模型等很多場景都有應用,下圖是Bi-LSTM用於分類問題的網路結構原理示意圖,黃色的節點分別是前向和後向RNN的輸出,示例中的是利用最後一個詞的結果直接接全連線層softmax輸出了。

4)TextRNN + Attention

CNN和RNN用在文字分類任務中儘管效果顯著,但都有一個不足的地方就是不夠直觀,可解釋性不好,特別是在分析badcase時候感受尤其深刻。而注意力(Attention)機制是自然語言處理領域一個常用的建模長時間記憶機制,能夠很直觀的給出每個詞對結果的貢獻,基本成了Seq2Seq模型的標配了。實際上文字分類從某種意義上也可以理解為一種特殊的Seq2Seq,所以考慮把Attention機制引入近來,研究了下學術界果然有類似做法。

Attention機制介紹

詳細介紹Attention恐怕需要一小篇文章的篇幅,感興趣的可參考14年這篇paper NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE。

(http://link.zhihu.com/?target=https%3A//arxiv.org/pdf/1409.0473v7.pdf)

以機器翻譯為例簡單介紹下,下圖中 是源語言的一個詞,是目標語言的一個詞,機器翻譯的任務就是給定源序列得到目標序列。翻譯 的過程產生取決於上一個詞 和源語言的詞的表示 的 bi-RNN 模型的表示),而每個詞所佔的權重是不一樣的。比如源語言是中文 “我 / 是 / 中國人” 目標語言 “i / am / Chinese”,翻譯出“Chinese”時候顯然取決於“中國人”,而與“我 / 是”基本無關。下圖公式, 則是翻譯英文第個詞時,中文第 個詞的貢獻,也就是注意力。顯然在翻譯“Chinese”時,“中國人”的注意力值非常大。

Attention的核心point是在翻譯每個目標詞(或 預測商品標題文字所屬類別)所用的上下文是不同的,這樣的考慮顯然是更合理的。

TextRNN + Attention 模型

我們參考了這篇文章 Hierarchical Attention Networks for Document Classification,下圖是模型的網路結構圖,它一方面用層次化的結構保留了文件的結構,另一方面在word-level和sentence-level。淘寶標題場景只需要 word-level 這一層的 Attention 即可。

http://link.zhihu.com/?target=https%3A//www.cs.cmu.edu/%7Ediyiy/docs/naacl16.pdf

加入Attention之後最大的好處自然是能夠直觀的解釋各個句子和詞對分類類別的重要性。

5)TextRCNN(TextRNN + CNN)

我們參考的是中科院15年發表在AAAI上的這篇文章 Recurrent Convolutional Neural Networks for Text Classification 的結構:

利用前向和後向RNN得到每個詞的前向和後向上下文的表示:

這樣詞的表示就變成詞向量和前向後向上下文向量concat起來的形式了,即:

最後再接跟TextCNN相同卷積層,pooling層即可,唯一不同的是卷積層 filter_size = 1就可以了,不再需要更大 filter_size 獲得更大視野,這裡詞的表示也可以只用雙向RNN輸出。

三、一點經驗

理論和實踐之間的Gap往往差異巨大,學術paper更關注的是模型架構設計的新穎性等,更重要的是新的思路;而實踐最重要的是在落地場景的效果,關注的點和方法都不一樣。這部分簡單梳理實際做專案過程中的一點經驗教訓。

模型顯然並不是最重要的:不能否認,好的模型設計對拿到好結果的至關重要,也更是學術關注熱點。但實際使用中,模型的工作量佔的時間其實相對比較少。雖然再第二部分介紹了5種CNN/RNN及其變體的模型,實際中文字分類任務單純用CNN已經足以取得很不錯的結果了,我們的實驗測試RCNN對準確率提升大約1%,並不是十分的顯著。最佳實踐是先用TextCNN模型把整體任務效果除錯到最好,再嘗試改進模型。

理解你的資料:雖然應用深度學習有一個很大的優勢是不再需要繁瑣低效的人工特徵工程,然而如果你只是把他當做一個黑盒,難免會經常懷疑人生。一定要理解你的資料,記住無論傳統方法還是深度學習方法,資料 sense 始終非常重要。要重視 badcase 分析,明白你的資料是否適合,為什麼對為什麼錯。

關注迭代質量 - 記錄和分析你的每次實驗:迭代速度是決定演算法專案成敗的關鍵,學過概率的同學都很容易認同。而演算法專案重要的不只是迭代速度,一定要關注迭代質量。如果你沒有搭建一個快速實驗分析的套路,迭代速度再快也只會替你公司心疼寶貴的計算資源。建議記錄每次實驗,實驗分析至少回答這三個問題:為什麼要實驗?結論是什麼?下一步怎麼實驗?

超參調節:超參調節是各位調參工程師的日常了,推薦一篇文字分類實踐的論文 A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification,裡面貼了一些超參的對比實驗,如果你剛開始啟動文字分析任務,不妨按文章的結果設定超參,怎麼最快的得到超參調節其實是一個非常重要的問題,可以讀讀 蕭瑟的這篇文章 深度學習網路調參技巧 - 知乎專欄

http://link.zhihu.com/?target=https%3A//arxiv.org/pdf/1510.03820.pdf

https://zhuanlan.zhihu.com/p/24720954?utm_source=zhihu&utm_medium=social

一定要用 dropout有兩種情況可以不用:資料量特別小,或者你用了更好的正則方法,比如bn。實際中我們嘗試了不同引數的dropout,最好的還是0.5,所以如果你的計算資源很有限,預設0.5是一個很好的選擇。

fine-tuning 是必選的:上文聊到了,如果只是使用word2vec訓練的詞向量作為特徵表示,我賭你一定會損失很大的效果。

未必一定要 softmax loss: 這取決與你的資料,如果你的任務是多個類別間非互斥,可以試試著訓練多個二分類器,我們調整後準確率還是增加了>1%。

類目不均衡問題:基本是一個在很多場景都驗證過的結論:如果你的loss被一部分類別dominate,對總體而言大多是負向的。建議可以嘗試類似 booststrap 方法調整 loss 中樣本權重方式解決。

避免訓練震盪:預設一定要增加隨機取樣因素儘可能使得資料分佈iid,預設shuffle機制能使得訓練結果更穩定。如果訓練模型仍然很震盪,可以考慮調整學習率或 mini_batch_size。

沒有收斂前不要過早的下結論:玩到最後的才是玩的最好的,特別是一些新的角度的測試,不要輕易否定,至少要等到收斂吧。

轉載自:http://www.sohu.com/a/130492867_642762