Effective Use ofWord Order for Text Categorization with Convolutional Neural Networks(閱讀理解)
一篇公開在2014年的文章,從現在的角度來看這篇文章的話,我們發現作者提出的方法很難算是主流方法,但在當時也有一定的啟發意義。這裡我們就簡單介紹一下這篇文章。
本文提出了將CNN直接應用於高維度的文字資料上,為我們提供了兩者CNN網路
Seq-CNN
As a running toy example, suppose that vocabulary V = {“don’t”, “hate”, “I”, “it”, “love” } and we associate the words with dimensions of vector in alphabetical order (as shown), and that document D=“I love it”. Then, we have a document vector:
x = [ 0 0 1 0 0 | 0 0 0 0 1 | 0 0 0 1 0 ]
這裡作者提供的最簡單的單詞編碼方式是one-hot編碼,V表示了單詞表
對於I love 和 love it進行編碼,我們可以看到,按照詞表的順序
Seq-CNN的明顯缺陷在於編碼方式上,單詞表越大,則每個單詞的編碼會越大,而且會存在很嚴重的稀疏問題
bow-CNN for text
這個也很好理解,作者利用bag-of-word技術,將n-gram編碼到同一個向量中,如圖
但是這個很顯然存在很嚴重的稀疏問題
本文作為CNN在文字分類上的探索,具有一定的啟發意義,但是確實不具備參考價值,水文一篇