13.深度學習(詞嵌入)與自然語言處理--HanLP實現
筆記轉載於GitHub專案:https://github.com/NLP-LOVE/Introduction-NLP
13. 深度學習與自然語言處理
13.1 傳統方法的侷限
前面已經講過了隱馬爾可夫模型、感知機、條件隨機場、樸素貝葉斯模型、支援向量機等傳統機器學習模型,同時,為了將這些機器學習模型應用於 NLP,我們掌握了特徵模板、TF-IDF、詞袋向量等特徵提取方法。而這些方法的侷限性表現為如下:
資料稀疏
首先,傳統的機器學習方法不善於處理資料稀疏問題,這在自然語言處理領域顯得尤為突出,語言是離散的符號系統,每個字元、單詞都是離散型隨機變數。我們通常使用獨熱向量(one-hot)來將文字轉化為向量表示,指的是隻有一個元素為1,其他元素全部為 0 的二進位制向量。例如:
祖國特徵: ["中國","美國","法國"] (這裡 N=3)
中國 => 100
美國 => 010
法國 => 001
上面的祖國特徵只有 3 個還好,那如果是成千上萬個呢?就會有很多的 0 出現,表現為資料的稀疏性。
特徵模板
語言具有高度的複合型。對於中文而言,偏旁部首構成漢字,漢字構成單詞,單詞構成短語,短語構成句子,句子構成段落,段落構成文章,隨著層級的遞進與顆粒度的增大,所表達的含義越來越複雜。
這樣的特徵模板同樣帶來資料稀疏的困擾: 一個特定單詞很常見,但兩個單詞的特定組合則很少見,三個單詞更是如此。許多特徵在訓練集中僅僅出現一次,僅僅出現一次的特徵在統計學上毫無意義。
誤差傳播
現實世界中的專案,往往涉及多個自然語言處理模組的組合。比如在情感分析中,需要先進行分詞,然後進行詞性標註,根據詞性標註過濾掉一些不重要的詞,最後送入到樸素貝葉斯或者支援向量機等機器學習模組進行分類預測。
這種流水線式的作業方式存在嚴重的誤差傳播問題,亦即前一個模組產生的錯誤被輸入到下一個模組中產生更大的錯誤,最終導致了整個系統的脆弱性。
13.2 深度學習與優勢
為了解決傳統機器學習與自然語言處理中的資料稀疏、人工特徵模板和誤差傳播等問題,人們將注意力轉向了另一種機器學習潮流的研究--深度學習。
深度學習
深度學習(Deep Leaming, DL )屬於表示學習( Representation Learning )的範疇,指的是利用具有一定“深度”的模型來自動學習事物的向量表示(vectorial rpresenation)的一種學習正規化。目前,深度學習所採用的模型主要是層數在一層以上的神經網路。如果說在傳統機器學習中,事物的向量表示是利用手工特徵模板來提取稀疏的二進位制向量的話,那麼在深度學習中,特徵模板被多層感知機替代。而一旦問題被表達為向量,接下來的分類器一樣可以使用單層感知機等模型,此刻深度學習與傳統手法毫無二致,殊途同歸。所以說深度學習並不神祕,通過多層感知機提取向量才是深度學習的精髓。
對於深度學習原理,在之前我的部落格中已經介紹了,詳細請點選:
http://mantchs.com/2019/08/04/DL/Neural%20Network/
用稠密向量解決資料稀疏
神經網路的輸出為樣本 x 的一個特徵向量 h。由於我們可以自由控制神經網路隱藏層的大小,所以在隱藏層得到的 h 的長度也可以控制。即便輸人層是詞表大小的獨熱向量、維度高達數十萬,隱藏層得到的特徵向量依然可以控制在很小的體積,比如100維。
這樣的 100 維向量是對詞語乃至其他樣本的抽象表示,含有高度濃縮的資訊。正因為這些向量位於同一個低維空間,我們可以很輕鬆地訓練分類器去學習單詞與單詞、文件與文件、圖片與圖片之間的相似度,甚至可以訓練分類器來學習圖片與文件之間的相似度。由表示學習帶來的這一切, 都是傳統機器學習方法難以實現的。
用多層網路自動提取特徵表示
神經網路兩層之間一般全部連線(全連線層),並不需要人們根據具體問題具體設計連線方式。這些隱藏層會根據損失函式的梯度自動調整多層感知機的權重矩陣,從而自動學習到隱陬層的特徵表示。
該過程完全不需要人工干預,也就是說深度學習從理論上剝奪了特徵模板的用武之地。
端到端的設計
由於神經網路各層之間、各個神經網路之間的“交流語言”為向量,所以深度學習工程師可以輕鬆地將多個神經網路組合起來,形成一種端到端的設計。比如之前談到的情感分析案例中,一種最簡單的方案是將文件的每個字元的獨熱向量按順序輸入到神經網路中,得到整個文件的特徵向量。然後將該特徵向量輸入到多項邏輯斯諦迴歸分類器中,就可以分類出文檔的情感極性了。
整個過程既不需要中文分詞,也不需要停用詞過濾。因為神經網路按照字元順序模擬了人類閱讀整篇文章的過程,已經獲取到了全部的輸人。
13.3 word2vec
作為連線傳統機器學習與深度學習的橋樑,詞向量一直是入門深度學習的第一站。詞向量的訓練方法有很多種,word2vec 是其中最著名的一種,還有 fastText、Glove、BERT和最近很流行的 XLNet 等。
word2vec 的原理在我部落格裡已經講解過了,詳細介紹見:
http://mantchs.com/2019/08/22/NLP/Word%20Embeddings/
訓練詞向量
瞭解了詞向量的基本原理之後,本節介紹如何呼叫 HanLP 中實現的詞向量模組,該模組接受的訓練語料格式為以空格分詞的純文字格式,此處以 MSR 語料庫為例。訓練程式碼如下(自動下載語料庫):
from pyhanlp import * import zipfile import os from pyhanlp.static import download, remove_file, HANLP_DATA_PATH def test_data_path(): """ 獲取測試資料路徑,位於$root/data/test,根目錄由配置檔案指定。 :return: """ data_path = os.path.join(HANLP_DATA_PATH, 'test') if not os.path.isdir(data_path): os.mkdir(data_path) return data_path ## 驗證是否存在語料庫,如果沒有自動下載 def ensure_data(data_name, data_url): root_path = test_data_path() dest_path = os.path.join(root_path, data_name) if os.path.exists(dest_path): return dest_path if data_url.endswith('.zip'): dest_path += '.zip' download(data_url, dest_path) if data_url.endswith('.zip'): with zipfile.ZipFile(dest_path, "r") as archive: archive.extractall(root_path) remove_file(dest_path) dest_path = dest_path[:-len('.zip')] return dest_path sighan05 = ensure_data('icwb2-data', 'http://sighan.cs.uchicago.edu/bakeoff2005/data/icwb2-data.zip') msr_train = os.path.join(sighan05, 'training', 'msr_training.utf8') ## =============================================== ## 以下開始 word2vec IOUtil = JClass('com.hankcs.hanlp.corpus.io.IOUtil') DocVectorModel = JClass('com.hankcs.hanlp.mining.word2vec.DocVectorModel') Word2VecTrainer = JClass('com.hankcs.hanlp.mining.word2vec.Word2VecTrainer') WordVectorModel = JClass('com.hankcs.hanlp.mining.word2vec.WordVectorModel') # 演示詞向量的訓練與應用 TRAIN_FILE_NAME = msr_train MODEL_FILE_NAME = os.path.join(test_data_path(), "word2vec.txt") def train_or_load_model(): if not IOUtil.isFileExisted(MODEL_FILE_NAME): if not IOUtil.isFileExisted(TRAIN_FILE_NAME): raise RuntimeError("語料不存在,請閱讀文件瞭解語料獲取與格式:https://github.com/hankcs/HanLP/wiki/word2vec") trainerBuilder = Word2VecTrainer(); return trainerBuilder.train(TRAIN_FILE_NAME, MODEL_FILE_NAME) return load_model() def load_model(): return WordVectorModel(MODEL_FILE_NAME) wordVectorModel = train_or_load_model() # 呼叫函式訓練 word2vec
單詞語義相似度
有了詞向量之後,最基本的應用就是查詢與給定單詞意義最相近的前 N 個單詞。
# 列印 單詞語義相似度 def print_nearest(word, model): print( "\n Word " "Cosine\n------------------------------------------------------------------------") for entry in model.nearest(word): print("%50s\t\t%f" % (entry.getKey(), entry.getValue())) print_nearest("上海", wordVectorModel) print_nearest("美麗", wordVectorModel) print_nearest("購買", wordVectorModel) print(wordVectorModel.similarity("上海", "廣州"))
結果如下:
Word Cosine ------------------------------------------------------------------------ 廣州 0.616240 天津 0.564681 西安 0.500929 撫順 0.456107 深圳 0.454190 浙江 0.446069 杭州 0.434974 江蘇 0.429291 廣東 0.407300 南京 0.404509 Word Cosine ------------------------------------------------------------------------ 裝點 0.652887 迷人 0.648911 恬靜 0.634712 絢麗 0.634530 憧憬 0.616118 蔥翠 0.612149 寧靜 0.599068 清新 0.592581 純真 0.589360 景色 0.585169 Word Cosine ------------------------------------------------------------------------ 購 0.521070 購得 0.500480 選購 0.483097 購置 0.480335 採購 0.469803 出售 0.469185 低收入 0.461131 分期付款 0.458573 代銷 0.456689 高價 0.456320 0.6162400245666504
其中 Cosine 一欄即為兩個單詞之間的餘弦相似度,是一個介於 -1 和 1 之間的值。
詞語類比
將兩個詞語的詞向量相減,會產生一個新向量。通過與該向量做點積,可以得出一個單詞與這兩個單詞的差值之間的相似度。在英文中,一個常見的例子是 king - man + woman = queen,也就是說詞向量的某些維度可能儲存著當前詞語與皇室的關聯程度,另一些維度可能儲存著性別資訊。
# param A: 做加法的詞語 # param B:做減法的詞語 # param C:做加法的詞語 # return:與(A-B+C) 語義距離最近的詞語及其相似度列表 print(wordVectorModel.analogy("日本", "自民黨", "共和黨"))
結果如下:
[美國=0.71801066, 德米雷爾=0.6803682, 美國國會=0.65392816, 布什=0.6503047, 華爾街日報=0.62903535, 國務卿=0.6280117, 輿論界=0.6277531, 白宮=0.6175594, 駁斥=0.6155998, 最惠國待遇=0.6062231]
短文字相似度
我們將短文字中的所有詞向量求平均,就能將這段短文字表達為一個稠密向量。於是我們就可以衡量任意兩端短文字之間鵝相似度了。
# 文件向量 docVectorModel = DocVectorModel(wordVectorModel) documents = ["山東蘋果豐收", "農民在江蘇種水稻", "奧運會女排奪冠", "世界錦標賽勝出", "中國足球失敗", ] print(docVectorModel.similarity("山東蘋果豐收", "農民在江蘇種水稻")) print(docVectorModel.similarity("山東蘋果豐收", "世界錦標賽勝出")) print(docVectorModel.similarity(documents[0], documents[1])) print(docVectorModel.similarity(documents[0], documents[4]))
結果如下:
0.6743720769882202 0.018603254109621048 0.6743720769882202 -0.11777809262275696
類似的,可以通過呼叫 nearest 介面查詢與給定單詞最相似的文件
def print_nearest_document(document, documents, model): print_header(document) for entry in model.nearest(document): print("%50s\t\t%f" % (documents[entry.getKey()], entry.getValue())) def print_header(query): print( "\n%50s Cosine\n------------------------------------------------------------------------" % (query)) for i, d in enumerate(documents): docVectorModel.addDocument(i, documents[i]) print_nearest_document("體育", documents, docVectorModel) print_nearest_document("農業", documents, docVectorModel) print_nearest_document("我要看比賽", documents, docVectorModel) print_nearest_document("要不做飯吧", documents, docVectorModel)
結果如下:
體育 Cosine ------------------------------------------------------------------------ 世界錦標賽勝出 0.256444 奧運會女排奪冠 0.206812 中國足球失敗 0.165934 山東蘋果豐收 -0.037693 農民在江蘇種水稻 -0.047260 農業 Cosine ------------------------------------------------------------------------ 農民在江蘇種水稻 0.393115 山東蘋果豐收 0.259620 中國足球失敗 -0.008700 世界錦標賽勝出 -0.063113 奧運會女排奪冠 -0.137968 我要看比賽 Cosine ------------------------------------------------------------------------ 奧運會女排奪冠 0.531833 世界錦標賽勝出 0.357246 中國足球失敗 0.268507 山東蘋果豐收 0.000207 農民在江蘇種水稻 -0.022467 要不做飯吧 Cosine ------------------------------------------------------------------------ 農民在江蘇種水稻 0.232754 山東蘋果豐收 0.199197 奧運會女排奪冠 -0.166378 世界錦標賽勝出 -0.179484 中國足球失敗 -0.229308
13.4 基於神經網路的高效能依存句法分析器
Arc-Standard轉移系統
不同之前介紹的 Arc-Eager,該依存句法器基於 Arc-Standard 轉移系統,具體動作如下:
動作名稱 條件 解釋 Shift 佇列 β 非空 將隊首單詞 i 壓棧 LeftArc 棧頂第二個單詞 將棧頂第二個單詞 i 的支配詞設為棧頂單詞 j,即 i 作為 j 的子節點 RightArc 將棧頂單詞 j 的支配詞設為棧頂第二個單詞 i,即 j作為 i 的子節點 兩個轉移系統的邏輯不同,Arc-Eager 自頂而下地構建,而 Arc-Standard 要求右子樹自底而上地構建。雖然兩者的複雜度都是 O(n),然而可能由於 Arc-Standard 的簡潔性(轉移動作更少),它更受歡迎。
特徵提取
雖然神經網路理論上可以自動提取特徵,然而這篇論文作為開山之作,依然未能脫離特徵模板。所有的特徵分為三大類,即:
- 單詞特徵。
- 詞性特徵。
- 已經確定的子樹中的依存標籤特徵。
接著,句法分析器對當前的狀態提取上述三大類特徵,分別記作 w、t 和 l。不同於傳統方法,此處為每個特徵分配一個向量,於是得到三個稠密向量 Xw、Xt 和 Xl。接著,將這三個向量拼接起來輸人到含有一個隱藏層的神經網路,並且使用立方函式啟用,亦即得到隱藏層的特徵向量:
\[ h=\left(W_{1}\left(x^{w} \oplus x^{t} \oplus x^{l}\right)\right)^{3} \]
接著,對於 k 種標籤而言,Arc-Standard 一共存在 2k +1 種可能的轉移動作。此時只需將特徵向量 h 輸人到多元邏輯斯諦迴歸分類器(可以看作神經網路中的輸出層)中即可得到轉移動作的概率分佈:
\[ p=softmax\left(W_{2} h\right) \]
最後選取 p 中最大概率所對應的轉移動作並執行即可。訓練時,採用 softmax 交叉熵損失函式並且以隨機梯度下降法優化。實現程式碼
from pyhanlp import * CoNLLSentence = JClass('com.hankcs.hanlp.corpus.dependency.CoNll.CoNLLSentence') CoNLLWord = JClass('com.hankcs.hanlp.corpus.dependency.CoNll.CoNLLWord') IDependencyParser = JClass('com.hankcs.hanlp.dependency.IDependencyParser') NeuralNetworkDependencyParser = JClass('com.hankcs.hanlp.dependency.nnparser.NeuralNetworkDependencyParser') parser = NeuralNetworkDependencyParser() sentence = parser.parse("徐先生還具體幫助他確定了把畫雄鷹、松鼠和麻雀作為主攻目標。") print(sentence) for word in sentence.iterator(): # 通過dir()可以檢視sentence的方法 print("%s --(%s)--> %s" % (word.LEMMA, word.DEPREL, word.HEAD.LEMMA)) print() # 也可以直接拿到陣列,任意順序或逆序遍歷 word_array = sentence.getWordArray() for word in word_array: print("%s --(%s)--> %s" % (word.LEMMA, word.DEPREL, word.HEAD.LEMMA)) print() # 還可以直接遍歷子樹,從某棵子樹的某個節點一路遍歷到虛根 CoNLLWord = JClass("com.hankcs.hanlp.corpus.dependency.CoNll.CoNLLWord") head = word_array[12] while head.HEAD: head = head.HEAD if (head == CoNLLWord.ROOT): print(head.LEMMA) else: print("%s --(%s)--> " % (head.LEMMA, head.DEPREL))
依存關係詳細見 Chinese Dependency Treebank 1.0 的定義。
13.5 結語
自然語言處理是一門日新月異的學科,在深度學習的時代更是如此。在學術界,即便是當前最先進的研究,在僅僅兩個月後很快就會被突破。本系列文章所提供的知識只不過是那些人門級的基礎知識而已。
神經網路中兩個常用的特徵提取器: 用於時序資料的遞迴神經網路 RNN 以及用於空間資料的卷積神經網路 CNN。其中,RNN 在自然語言處理領域應用得最為廣泛。RNN 可以處理變長的輸入,這正好適用於文字。特別是 RNN 家族中的 LSTM 網路,可以記憶大約 200 左右的單詞,為建模句子中單詞之間的長距離依存創造了條件。然而,RNN 的缺陷在於難以並行化。如果需要捕捉文字中的 n 元語法的話,CNN 反而更勝一籌,並且在並行化方面具備天然優勢。考慮到文件一般較長, 許多文件分類模型都使用 CNN 來構建。而句子相對較短,所以在句子顆粒度上進行的基礎 NLP 任務(中文分詞、詞性標註、命名實體識別和句法分析等)經常採用 RNN 來實現。
RNN 原理詳見:
http://mantchs.com/2019/08/15/DL/RNN/
CNN 原理詳見:
http://mantchs.com/2019/08/11/DL/CNN/
LSTM 原理詳見:
http://mantchs.com/2019/08/17/DL/LSTM/
在詞嵌入的預訓練方面,word2vec 早已是明日黃花。Facebook 通過將詞語內部的構詞資訊引人 Skip-Gram 模型,得到的 fastText 可以為任意詞語構造詞向量,而不要求該詞語一定得出現在語料庫中。但是,無論是 word2vec 還是 fastText,都無法解決一詞多義的問題。因為多義詞的消歧必須根據給定句子的上下文才能進行,這催生了一系列能夠感知上下文的詞語表示方法。
其中,華盛頓大學提出了 ELMO,即一個在大規模純文字上訓練的雙向 LSTM 語言模型。ELMo 通過讀人上文來預測當前單詞的方式為詞嵌人引入了上下文資訊。Zalando Research 的研究人員則將這一方法應用到了字元級別,得到了上下文字串嵌入,其標註器取得了目前最先進的準確率。而 Google 的 BERT 模型則通過一種高效的雙向Transformer網路同時對上文和下文建模,在許多NLP任務上取得了驚人的成績。
fastText 原理詳見:
http://mantchs.com/2019/08/23/NLP/fastText/
ELMO 原理詳見:
http://mantchs.com/2019/09/28/NLP/BERT/
BERT 原理詳見:
http://mantchs.com/2019/09/28/NLP/BERT/
另一些以前認為很難的 NLP 任務,比如自動問答和文件摘要等,在深度學習時代反而顯得非常簡單。許多 QA 任務歸結為衡量問題和備選答案之間的文字相似度,這恰好是具備註意力機制的神經網路所擅長的。而文件摘要涉及的文字生成技術,又恰好是 RNN 語言模型所擅長的。在機器翻譯領域,Google 早已利用基於神經網路的機器翻譯技術淘汰了基於短語的機器翻譯技術。目前,學術界的流行趨勢是利用 Transformer 和注意力機制提取特徵。
Transformer 原理詳見:
http://mantchs.com/2019/09/26/NLP/Transformer/
注意力機制 原理詳見:
http://mantchs.com/2019/08/31/NLP/Attention/
總之,自然語言處理的未來圖景巨集偉而廣闊。自然語言處理入門系列文章就作為這條漫漫長路上的一塊墊腳石,希望給予讀者一些必備的人門概念。至於接下來的修行,前路漫漫,與君共勉。
13.6 GitHub
HanLP何晗--《自然語言處理入門》筆記:
https://github.com/NLP-LOVE/Introduction-NLP
目錄
章節 |
---|
第 1 章:新手上路 |
第 2 章:詞典分詞 |
第 3 章:二元語法與中文分詞 |
第 4 章:隱馬爾可夫模型與序列標註 |
第 5 章:感知機分類與序列標註 |
第 6 章:條件隨機場與序列標註 |
第 7 章:詞性標註 |
第 8 章:命名實體識別 |
第 9 章:資訊抽取 |
第 10 章:文字聚類 |
第 11 章:文字分類 |
第 12 章:依存句法分析 |
第 13 章:深度學習與自然語言處理 |