1. 程式人生 > >系統學習NLP(三)--NLP入門綜述

系統學習NLP(三)--NLP入門綜述

從這個月開始,進入NLP方向了,因此,系統了看了一遍《自然語言處理綜論》,對NLP做了點系統性的瞭解,後面抽時間一個一個業務或者方向進行實現學習。這裡主要是入門的認識,因此,大多數不涉及每個業務應用的最佳實現,比如基本沒有深度學習層面的(因為那本書只總結了2009年之前的),不過有了這個基礎,每個業務應用,可以針對性深入瞭解,作為一個大綱吧。

參考:https://www.jianshu.com/p/ee484fd1c6d8

NLP是什麼呢?
1.語言是生物同類之間由於溝通需要而制定的具有統一編碼解碼標準的聲音(影象)指令。包含手勢、表情、語音等肢體語言,文字是顯像符號。
2.自然語言通常是指一種自然地隨文化演化的語言。例如英語、漢語、日語等。有別於人造語言,例如世界語、程式語言等。
3.自然語言處理包括自然語言理解和自然語言生成。自然語言理解是將自然語言變成計算機能夠理解的語言,及非結構化文字轉變為結構化資訊。
4.NLP的 四大經典“AI 完全 ” 難題:問答、複述、文摘、翻譯,只要解決其中一個,另外三個就都解決了。問答就是讓機器人很開放的回答你提的各種各樣問題,就像真人一樣;複述是讓機器用另外一種方式表達出來;文摘就是告訴你一篇很長的文章,讓你寫一個100字的文摘,把它做出來是非常難做的;翻譯也是很困難的,英語思維方式和中文思維方式轉換過來,中間會涉及到很多複雜的問題。

NLP演算法歸類整理

下面對我們的演算法做一些比較簡單的舉例。
1.詞法分析(分詞、詞性、實體):
–演算法:基於Bi-LSTM-CRF演算法體系,以及豐富的多領域詞表
–應用:優酷、YunOS、螞蟻金服、推薦演算法、資訊搜尋等
2.句法分析(依存句法分析、成分句法分析):
–演算法:Shift-reduce,graph-based,Bi-LSTM
–新聞領域、商品評價、商品標題、搜尋Query
–應用:資訊搜尋、評價情感分析
3.情感分析(情感物件、情感屬性、情感屬性關聯):
–演算法:情感詞典挖掘,屬性級、句子級、篇章級情感分析
–應用:商品評價、商品問答、品牌輿情、網際網路輿情
4.句子生成(句子可控改寫、句子壓縮):
–演算法:Beam Search、Seq2Seq+Attention
–應用:商品標題壓縮,資訊標題改寫,PUSH訊息改寫
5.句子相似度(淺層相似度、語義相似度):
–演算法:Edit Distance,Word2Vec,DSSM
–應用:問大家相似問題、商品重發檢測、影視作品相似等
6.文字分類/聚類(垃圾防控、資訊聚合):
–演算法:ME,SVM,FastText
–應用:商品類目預測、問答意圖分析、文字垃圾過濾、輿情聚類、名片OCR後語義識別等
7.文字表示(詞向量、句子向量、篇章向量、Seq2Seq):
–Word2Vec、LSTM、DSSM、Seq2Seq為基礎進行深入研究
8.知識庫
–資料規模:電商同義詞,通用同義詞,電商上下位,通用上下位,領域詞庫(電商詞、娛樂領域詞、通用實體詞),情感詞庫
–挖掘演算法:bootstrapping,click-through mining,word2vec,k-means,CRF
–應用:語義歸一、語義擴充套件、Query理解、意圖理解、情感分析
9.語料庫
–分詞、詞性標註資料,依存句法標註資料

上面這些,應該是阿里推出的應用介紹。我決定以後每個問題,都實現一次。。。

下面是我整理的書的筆記,好像也沒啥用。留著吧。