自然語言處理NLP基本知識小結
1.什麼是NLP?
人與人、人與計算機互動中的語言問題。
能力模型,通常是基於語言學規則的模型,建立在人腦中先天存在語法通則這一假設的基礎上,認為語言是人腦的語言能力推匯出來的,建立語言模型就是通過建立人工編輯的語言規則集來模擬這種先天的語言能力。又稱“理性主義的”語言模型。
應用模型,根據不同的語言處理應用而建立的特定語言模型,通常是基於統計的模型。又稱“經驗主義的”語言模型,使用大規模真實語料庫中獲得語言各級語言單位上的統計資訊,依據較低階語言單位上的統計資訊運用相關的統計推理技術計算較高階語言單位上的統計資訊
2、分詞
詞是最小的能夠獨立活動的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,而漢語是以字為基本的書寫單位,詞語之間沒有明顯的區分標記,因此,中文詞語分析是中文資訊處理的基礎與關鍵。
中文分詞技術可分為三大類:基於字典、詞庫匹配的分詞方法;基於詞頻度統計的分詞方法和基於知識理解的分詞方法。
3、詞性標註
詞性標註(Part-of-Speech tagging 或POS tagging),又稱詞類標註或者簡稱標註,是指為分詞結果中的每個單詞標註一個正確的詞性的程式,也即確定每個詞是名詞、動詞、形容詞或其他詞性的過程。在漢語中,詞性標註比較簡單,因為漢語詞彙詞性多變的情況比較少見,大多詞語只有一個詞性,或者出現頻次最高的詞性遠遠高於第二位的詞性。據說,只需選取最高頻詞性,即可實現80%準確率的中文詞性標註程式。利用HMM即可實現更高準確率的詞性標註
http://blog.csdn.net/truong/article/details/18847549
4、命名實體識別
命名實體識別(Named Entity Recognition,簡稱NER),又稱作“專名識別”,是指識別文字中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。
(1)實體邊界識別;(2) 確定實體類別(人名、地名、機構名或其他)
命名實體識別是資訊提取、問答系統、句法分析、機器翻譯、面向Semantic Web的元資料標註等應用領域的重要基礎工具。
基於規則和詞典的方法( MUC-6 會議中幾乎所有參賽成員都採用基於規則的方法),該方法需要專家制定規則,準確率較高,但依賴於特徵領域,可移植性差;
基於統計的方法,主要採用 HMM 、 MEMM 、 CRF, 難點在於特徵選擇上,該方法能獲得好的魯棒性和靈活性,不需太多的人工干預和領域限制,但需要大量的標註集。
混合方法,採用規則與統計相結合,多種統計方法相結合等,是目前主流的方法。
特徵:上下文資訊+構詞法
5、指代消解
指代是一種常見的語言現象,一般情況下,指代分為2種:回指和共指。
回指是指當前的照應語與上文出現的詞、短語或句子(句群)存在密切的語義關聯性,指代依存於上下文語義中,在不同的語言環境中可能指代不同的實體,具有非對稱性和非傳遞性;
共指主要是指2個名詞(包括代名詞、名詞短語)指向真實世界中的同一參照體,這種指代脫離上下文仍然成立。
目前指代消解研究主要側重於等價關係,只考慮2個詞或短語是否指示現實世界中同一實體的問題,即共指消解。
中文的指代主要有3種典型的形式:
(1)人稱代詞(pronoun),例如:李明 怕高媽媽一人呆在家
裡寂寞,他 便將家裡的電視搬了過來。
(2)指示代詞(demonstrative),例如:很多人都想留下什麼給孩子,這 可以理解,但不完全正確。
(3)有定描述(definite description),例如:,貿易制裁已經成為了美國政府對華的慣用大棒,這根 大棒 真如美國政府所希望的那樣靈驗嗎?
6、文字分類
一個文字(以下基本不區分“文字”和“文件”兩個詞的含義) 分類問題就是將
一篇文件歸入預先定義的幾個類別中的一個或幾個,而文字的自動分類則是使用計算機程式來實現這樣的分類。
7、問答系統
問答系統(Question Answering System, QA)是資訊檢索系統的一種高階形式,它能用準確、簡潔的自然語言回答使用者用自然語言提出的問題。
依據問題型別可分為:限定域和開放域兩種,依據資料型別可分為:結構型和無結構型(文字),依據答案型別可分為:抽取式和產生式兩種。
問句分析-》文件檢索-》答案抽取(驗證)