第1章 NLP基礎
阿新 • • 發佈:2019-09-02
大綱
-
NLP基礎概念
-
NLP的發展與應用
-
NLP常用術語以及擴充套件介紹
1.1 什麼是NLP
- 基本分類
-
自然語言生成(Natural Language Generation,NLG)
指從結構化資料中以讀取的方式自動生成文字,主要包括三個階段:
- 文字規劃:完成結構化資料中的基礎內容規劃;
- 語句規劃:從結構化資料中組合語句來表達資訊流;
- 實現:產生語法通順的語句來表達文字;
-
研究任務
- 機器翻譯
- 情感分析
- 智慧問答
- 文摘生成
- 文字分類
- 輿論分析
- 知識圖譜
1.2 NLP的發展歷程
-
萌芽期(1956年以前)
貝葉斯方法、隱馬爾可夫、最大熵、支援向量機……,主流仍為基於規則的理性主義方法;
-
快速發展期(1980~1999年)
基於統計、基於例項和基於規則的語料庫技術在這一時期蓬勃發展;
-
突飛猛進期(2000年至今)
神經網路與深度學習;
1.3 NLP相關知識的構成
-
基本術語
-
分詞(segment)
-
詞性標註(part-of-speech tagging)
-
命名實體識別(NER,Named Entity Recognition)
指從文字中識別具有特定類標的實體(常為名詞),如人名、地名、機構名、專有名詞等;
-
句法分析(syntax parsing)
目的是解析句子中各個成分的依賴關係;
-
指代消解(anaphora resolution)
-
情感識別(emotion recognition)
-
糾錯(correction)
-
問答系統(QA system)
-
-
知識結構
NLP是一門跨學科科學,體系化與特殊化並存,其知識體系如下:
- 句法語義分析:針對目標句子,進行各種句法分析;
- 關鍵詞抽取:抽取目標文字中的主要資訊;
- 文字挖掘:主要包含對文字的聚類、分類、資訊抽取、摘要、情感分析及對挖掘的資訊和知識的視覺化、互動式的呈現介面;
- 資訊檢索:對大規模的文件進行索引;
- 機器翻譯:將輸入的源語言文字通過自動化翻譯轉化為另一種語言的文字;
- 問答系統:針對某個自然語言表達的問題,由問答系統給出一個精確答案;
- 對話系統:系統通過多回合對話,與使用者進行聊天、問答、完成某項任務;
1.4 語料庫
1.5 探究NLP的幾個層面
-
第一層面:詞法分析
-
分詞
-
詞性標註
目的是為每個詞賦予一個類別;
-
-
第二層面:句法分析
對輸入的文字以句子為單位,進行分析從而得到句子的句法結構的處理過程;
-
第三層面:語義分析
語義角色標註(semantic role labeling)是當前較為成熟的淺層語義分析