小白nlp入門基礎(一)--nlp簡介
nlp學習筆記一
編者:楊柳依依
日期:2018年9月25日
隨同公司的培訓,對nlp有了初步的理解,小白整理後的筆記如下:
自然語言的發展
語言隨社會一同發展,出現
一詞多義:蘋果(水果),蘋果(喬布斯公司)
多詞一義:北京市,北京
簡略詞、縮寫詞:安徽,徽
新詞:不明覺厲,十動然拒
新義:水軍、打醬油
歧義問題:
音字轉換(jiqi(機器)翻譯jiqi(激起)ren men jiqi(及其) nong hou de xingqu)
詞彙歧義(分詞歧義):分詞 嚴守一把手機關了
嚴守/一把手/機關/了
嚴守一/把/手機/關/了
分詞問題在工作中還是挺常見的,比如江蘇省長是誰,錯誤的情況下可能會分成江蘇省/長/是誰,而實際想得到的是江蘇/省長/是誰,這又讓我想起nlp中讓人吐血的分詞例子,比如“來到楊過曾經生活過的地方,小龍女動情地說:我也想過過過兒過過的生活”,騎車差點摔倒,好在我一把把把把住了
結構歧義:
連線歧義:咬死了獵人的狗
並列歧義:美麗的蝴蝶和小鳥
語用歧義:
你真壞~
1.你做了壞事
2.媽媽對淘氣的孩子,表達的是一種疼愛
3.女孩對男友的撒嬌
篇章結構:
論證關係:
主旨句
各類修辭:
排比、對偶
比喻、隱喻(機器理解起來很難)
自然語言的處理的理解
自然語言處理是人工智慧和語言學的分支學科,在此領域中探討計算機是如何處理及運用自然語言,自然語言認知是指讓計算機
懂人類的語言。自然語言生成是系統是把計算機資料轉化為自然語言。自然語言理解系統把自然語言轉化為計算機程式更易於處理的方式。
詞、句、篇包含的任務有:
自然語言基礎知識
兩種處理模型:
能力模型:
基於語言學規則的模型
建立在人腦中先天存在語法通則這一假設的基礎上,認為語言是人腦的語言能力推匯出來的,建立語言模型是通過人工編輯的語言規則模擬這種先天的語言能力。又稱為理性主義的語言模型。
建模方式:
-語言學知識形式化
-形式化規則演算法化
-演算法實現
基於統計的模型
根據不同的語言處理應用建立特定的語言模型,又稱經驗主義的模型
建模步驟:
-大規模真實語料庫中獲得語言各級語言單位上的統計資訊
-以及較低語言單位上的統計資訊運用相關的統計推理技術計算較高階語言單位上的統計資訊
解決方法:
20%在解決問題,包括實驗設計、效能優化
80%在定義問題,理解應用場景,思考解決思路,講究落地姿態
語言理解(表示)包括隱式表示,文字分類,語義匹配,文字蘊含,顯示錶示,資訊抽取,句法分析
語言生成包括語言轉換,機器翻譯,自動摘要,推理生成,對話系統