自然語言處理與中文分詞的難點總結
中文自動分詞
指的是使用計算機自動對中文文字進行詞語的切分,即像英文那樣使得中文句子中的詞之間有空格以標識。中文自動分詞被認為是中文自然語言處理中的一個最基本的環節。
中文分詞的難點
· 未登入詞,基於詞庫的分詞方法往往不能識別新詞、特定領域的專有詞。人名、機構名、地名、產品名、商標名、簡稱、省略語等都是自動分詞的難點。
· 切分歧義,使用基於n-gram的切詞方法往往不能保證詞在切分過程中的語義獨立性。歧義主要包括交集型歧義和組合型歧義,例如:表面的,因為“表面”和“面的”都是詞,那麼這個短語就可以分成“表面|的”和“表|面的”。這種稱為交集型歧義(交叉歧義)。“化妝和服裝”可以分成“化妝|和|服裝”或者“化妝|和服|裝”。
現有方法
· 基於詞典的匹配
· 前向最大匹配
· 後向最大匹配
· 基於字的標註
· 最大熵模型
· 條件隨機場模型
· 感知器模型
· 其它方法
· 與詞性標註結合
· 與句法分析結合
參考來源:維基百科
自然語言處理困難點:
自然語言處理,即實現人機間自然語言通訊,或實現自然語言理解和自然語言生成是十分困難的。造成困難的根本原因是自然語言文字和對話的各個層次上廣泛存在的各種各樣的歧義性或多義性(ambiguity)。
一箇中文文字從形式上看是由漢字(包括標點符號等)組成的一個字串。由字可組成詞,由詞可組成片語,由片語可組成句子,進而由一些句子組成段、節、章、篇。無論在上述的各種層次:字(符)、詞、片語、句子、段,……還是在下一層次向上一層次轉變中都存在著歧義和多義現象,即形式上一樣的一段字串,在不同的場景或不同的語境下,可以理解成不同的詞串、片語串等,並有不同的意義。一般情況下,它們中的大多數都是可以根據相應的語境和場景的規定而得到解決的。
但是一方面,我們也看到,為了消解歧義,是需要極其大量的知識和進行推理的。如何將這些知識較完整地加以收集和整理出來;又如何找到合適的形式,將它們存入計算機系統中去;以及如何有效地利用它們來消除歧義,都是工作量極大且十分困難的工作。這不是少數人短時期內可以完成的,還有待長期的、系統的工作。
以上說的是,一箇中文文字或一個漢字(含標點符號等)串可能有多個含義。它是自然語言理解中的主要困難和障礙。反過來,一個相同或相近的意義同樣可以用多箇中文文字或多個漢字串來表示。
因此,自然語言的形式(字串)與其意義之間是一種多對多的關係。其實這也正是自然語言的魅力所在。但從計算機處理的角度看,我們必須消除歧義,而且有人認為它正是自然語言理解中的中心問題,即要把帶有潛在歧義的自然語言輸入轉換成某種無歧義的計算機內部表示。
如何解決語境的問題:
同時,由於強調了“大規模”,強調了“真實文字”,下面兩方面的基礎性工作也得到了重視和加強。
(1)大規模真實語料庫的研製。大規模的經過不同深度加工的真實文字的語料庫,是研究自然語言統計性質的基礎。沒有它們,統計方法只能是無源之水。
(2)大規模、資訊豐富的詞典的編制工作。規模為幾萬,十幾萬,甚至幾十萬詞,含有豐富的資訊(如包含詞的搭配資訊)的計算機可用詞典對自然語言處理的重要性是很明顯的。
自然語言處理的資料基礎:
自然語言處理的基礎是各類自然語言處理資料集,如tc-corpus-train(語料庫訓練集)、面向文字分類研究的中英文新聞分類語料、以IG卡方等特徵詞選擇方法生成的多維度ARFF格式中文VSM模型、萬篇隨機抽取論文中文DBLP資源、用於非監督中文分詞演算法的中文分詞詞庫、UCI評價排序資料、帶有初始化說明的情感分析資料集等。
參考資料
相關推薦
自然語言處理與中文分詞的難點總結
中文自動分詞 指的是使用計算機自動對中文文字進行詞語的切分,即像英文那樣使得中文句子中的詞之間有空格以標識。中文自動分詞被認為是中文自然語言處理中的一個最基本的環節。 中文分詞的難點 · 未登入詞,基於詞庫的分詞方法往往不能識別新詞、特定領域的專有詞。人名、機構名、
自然語言處理入門----中文分詞原理
1.中文分詞原理介紹 1.1 中文分詞概述 中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。 1.2 中文分詞方法介紹 現有的分詞方法可分為三大類:基於字串匹配的分
自然語言處理之中文分詞器詳解
中文分詞是中文文字處理的一個基礎步驟,也是中文人機自然語言互動的基礎模組,不同於英文的是,中文句子中沒有詞的界限,因此在進行中文自然語言處理時,通常需要先進行分詞,分詞效果將直接影響詞性,句法樹等模組
自然語言處理之中文分詞器-jieba分詞器詳解及python實戰
中文分詞是中文文字處理的一個基礎步驟,也是中文人機自然語言互動的基礎模組,在進行中文自然語言處理時,通常需要先進行分詞。本文詳細介紹現在非常流行的且開源的分詞器結巴jieba分詞器,並使用python實
自然語言處理的中文分詞方法
中文分詞方法 平臺:win7,python,vs2010 1、CRF++ CRF++是著名的條件隨機場開源工具,也是目前綜合性能最佳的CRF工具。 一、工具包的下載: 其中有兩種,一種是Linux下(帶原始碼)的,一種是win32的,下載 ht
自然語言處理工具pyhanlp分詞與詞性標註
Pyhanlp分詞與詞性標註的相關內容記得此前是有分享過的。可能時間太久記不太清楚了。以下文章是分享自“baiziyu”所寫(小部
自然語言處理2 -- jieba分詞用法及原理
系列文章,請多關注 Tensorflow原始碼解析1 – 核心架構和原始碼結構 帶你深入AI(1) - 深度學習模型訓練痛點及解決方法 自然語言處理1 – 分詞 自然語言處理2 – jieba分詞用法及原理 自然語言處理3 – 詞性標註 自然語言處理4 – 句法分析 自然語言處理5 –
自然語言處理之_SentencePiece分詞
1、 說明 SentencePiece是一個google開源的自然語言處理工具包。網上是這麼描述它的:資料驅動、跨語言、高效能、輕量級——面向神經網路文字生成系統的無監督文字詞條化工具。 那麼它究竟是幹什麼的呢?先舉個例子:假設在資料探勘時,有一列特徵T是文字描述,我們需要將其轉
自然語言處理之jieba分詞
在所有人類語言中,一句話、一段文字、一篇文章都是有一個個的片語成的。詞是包含獨立意義的最小文字單元,將長文字拆分成單個獨立的詞彙的過程叫做分詞。分詞之後,文字原本的語義將被拆分到在更加精細化的各個獨立詞彙中,詞彙的結構比長文字簡單,對於計算機而言,更容易理解和分析,所以,分詞往往是自然
HanLP《自然語言處理入門》筆記--3.二元語法與中文分詞
筆記轉載於GitHub專案:https://github.com/NLP-LOVE/Introduction-NLP 3. 二元語法與中文分詞 上一章中我們實現了塊兒不準的詞典分詞,詞典分詞無法消歧。給定兩種分詞結果“商品 和服 務”以及“商品 和 服務”,詞典分詞不知道哪種更加合理。 我們人類確知道第二種更
【NLP漢語自然語言處理與實踐】分詞_筆記
統計 The 計算 分詞 其余 雙向 name -c max 一、兩種分詞標準: 1. 粗粒度。 將詞作為最小基本單位。比如:浙江大學。 主要用於自然語言處理的各種應用。 2. 細粒度。 不僅對詞匯繼續切分,也對詞匯內部的語素進行切分。比如:浙江/大學。 主要用於搜索
自然語言處理-中文分詞方法總結
中文分詞是中文文字處理的一個基礎步驟,也是中文人機自然語言互動的基礎模組。不同於英文的是,中文句子中沒有詞的界限,因此在進行中文自然語言處理時,通常需要先進行分詞,分詞效果將直接影響詞性、句法樹等模組的效果。當然分詞只是一個工具,場景不同,要求也不同。前人做的工
吳恩達《深度學習》第五門課(2)自然語言處理與詞嵌入
星級 技術 ima lac 個數 應該 ras 時有 根據 2.1詞匯表征 (1)使用one-hot方法表示詞匯有兩個主要的缺點,以10000個詞為例,每個單詞需要用10000維來表示,而且只有一個數是零,其他維度都是1,造成表示非常冗余,存儲量大;第二每個單詞表示的向量相
斯坦福大學-自然語言處理與深度學習(CS224n) 筆記 第三課 詞向量(2)
一、word2vec 1、回顧:skip-grams word2vec的主要步驟是遍歷整個語料庫,利用每個視窗的中心詞來預測上下文的單詞,然後對每個這樣的視窗利用SGD來進行引數的更新。 對於每一個視窗而言,我們只有2m+1個單詞(其中m表示視窗的半徑),因此我們計算出來的梯度向量是
斯坦福大學-自然語言處理與深度學習(CS224n) 筆記 第二課 詞向量(word vector)
課程概要 1、單詞含義 2、word2vec介紹 3、word2vec目標函式的梯度推導 4、目標函式優化:梯度下降法 一、單詞含義 含義(meaning)指的是由單詞表達的觀點。我們一般使用單詞含義的方法是,使用像WordNet那樣的分類詞典,給每個單詞對應的上下義關係以及同義
DeepLearning.ai筆記:(5-2) -- 自然語言處理與詞嵌入(NLP and Word Embeddings)
title: ‘DeepLearning.ai筆記:(5-2) – 自然語言處理與詞嵌入(NLP and Word Embeddings)’ id: dl-ai-5-2 tags: dl.ai categories: AI Deep Learning date:
DeepLearning.ai作業:(5-2) -- 自然語言處理與詞嵌入(NLP and Word Embeddings)
title: ‘DeepLearning.ai作業:(5-2) – 自然語言處理與詞嵌入(NLP and Word Embeddings)’ id: dl-ai-5-2h tags: dl.ai homework categories: AI Deep L
吳恩達Coursera深度學習課程 deeplearning.ai (5-2) 自然語言處理與詞嵌入--程式設計作業(一):詞向量運算
Part 1: 詞向量運算 歡迎來到本週第一個作業。 由於詞嵌入的訓練計算量龐大切耗費時間長,絕大部分機器學習人員都會匯入一個預訓練的詞嵌入模型。 你將學到: 載入預訓練單詞向量,使用餘弦測量相似度 使用詞嵌入解決類別問題,比如 “Man is to
吳恩達Coursera深度學習課程 deeplearning.ai (5-2) 自然語言處理與詞嵌入--程式設計作業(二):Emojify表情包
Part 2: Emojify 歡迎來到本週的第二個作業,你將利用詞向量構建一個表情包。 你有沒有想過讓你的簡訊更具表現力? emojifier APP將幫助你做到這一點。 所以不是寫下”Congratulations on the promotion! L
NLPCC:自然語言處理和中文計算——AI歌詞創作樣本
AI創作歌詞 本文主要介紹小禪在中文自語言處理的一些成果。主要包含中文歌詞的訓練和樣本處理以及歌詞的創作。主要的內容如下: 樣本的收集和處理 最新演算法復現和調參 GPU訓練 測試結果 經驗總結 樣本收集和處理 由於本文