1. 程式人生 > >基於NLP的AI偽原創技術有多神奇?

基於NLP的AI偽原創技術有多神奇?

摘要:近年來,自然語言處理行業在市場上得到了蓬勃發展和廣泛應用,特別是基於NLP的AI偽原創技術。自從我學習以來,我寫了很多文章。文章的深度是不同的。今天,由於某種需要,我再次閱讀文章並將它們放在一起,這也可以稱為概述。關於這些問題,部落格上有詳細的文章介紹。本文僅是對其各個部分的高階總結。

NLP偽原創工具 ---> 小發貓AI+

1 什麼是文字挖掘?

文字挖掘是基於文字資訊進行知識發現的資訊挖掘研究分支。文字挖掘的準備包括三個步驟:文字收集,文字分析和特徵修剪。目前,已經有幾種文字挖掘技術被研究和應用得最為頻繁:文件聚類,文件分類和抽象提取。
 

2 什麼是自然語言處理?

自然語言處理是電腦科學和人工智慧領域的重要方向。它研究了使用自然語言進行人與計算機之間有效溝通的理論和方法。將語言學,電腦科學和數學融入一門科學。
自然語言處理原則:形式描述 - 數學模型演算法化 - 程式化 - 實用
自動合成和識別語音,機器翻譯,自然語言理解,人機對話,資訊檢索,文字分類,自動彙總等。
 

3 普通中文分詞?

中文文字和文字不像英文那樣用空格隔開。因此,許多中文文字操作涉及切詞。這裡安排了一些中文分詞工具。
斯坦福NLP(直接使用CRF的方法,特徵視窗為5)。中文分詞工具(個人推薦)

HIT語言云

庖丁解牛分詞

盤古分詞ICTCLAS(中國科學院)中文詞彙分析系統

IKAnalyzer(在Luence專案下,基於java)

復旦大學(復旦大學)

 

4 個詞性標註方法?語法分析方法?

原則描述:在文章中標記句子,即語句註釋,使用註釋方法BIO註釋。觀察序列X是一個語料庫(這裡,假定一篇文章,x代表文章中的每個句子,X代表一個x的集合),並且標識序列Y是BIO,即對應的X序列的標識,這樣就可以基於條件概率P(標註),猜測正確的句子標記。

顯然,這是一個序列狀態,即CRF是標記或劃分序列結構資料的概率結構模型。可以將CRF視為無向圖模型或馬爾科夫隨機場。對於任何使用過CRF的人來說,CRF是一個序列標記模型,它是指用一個標記標記一個單詞序列的每個單詞。一般而言,在單詞周圍開啟一個小視窗,根據視窗中的單詞和要標記的單詞提取特徵模板。最後,功能的組合決定了需要播放哪些標籤。
 

5 命名實體認可?三種主流演算法,CRF,字典方法和混合方法

1 CRF:在中國NER任務的CRF中,大部分提取的特徵是單詞是中文名稱,姓氏,漢字還是真或假字元。因此,100個姓氏的可靠列表非常重要。在國內學者進行的許多實驗中,F1中表現最好的名字可以達到90%,最差的達到85%。

2 字典方法:在NER中,將每個單詞作為單詞的開頭放入trie樹中以再次檢查它,發現它是NE。由於中文字元太多,所以中文三叉樹需要進行雜湊處理,而不像英文中的26。

3 不同型別的命名實體的處理方式不同。例如,對於一個人的名字,執行字級條件概率計算。漢語:HIT(語言云)上海交通大學英語:stanfordner等。

當然基於NLP開發的偽原創工具小發貓集合了各種優勢,偽原創能力相當強大。