人工智慧：python 實現第十章，NLP 第二天基於詞義的詞形還原

阿新 • • 發佈：2019-02-19

基於詞義的詞形還原

lemmatization 是另一種詞形還原的方式。在前一節中，我們可以明白從詞幹中提取詞的基本形式沒有任何意義。例如，三個三個詞幹提取器都顯示calves的基本形式是calv,但它並不是一個真正的單詞。Lemmatization 採取了一種更具結構化的方法解決了這個問題。

lemmatizatio原理是使用語法和詞態分析器進行單詞分析，它包含了去除了如ing和ed等字尾的單詞基本形式，所有基本的形式的單詞集合被稱作為字典。如果你使用lemmatization對calves進行詞形還原，將輸出calf。值得注意的是單詞基本形式的輸出依賴於該詞是動詞還是名詞。下面讓我們看看如何使用NLTK

建立一個姓的python 檔案並且匯入下列包：

from nltk.stem import WordNetLemmatizer

定義輸入單詞。我們將使用先前使用的單詞集以便我們能夠比較輸出結果

input_words =['writing','calves','be',branded','horse','randomize','possibly','provision'，hospital,‘hospital','kept','scratchy','code']

建立一個lemmatizer物件

#建立物件

lemmatizer = WordNetLemmatizer()

為顯示列表建立名字和格式

#建立顯示列表名字

lemmatizer_names =['noun Lemmatizer','verb lemmatizer']

formatted_text = '{:>24}'*(len(lemmatizer_names)+1)

print('\n',formatted_text.format('INPUT WORD'),*lemmatizer_names,'\n','='*75)

輸入單詞集並使用動詞和名詞詞形還原器還原單詞：

#對每一個單詞進行還原並輸出

for word in input_words:

output =[word,lemmatizer.lemmatize(word,pos='n'),lemmatizer.lemmatize(word,pos='v')]

print(formatted_text.format(*output))

完整程式碼如下

from nltk.stem import WordNetLemmatizer

input_words = ['writing', 'calves', 'be', 'branded', 'horse', 'randomize', 
        'possibly', 'provision', 'hospital', 'kept', 'scratchy', 'code']

# 建立 lemmatizer物件 
lemmatizer = WordNetLemmatizer()

# 建立輸出表格格式
lemmatizer_names = ['NOUN LEMMATIZER', 'VERB LEMMATIZER']
formatted_text = '{:>24}' * (len(lemmatizer_names) + 1)
print('\n', formatted_text.format('INPUT WORD', *lemmatizer_names), 
        '\n', '='*75)

#對輸入的單詞進行還原並輸出
for word in input_words:
    output = [word, lemmatizer.lemmatize(word, pos='n'),lemmatizer.lemmatize(word, pos='v')]
    print(formatted_text.format(*output))

執行結果：

我們能看到,當遇到形如writing或者calves 這些單詞時，名詞還原器和動詞還原器分詞結果是不一樣的。如果將這些輸出與之前的stemmer 的輸出結果相比，這兩者的結果也有不同。基於字典的分詞方式比基於規則的方式是更準確的還原單詞，更加有意義。

人工智慧：python 實現第十章，NLP 第二天基於詞義的詞形還原

人工智慧：python 實現第十章，NLP 第二天基於詞義的詞形還原

人工智慧：python 實現第十章，NLP 第四天 A　Ｂａｇ Of Words

人工智慧：python 實現第十一章，使用隱馬爾科夫模型生成資料

android：第十章，後臺的默默勞動者——服務，學習筆記

python 培訓第三章，函數，裝飾器，模塊，內置函數之一函數

python培訓第三章，模塊

案例：python實現名字漢字驗證，密碼驗證

PYTHON筆記第十章

TCP/IP詳解卷1：協議（第十章：動態選路協議）

進擊的Python【第十六章】：Web前端基礎之jQuery

《Python程式設計：從入門到實踐》第十章：檔案和異常

第十一節課：第九章，網絡卡繫結與sshd服務

第十二節課：第10章，Apache網站服務

第十三節課：第11章和第12章，vsftpd服務與samba和nfs服務

第十四節課：第13章，部署DNS域名解析服務（bind服務）

作業系統概念（高等教育出版社，第七版）複習——第十章：檔案系統介面

資料庫系統概念（機械工業出版社，第六版）複習——第十章：資料儲存和資料存取

高等數學：第十章曲線積分與曲面積分（1）對弧長、座標的曲線積分，格林公式及其應用

Python程式設計從入門到實踐第十章：檔案和異常

《利用python做資料分析》第十章：時間序列分析

人工智慧：python 實現 第十章，NLP 第二天 基於詞義的詞形還原

相關推薦

人工智慧：python 實現第十章，NLP 第二天基於詞義的詞形還原