Pyhon 自然語言處理(一)NLTK及語料庫下載
阿新 • • 發佈:2019-01-30
Python 自然語言處理(一)NLTK及語料庫下載
NLTK是用來進行自然語言處理很強大的包,本文介紹Python下安裝NLTK及語料下載
1. 安裝 NLTK
pip install nltk
如果已經安裝了 Anaconda 則預設安裝了nltk,但是沒有安裝語料庫
2. 自動安裝語料庫
如果在引入nltk包後,發現沒有安裝語料庫,則可以自動下載安裝,命令:
import nltk
nltk.download()
showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml
True
3. 手動匯入語料庫
下載後的語料庫可以匯入到以下目錄:
- ‘/home/zhanghc/nltk_data’
- ‘/usr/share/nltk_data’
- ‘/usr/local/share/nltk_data’
- ‘/usr/lib/nltk_data’
- ‘/usr/local/lib/nltk_data’
4. NLTK安裝包及語料庫安裝完成
import nltk
# NLTK自帶的語料庫展示
from nltk.corpus import brown
brown.categories()
[u'adventure', u'belles_lettres', u'editorial', u'fiction', u'government', u'hobbies', u'humor', u'learned', u'lore', u'mystery', u'news', u'religion', u'reviews', u'romance', u'science_fiction']
len(brown.sents())
57340
len(brown.words())
1161192