windows下使用LTP分詞,安裝pyltp
1.LTP介紹
ltp是哈工大出品的自然語言處理工具箱, 提供包括中文分詞、詞性標註、命名實體識別、依存句法分析、語義角色標註等豐富、 高效、精準的自然語言處理技術。pyltp是python下對ltp(c++)的封裝. 在linux下我們很容易的安裝pyltp, 因為各種編譯工具比較方便. 但是在windows下需要安裝vs並且還得做一些配置,但是經過本人查閱資料總結了一種不需要安裝c++的方法。
2.windows下安裝pyltp
想使用LTP進行nlp的任務,第一步就是要需要安裝一個pyltp的包,如果直接pip insatll pyltp的話,很大概率時會報錯的,所以本人使用另一種方法安裝,那就是安裝輪子檔案(whl檔案):
第一步:建立python3.6或者3.5
檢查自己的電腦上是否有python3.6或(3.5)環境(python3.8不支援這種安裝),如果沒有python3.6(3.5)環境的話,需要先安裝python3.6(3.6),最簡便快捷的方法就是使用anaconda來安裝,在你的電腦安裝了anaconda的前提下,開啟win+r輸入cmd進入命令窗,輸入
conda create --name python36 python=3.6 #這樣你就建立了一個新的python3.6環境
注意,在建立的時候會出現建立失敗的問題,具體問題有一堆如下的解釋:
UnavailableInvalidChannel: The channel is not accessible or is invalid. channel name: anaconda/pkgs/free channel url: https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free error code: 404
這是因為清華園關閉了anaconda的服務,此時你需要輸入以下指令恢復設定:
conda config --remove-key channels
回覆完畢以後,繼續上面的建立指令,就可以完成python環境的建立了。
在建立的時候會出現一個選擇,直接輸入 y 就好了。這樣你的python環境就建立完畢了,你可以進入你的anaconda安裝目錄下,進入scripts檔案就可以看到你的新環境了。
第二步:下載whl檔案
python3.5:pyltp-0.2.1-cp35-cp35m-win_amd64.whl
python3.6:pyltp-0.2.1-cp36-cp36m-win_amd64.whl
根據上一步建立的python環境選擇相應的whl檔案,最好是單獨建立一個資料夾來存放這些whl檔案。
第三步:安裝whl檔案
這一步需要先進入到你建立的環境中去:
輸入
conda env list
檢查你的環境列表,然後輸入
activate XXX(你的環境名字)
進行啟用,在進入到你的環境之後需要轉到你上一步存放whl檔案的目錄,進行安裝:
使用:
cd /d E:\輪子檔案
直接進入到你存放whl的資料夾,然後使用pip install 進行安裝。注意!!安裝的時候,一定要加whl字尾,不然會報錯
pip install pyltp-0.2.1-cp36-cp36m-win_amd64.whl
至此,whl安裝完畢
第四步:下載模型
模型地址:哈工大語言云,我下載的是3.4版本的模型,下載好的模型解壓到自己建立的一個資料夾裡面。
這裡我為了方便使用,單獨建了一個專門用於存放網上下載的模型的資料夾CoModel,然後將下載下來的ltp模型ltp_data_v3.4.0解壓後拿出來,然後放到新建的一個叫做LTP的資料夾裡面,可以看到裡面有多個模型:
檔名 | 模型 |
---|---|
cws.model | 分句模型 |
ner.model | 命名實體識別模型 |
parser.model | 依存句法分析模型 |
pisrl.model | 語義角色標註模型 |
pos.model | 詞性標註模型 |
接下來,你就可以在你的程式裡面呼叫這個模型了~~
注意!
本人使用的是pycharm,在pycharm中選擇直譯器的時候一定要選擇你第一步的環境(也就是你所安裝pyltp的環境),我沒用建立虛環境而是直接使用的python36環境,如果你想使用虛環境,在第一步的時候就要建立為虛環境:
conda create -n venvname python=3.6
最後附上自己分詞和詞頻統計的程式
# -*- coding: utf-8 -*-
from pyltp import Segmentor
import json
import re
def clean(path): # 定義資料清理函式
with open(path, encoding='UTF-8') as f:
strs = ''
for line in f.readlines(): # 讀取每一行,並將所有行存到一個strs裡
dict = json.loads(line)
str = json.dumps(dict, ensure_ascii=False)
strs += str
strs_clean1 = strs.replace(' ', '') # 去掉文字中的空格
pattern = re.compile("[A-Z0-9元年月日\"\"{}::;,,、。.%%¥()《》—]")
# pattern = re.compile("^\d{1,9}$")
strs_clean2 = re.sub(pattern, '', strs_clean1) # 去掉文字中的數字和字母、符號等
return strs_clean2
def stopwordslist(filepath): # 定義函式建立停用詞列表
stopword = [line.strip() for line in open(filepath, 'r',encoding='utf-8').readlines()] # 以行的形式讀取停用詞表,同時轉換為列表
return stopword
def word_splitter(sentence): # 分詞
segmentor = Segmentor() # 初始化例項
segmentor.load('./LTP/cws.model') # 載入模型
words = segmentor.segment(sentence) # 分詞
words_list = list(words)
segmentor.release() # 釋放模型
return words_list
def get_TF(wordslist):
TF_dic={}
for word in wordslist:
TF_dic[word] =TF_dic.get(word,0)+1
# 在字典中查詢word的值,該list中的值都為none,找到了就加1,第二次找到就為2...最終返還的是一堆鍵的值
# print(TF_dic) # 列印鍵值
return sorted(TF_dic.items(),key=lambda x:x[1],reverse=True) # True:降序
#將字典定義為迭代器,[('word1',value1),('word2',value2)....]然後按照元組的[1]的值(value)來排序
data = clean('DataSet/testsp.json')
print('清洗後的資料:')
print(data)
words_list = word_splitter(data) # 分詞後的結果
stopwords = stopwordslist('./DataSet/中文停用詞表.txt')
words_clean =[word for word in words_list if word not in stopwords] # 去除停用詞
print('去除停用詞後的分詞:')
print(words_clean)
result = str(get_TF(words_clean))
print(result)
執行結果: