windows下使用LTP分詞，安裝pyltp

阿新 • • 發佈：2020-08-04

1.LTP介紹

ltp是哈工大出品的自然語言處理工具箱, 提供包括中文分詞、詞性標註、命名實體識別、依存句法分析、語義角色標註等豐富、高效、精準的自然語言處理技術。pyltp是python下對ltp(c++)的封裝. 在linux下我們很容易的安裝pyltp, 因為各種編譯工具比較方便. 但是在windows下需要安裝vs並且還得做一些配置，但是經過本人查閱資料總結了一種不需要安裝c++的方法。

2.windows下安裝pyltp

想使用LTP進行nlp的任務，第一步就是要需要安裝一個pyltp的包，如果直接pip insatll pyltp的話，很大概率時會報錯的，所以本人使用另一種方法安裝，那就是安裝輪子檔案（whl檔案）：

第一步：建立python3.6或者3.5

檢查自己的電腦上是否有python3.6或（3.5）環境（python3.8不支援這種安裝），如果沒有python3.6（3.5）環境的話，需要先安裝python3.6（3.6），最簡便快捷的方法就是使用anaconda來安裝，在你的電腦安裝了anaconda的前提下，開啟win+r輸入cmd進入命令窗，輸入

conda create --name python36 python=3.6  #這樣你就建立了一個新的python3.6環境

注意，在建立的時候會出現建立失敗的問題，具體問題有一堆如下的解釋：

UnavailableInvalidChannel: The channel is not accessible or is invalid.
      channel name: anaconda/pkgs/free
      channel url: https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
      error code: 404

這是因為清華園關閉了anaconda的服務，此時你需要輸入以下指令恢復設定：

conda config --remove-key channels

回覆完畢以後，繼續上面的建立指令，就可以完成python環境的建立了。

在建立的時候會出現一個選擇，直接輸入 y 就好了。這樣你的python環境就建立完畢了，你可以進入你的anaconda安裝目錄下，進入scripts檔案就可以看到你的新環境了。

第二步：下載whl檔案

python3.5：pyltp-0.2.1-cp35-cp35m-win_amd64.whl
python3.6：pyltp-0.2.1-cp36-cp36m-win_amd64.whl

根據上一步建立的python環境選擇相應的whl檔案，最好是單獨建立一個資料夾來存放這些whl檔案。

第三步：安裝whl檔案

這一步需要先進入到你建立的環境中去：

輸入

conda env list

檢查你的環境列表，然後輸入

activate XXX（你的環境名字）

進行啟用，在進入到你的環境之後需要轉到你上一步存放whl檔案的目錄，進行安裝：

使用：

cd /d E:\輪子檔案

直接進入到你存放whl的資料夾，然後使用pip install 進行安裝。注意！！安裝的時候，一定要加whl字尾，不然會報錯

pip install pyltp-0.2.1-cp36-cp36m-win_amd64.whl

至此，whl安裝完畢

第四步：下載模型

模型地址：哈工大語言云，我下載的是3.4版本的模型，下載好的模型解壓到自己建立的一個資料夾裡面。

這裡我為了方便使用，單獨建了一個專門用於存放網上下載的模型的資料夾CoModel，然後將下載下來的ltp模型ltp_data_v3.4.0解壓後拿出來，然後放到新建的一個叫做LTP的資料夾裡面，可以看到裡面有多個模型：

檔名	模型
cws.model	分句模型
ner.model	命名實體識別模型
parser.model	依存句法分析模型
pisrl.model	語義角色標註模型
pos.model	詞性標註模型

接下來，你就可以在你的程式裡面呼叫這個模型了~~

注意！

本人使用的是pycharm，在pycharm中選擇直譯器的時候一定要選擇你第一步的環境（也就是你所安裝pyltp的環境），我沒用建立虛環境而是直接使用的python36環境，如果你想使用虛環境，在第一步的時候就要建立為虛環境：

conda create -n venvname python=3.6

最後附上自己分詞和詞頻統計的程式

# -*- coding: utf-8 -*-
from pyltp import Segmentor
import json
import re

def clean(path):  # 定義資料清理函式
    with open(path, encoding='UTF-8') as f:
        strs = ''
        for line in f.readlines():  # 讀取每一行，並將所有行存到一個strs裡
            dict = json.loads(line)
            str = json.dumps(dict, ensure_ascii=False)
            strs += str
        strs_clean1 = strs.replace(' ', '')  # 去掉文字中的空格
        pattern = re.compile("[A-Z0-9元年月日\"\"{}:：；,，、。．%％￥（）《》—]")
        # pattern = re.compile("^\d{1,9}$")
        strs_clean2 = re.sub(pattern, '', strs_clean1)  # 去掉文字中的數字和字母、符號等
        return strs_clean2

def stopwordslist(filepath):    # 定義函式建立停用詞列表
    stopword = [line.strip() for line in open(filepath, 'r',encoding='utf-8').readlines()] # 以行的形式讀取停用詞表，同時轉換為列表
    return stopword

def word_splitter(sentence):  # 分詞
    segmentor = Segmentor()  # 初始化例項
    segmentor.load('./LTP/cws.model')  # 載入模型
    words = segmentor.segment(sentence)  # 分詞
    words_list = list(words)
    segmentor.release()  # 釋放模型
    return words_list

def get_TF(wordslist):
    TF_dic={}
    for word in wordslist:
        TF_dic[word] =TF_dic.get(word,0)+1
        # 在字典中查詢word的值，該list中的值都為none，找到了就加1，第二次找到就為2...最終返還的是一堆鍵的值
        # print(TF_dic) # 列印鍵值
    return sorted(TF_dic.items(),key=lambda x:x[1],reverse=True) # True:降序
    #將字典定義為迭代器，[（'word1',value1）,('word2',value2)....]然後按照元組的[1]的值(value)來排序

data = clean('DataSet/testsp.json')
print('清洗後的資料：')
print(data)
words_list = word_splitter(data)  # 分詞後的結果
stopwords = stopwordslist('./DataSet/中文停用詞表.txt')
words_clean =[word for word in words_list if word not in stopwords]  # 去除停用詞
print('去除停用詞後的分詞：')
print(words_clean)
result = str(get_TF(words_clean))
print(result)

執行結果：

windows下使用LTP分詞，安裝pyltp

1.LTP介紹

2.windows下安裝pyltp

第一步：建立python3.6或者3.5

第二步：下載whl檔案

第三步：安裝whl檔案

第四步：下載模型

注意！

windows下使用LTP分詞，安裝pyltp

Linux下ElasticSearch及IK分詞外掛安裝

Windows 下 MySQL 8.X 的安裝教程

windows下mysql 8.0.12安裝步驟及基本使用教程

windows下mysql 8.0.16 安裝配置方法圖文教程

Windows下mysql 8.0.12 安裝詳細教程

windows下mysql 5.7.20 安裝配置方法圖文教程

Windows下mysql 8.0.11 安裝教程

phpstduy下sql libs下載，安裝教程。

Windows下Anaconda和PyCharm的安裝與使用詳解

windows下python虛擬環境virtualenv安裝和使用

pandas之中文分詞，詞雲，情感分析，語義分析4

pandas之中文分詞，詞雲，情感分析，語義分析5

非常詳細：Windows 10+Anaconda3+CUDA10.1，安裝dlib19.17開發環境成功手記

Windows下 maven3.0.4的安裝步驟+maven配置本地倉庫

jieba 分詞（紅樓夢相關的分詞，出現次數最高的20個）

專案前期準備：Windows下的Dart、Flutter安裝與學習

elasticSearch~中文分詞器安裝及使用

ElasticSearch - 2 IK分詞器安裝

Elasticsearch-Analysis-IK中文分詞器安裝配置和使用（非常詳細）

windows下使用LTP分詞，安裝pyltp

1.LTP介紹

2.windows下安裝pyltp

第一步：建立python3.6或者3.5

第二步：下載whl檔案

第三步：安裝whl檔案

第四步：下載模型

注意！

相關推薦