人工智慧——構建依存樹——使用LTP分詞

阿新 • • 發佈：2021-07-12

導語：此專案使用LTP分詞，python版本為python3.6，windows平臺，使用whl檔案進行安裝。專案完整檔案見人工智慧——構建依存樹——使用LTP分詞

ltp_data檔案中為ltp分詞所需模型
安裝步驟：
將檔案pyltp-0.2.1-cp36-cp36m-win_amd64.whl移至python3.6中Scripts資料夾下，
搜尋框開啟CMD，
輸入命令pip3.6 install pyltp-0.2.1-cp36-cp36m-win_amd64.whl，安裝成功。

句法分析與漢語文字切分：給定句子，比如“Look for the large barking dog by the door in a crate”，進行依存分析研究單詞之間的依賴關係，將依存關係表示為依存樹

效果圖：

程式碼

from pyltp import Segmentor
from pyltp import Postagger
from pyltp import Parser
from pyltp import NamedEntityRecognizer


relationch=[['定中關係',  'ATT'],  ['數量關係',  'QUN'],  ['並列關係',  'COO'],  ['同位關係',  'APP'],  ['前附加關係',  'LAD'],  ['後附加關係', 'RAD'],  ['動賓關係',  'VOB'],  ['介賓關係',  'POB'],  ['主謂關係',  'SBV'],  ['比擬關係',  'SIM'],  ['核心',  'HED'],  ['連動結構',  'VV'],  ['關聯結構',  'CNJ'],  ['語態結構', 'MT'], ['獨立結構', 'IS'], ['狀中結構', 'ADV'], ['動補結構', 'CMP'], ['“的”', 'DE'], ['“地”', 'DI'], ['“得”', 'DEI'], ['“把”', 'BA'], ['“被”', 'BEI'], ['獨立分句', 'IC'], ['依存分句', 'DC']]
ldir = './ltp_data/cws.model'  #分詞模型
# dicdir = 'word'                           #外部字典
# text = "內蒙古大學計算機學院的計科專業好嗎？"楊過和小龍女什麼關係
text = input("請輸入需要處理的語句:")
#中文分詞
segmentor = Segmentor()                             #初始化例項
segmentor.load_with_lexicon(ldir, './ltp_data/lexicon.txt')    #載入模型
words = segmentor.segment(text)                 #分詞
print(text)
print(' '.join(words))                                     #分詞拼接
words = list(words)                                      #轉換list
print(u"分詞:", words)
segmentor.release()                                      #釋放模型

#詞性標註
pdir = './ltp_data/pos.model'
pos = Postagger()                                        #初始化例項
pos.load(pdir)                                              #載入模型

postags = pos.postag(words)                        #詞性標註
postags = list(postags)
print(u"詞性:", postags)
pos.release()                                               #釋放模型

data = {"words": words, "tags": postags}
print(data)
print(" ")

#命名實體識別
nermodel = './ltp_data/ner.model'
reg = NamedEntityRecognizer()                    #初始化命名實體例項
reg.load(nermodel)                                       #載入模型
netags = reg.recognize(words, postags)         #對分詞、詞性標註得到的資料進行實體標識
netags = list(netags)
print(u"命名實體識別:", netags)

#實體識別結果
data={"reg": netags,"words":words,"tags":postags}
print(data)
reg.release()                                                 #釋放模型
print(" ")

#依存句法分析
parmodel = './ltp_data/parser.model'
parser = Parser()                                          #初始化命名實體例項
parser.load(parmodel)                                  #載入模型
arcs = parser.parse(words, postags)              #句法分析

#輸出結果
print(words)
print("\t".join("%d:%s" % (arc.head, arc.relation) for arc in arcs))

rely_id = [arc.head for arc in arcs]              # 提取依存父節點id
relation = [arc.relation for arc in arcs]         # 提取依存關係
heads = ['根' if id == 0 else words[id-1] for id in rely_id]  # 匹配依存父節點詞語
for i in range(len(words)):
    for m in range(len(relationch)):
       if(relation[i]==relationch[m][1]):
              relation[i]=relationch[m][0]
    print(relation[i] + '(' + words[i] + ', ' + heads[i] + ')')

parser.release()                                           #釋放模型

from graphviz import Digraph
#這裡指定生成png圖片，不加format屬性則生成pdf檔案
g = Digraph('fenciresult',format="png")

g.node(name='根', fontname="Microsoft YaHei")
for word in words:
    g.node(name=word, fontname="Microsoft YaHei")

for i in range(len(words)):
    if relation[i] not in ['HED']:
        g.edge(words[i], heads[i], label=relation[i], fontname="Microsoft YaHei")
    else:
        if heads[i] == '根':
            g.edge(words[i], '根', label=relation[i], fontname="Microsoft YaHei")
        else:
            g.edge(heads[i], '根', label=relation[i], fontname="Microsoft YaHei")

g.render(view=False)

人工智慧——構建依存樹——使用LTP分詞

人工智慧——構建依存樹——使用LTP分詞導語：此專案使用LTP分詞，python版本為python3.6，windows平臺，使用whl檔案進行安裝。專案完整檔案見人工智慧——構建依存樹——使用LTP分詞

人工智慧——LTP分詞中外部詞典的使用

人工智慧——LTP分詞中外部詞典的使用人工智慧——LTP分詞中外部詞典的使用

C#實現前向最大匹、字典樹（分詞、檢索）的示例程式碼

　　場景：現在有一個錯詞庫，維護的是錯詞和正確詞對應關係。比如：錯詞“我門”對應的正確詞“我們”。然後在使用者輸入的文字進行錯詞校驗，需要判斷輸入的文字是否有錯詞，並找出錯詞以便提醒使用者，並且可以顯

windows下使用LTP分詞，安裝pyltp

1.LTP介紹 ltp是哈工大出品的自然語言處理工具箱, 提供包括中文分詞、詞性標註、命名實體識別、依存句法分析、語義角色標註等豐富、高效、精準的自然語言處理技術。pyltp是python下對ltp(c++)的封裝. 在linux下我們

【敏感詞檢測】用DFA構建字典樹完成敏感詞檢測任務

任務概述敏感詞檢測是各類平臺對使用者釋出內容（UGC）進行稽核的必做任務。

DockerFile構建ElasticSearch映象安裝IK中文分詞器外掛

DockerFile構建ElasticSearch映象安裝IK中文分詞器外掛為什麼要安裝IK中文分詞器？

北大開源中文分詞器被打臉現場...

有做過搜尋的朋友知道，分詞的好壞直接影響我們最終的搜尋結果。在分詞的領域，英文分詞要簡單很多，因為英文語句中都是通過一個個空格來劃分的，而我們的中文博大精深，同樣的詞在不同的語境中所代表的含義千差萬別

Elasticsearch入門(1)-倒排索引和分詞器

這部分檔案主要包含：倒排索引 Analyzer分詞倒排索引舉例類比做個類比，看書時，我們看到了哪個章節，根據章節標題去目錄中檢索具體的內容。但是當我們回憶起一些隻言片語，一些句子，一些情節時，去定位它出

python實現的讀取網頁並分詞功能示例

本文例項講述了python實現的讀取網頁並分詞功能。分享給大家供大家參考，具體如下：

python同義詞替換的實現（jieba分詞）

TihuanWords.txt文件格式注意：同一行的詞用單個空格隔開，每行第一個詞為同行詞的替換詞。

python中文分詞庫jieba使用方法詳解

安裝python中文分詞庫jieba 法1：Anaconda Prompt下輸入conda install jieba 法2：Terminal下輸入pip3 install jieba

Python中文分詞庫jieba,pkusegwg效能準確度比較

中文分詞(Chinese Word Segmentation)，將中文語句切割成單獨的片語。英文使用空格來分開每個單詞的，而中文單獨一個漢字跟詞有時候完全不是同個含義，因此，中文分詞相比英文分詞難度高很多。

Django實現whoosh搜尋引擎使用jieba分詞

本文介紹了Django實現whoosh搜尋引擎使用jieba分詞，分享給大家，具體如下： Django版本：3.0.4

Jieba分詞詞性標註以及詞性說明

分詞例項 import jieba import jieba.analyse import jieba.posseg def dosegment_al(sentence): """

Elasticsearch從入門到放棄：分詞器初印象

Elasticsearch 系列回來了，先給因為這個系列關注我的同學說聲抱歉，拖了這麼久才回來，這個系列雖然叫「Elasticsearch 從入門到放棄」，但只有三篇就放棄還是有點過分的，所以還是回來繼續更新。

ElasticSearch 分詞與內建分詞

1、什麼是分詞把文字轉換為一個個的單詞，分詞稱之為analysis. ES預設只對英文語句做分詞，中文不支援，每個中文漢字都會被拆分

Elasticsearch 建立ik中文分詞器

一、建立ik中文分詞器 1、下載ik中文分詞器進入https://github.com/medcl/elasticsearch-analysis-ik

04-樹4 是否同一棵二叉搜尋樹 (25分)

04-樹4是否同一棵二叉搜尋樹(25分) 給定一個插入序列就可以唯一確定一棵二叉搜尋樹。然而，一棵給定的二叉搜尋樹卻可以由多種不同的插入序列得到。例如分別按照序列{2, 1, 3}和{2, 3, 1}插入初始為空的二叉搜尋

Python jieba[結巴分詞]

1、簡要說明結巴分詞支援三種分詞模式，支援繁體字，支援自定義詞典 2、三種分詞模式

python 行政區域地址標準化：業務經理填報的地址亂起八糟，高德介面有點厲害! -- 後續，使用分詞思路完成解析

對前文https://www.cnblogs.com/cycxtz/p/13378922.html思路1進行補充。可以考慮jieba分詞庫，不過需要先進行訓練。

人工智慧——構建依存樹——使用LTP分詞

導語：此專案使用LTP分詞，python版本為python3.6，windows平臺，使用whl檔案進行安裝。專案完整檔案見人工智慧——構建依存樹——使用LTP分詞

句法分析與漢語文字切分：給定句子，比如“Look for the large barking dog by the door in a crate”，進行依存分析研究單詞之間的依賴關係，將依存關係表示為依存樹

效果圖：

程式碼

相關推薦