Stanford Parser中文句法分析器的使用

阿新 • • 發佈：2019-01-02

Contents

一、使用時注意兩點

二、stanford parser 命令列使用

1 處理一箇中文的句子

2 詞性標註和生成依存關係

3 圖形工具介面

三、句法分析樹標註集

一、使用時注意兩點：

1。中文記憶體大小設定：在執行--執行配置--自變數--vm引數中-加入：--Xmx1024m

2。 Tokenize指的是是否分詞。一定選Tokenized並且檔案是utf-8格式，並以空格分隔每個詞。

二、stanford parser 命令列使用

Stanford Parser

Stanford parser基本上是一個詞彙化的概率上下文無關語法分析器，同時也使用了依存分析。根據不同的語法觀點可以輸出不同的的分析結果。所以，可以認為是一個使用混合分析方法的剖析器。

需要用到的jar包：

stanford-parser.jar

stanford-parser-3.5.2-models.jar

stanford-posttagger-3.5.2.jar

1 處理一箇中文的句子

例如：一些盜版製品經營者為了應付和躲避打擊，經營手法更為隱蔽。

首先，使用Chinese segment 進行詞語的切分。

呼叫的命令：

G:\chinesesegmenter>segment.bat pk input.txt gb18030 > out.txt

其中 pk 是詞典還有一個詞典是ctb （沒有比較過兩個詞典的優劣）

input.txt 是輸入檔案.裡面包含該句子

gb18030 是檔案編碼還支援GB utf-8

out.txt 是輸出的檔案

結果：一些盜版製品經營者為了應付和躲避打擊，經營手法更為隱蔽。

2 詞性標註和生成依存關係

這裡為方便生成一個批處理檔案：lexparserCh.bat

檔案內容：

@echo off

:: Runs the Chinese PCFG parser on one or more files, printing trees only

:: usage: lexparser fileToparse

java -server -mx800m -cp "stanford-parser.jar;" edu.stanford.nlp.parser.lexparser.LexicalizedParser -outputFormat "penn,typedDependenciesCollapsed" chineseFactored.ser.gz %1

---------------------------------------------------------------------------------------------------------------------------

呼叫的命令：

G:\stanfordparser>lexparserCh.bat input.txt>outputch.txt

Loading parser from serialized file chineseFactored.ser.gz ... done [30.2 sec].

Parsing file: input.txt with 1 sentences.

Parsing [sent. 1 len. 15]: 一些盜版製品經營者為了應付和躲避打擊，經營

手法更為隱蔽。

Parsed file: input.txt [1 sentences].

Parsed 15 words in 1 sentences (3.35 wds/sec; 0.22 sents/sec).

其中，chineseFactored.ser.gz 是用於中文的parser。

結果：outputch.txt 檔案

ROOT

(IP

(NP

(QP (CD 一些))

(NP (NN 盜版) (NN 製品)))

(NP (NN 經營者)))

(PP (P 為了)

(IP

(VP

(VP (VV 應付))

(CC 和)

(VP (VV 躲避)

(NP (NN 打擊))))))

(PU ，)

(NP (NN 經營) (NN 手法))

(VP

(ADVP (AD 更為))

(VP (VV 隱蔽)))

(PU 。)))

numod(製品-3, 一些-1)

nmod(製品-3, 盜版-2)

nmod(經營者-4, 製品-3)

nsubj(隱蔽-14, 經營者-4)

prep(隱蔽-14, 為了-5)

clmpd(為了-5, 應付-6)

cc(應付-6, 和-7)

ccomp(應付-6, 躲避-8)

dobj(躲避-8, 打擊-9)

nmod(手法-12, 經營-11)

nsubj(隱蔽-14, 手法-12)

advmod(隱蔽-14, 更為-13)

3、圖形工具介面

執行命令：lexparser-gui.bat

首先load parser

然後選擇檔案，必須是utf-8編碼的，而且是分詞過後的。

Language 選擇中文。

最後 parser 得到結果的樹形表示。

三、句法分析樹標註集

ROOT：要處理文字的語句

IP：簡單從句

NP：名詞短語

VP：動詞短語

PU：斷句符，通常是句號、問號、感嘆號等標點符號

LCP：方位詞短語

PP：介詞短語

CP：由‘的’構成的表示修飾性關係的短語

DNP：由‘的’構成的表示所屬關係的短語

ADVP：副詞短語

ADJP：形容詞短語

DP：限定詞短語

QP：量詞短語

NN：常用名詞

NR：固有名詞

NT：時間名詞

PN：代詞

VV：動詞

VC：是

CC：不是（應該是吧！！不太確定）

VE：有

VA：表語形容詞

AS：內容標記（如：了）

VRD：動補複合詞

Stanford Parser中文句法分析器的使用

Contents 一、使用時注意兩點二、stanford parser 命令列使用 1 處理一箇中文的句子 2 詞性標註和生成依存關係 3 圖形工具介面三、句法分析樹標註集一、使用

Stanford-parser依存句法關係解釋

計算機語言學家羅賓森總結了依存語法的四條定理： 1、一個句子中存在一個成分稱之為根（root），這個成分不依賴於其它成分。 2、其它成分直接依存於某一成分； 3、任何一個成分都不能依存與兩個或兩個以上的成分； 4、如果A成分直接依存於B成分，而C成分在句中位於A和B之間，那

基於CRF的中文句法依存分析模型

依存關係本身是一個樹結構，每一個詞看成一個節點，依存關係就是一條有向邊。本文主要通過清華大學的句法標註語料庫。實現程式碼： import sys reload(sys) sys.setdefaultencoding('utf8') import sklearn_crfsuite

NLTK中使用Stanford parser

nltk工具包中有一個用於自然語言句法分析的資料夾parse（地址C:\Python27\Lib\site-packages\nltk\parse\stanford.py）。其中stanford.py就是我們要用的stanford parser的原始檔，這裡

npm body-parser 中文api

body-parser node.js body parsing 中介軟體安裝 $ npm install body-parser API var bodyPaeser =require('body-parser')

Stanford NLP工具--句法分析

1，先上幾個網址。主頁：http://nlp.stanford.edu github地址：https://github.com/stanfordnlp/CoreNLP 線上效果展示1：http://nlp.stanford.edu:8080/parser/index.js

stanford parser 使用說明

preface: 最近忙著的專案想試著用斯坦福的parser，來解析句子生成句法分析樹，然後分析子樹，與treekernal結合起來，訓練。stanford parser神器下載下來了，可使用卻是蛋疼。一大堆說明，卻沒個方便快捷關於總的介紹。一、必先利其器另外擴充

NLP+句法結構（三）︱中文句法結構（CIPS2016、依存句法、文法）

摘錄自：CIPS2016 中文資訊處理報告《第一章詞法和句法分析研究進展、現狀及趨勢》P8 -P11 CIPS2016> 中文資訊處理報告下載連結：http://cips-upload.bj.bcebos.com/cips2016.pd

2017MySQL中文索引解決辦法自然語言處理(N-gram parser)

ray spa 全文索引 rom alt lte int 中文索引 ble 　　問題：長期以來MYSQL搜索對於中文來說不太理想，InnoDB引擎對FULLTEXT索引的支持是MySQL5.6新引入的特性，但是用“初級”一詞在“我是一名初

solr 配置中文分析器/定義業務域/配置DataImport功能(測試用)

span host utf-8 handle copy float jar包 rds blog 一、配置中文分析器使用IKAnalyzer 配置方法： 1）把IK的jar包添加到solr工程中/WEB-INF/lib目錄下 2）把I

開源中文分詞工具探析（六）：Stanford CoreNLP

inf git deb seq 效果 analysis stream fix sps CoreNLP是由斯坦福大學開源的一套Java NLP工具，提供諸如：詞性標註（part-of-speech (POS) tagger）、命名實體識別（named entity recog

solr增加中文分析器

PE 分享圖片 field textfield true word src enc oct 我的solr版本是5.3.0 1將jar包ik-analyzer-solr5-5.x.jar放入sor的web-inf的lib裏面 2 在web-inf下面新建classes目

解決ini-parser解析ini文件中文亂碼問題

url ref repo utf erl 格式 ide nbsp 解析 rickyah/ini-parser 是一個.net 平臺解析ini文件的庫，當ini文件中含有中文字符時會亂碼。解決：將文件通過Editplus 等文本編輯工具保存為 utf-8 + bom

15、Analyzer分析器之中文分析器的擴充套件

其實在第五章節裡已經有介紹過下面的分析器了，只是沒有做例子，今天將下面沒有做過例子分析器進行一個例子說明 paoding：庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支援Lucene 3.0，且

全文搜尋技術--Solr7.1之配置中文分析器

前言：中國文化博大精深，但是solr只能一個一個的識別，而是更加符合中國人的習慣，所以加了中文分析器。 1.安裝中文分詞器第一步：把中文分詞器(ik-analyzer-solr7-7.x.jar)/usr/local/solr_tomcat/webapps/solr/WEB-INF/lib下第二步：

使用Java呼叫Stanford CoreNLP 進行中文分詞

Stanford CoreNLP 進行中文分詞中文分詞的工具有很多，使用斯坦福的CoreNLP進行分詞的教程網上也不少，本篇部落格是記錄自己在使用Stanford CoreNLP進行中文分詞的學習筆記。 1. 工具準備 1.1 下載NLP相關包：網址： https://stanfordn

中文NLP（1） -- 開源工具 ltp 和 stanford

完整的程式碼和模型檔案可在我的GitHub：（程式碼是 linux 版本，windows 上執行只需要簡單調整） https://github.com/ouprince/pyltp-stanford-nlp windows 下執行調整如下：將父類 StanfordCor

使用Stanford Word Segmenter and Stanford Named Entity Recognizer (NER)實現中文命名實體識別

簡介 Stanford NER是命名實體識別（NER，Named Entity Recognizer）的一個Java實現。NER可以標記文字中詞的序列，如人名、公司名、基因名或者蛋白質名等。它自帶精心設計的用於NER的特徵提取器，和用於定義特徵提取器的許多選項

solr7.3配置中文分析器和自定義業務域

1、拷貝jar包[[email protected] conf]# cp /usr/local/solr/solr-7.3.0/dist/solr-dataimporthandler-7.3.0.jar /usr/local/solr/tomcat8/webapp

Stanford 中文分詞

貌似實際用的不是這幾篇。中間2. github上那篇，是怎麼在maven中使用，通過properties檔案生效。然而沒有嘗試成功，properties裡設定不成功。首先，去【1】下載Download Stanford Word Segmenter ve

Stanford Parser中文句法分析器的使用

相關推薦