1. 程式人生 > >stanfordcorenlp 斯坦福python 中文外掛 語法樹取值問題解決方案

stanfordcorenlp 斯坦福python 中文外掛 語法樹取值問題解決方案

stanfordcorenlp 的parse()方法返回的是字串,所以就算拿到了資料,也沒發做判斷分析。

唯一的解決方案是改原始碼

首先找到corenlp檔案下的parse()方法:

def parse(self, sentence):
        r_dict = self._request('pos,parse', sentence)
        return [s['parse'] for s in r_dict['sentences']][0]

修改為:

def parse(self, sentence):
        r_dict = self._request('pos,parse', sentence)
        return [s['tokens'] for s in r_dict['sentences']][0]

返回結果:

[{'index': 1, 'word': '清華', 'originalText': '', 'characterOffsetBegin': 0, 'characterOffsetEnd': 2, 'pos': 'NR'}, {'index': 2, 'word': '大學', 'originalText': '', 'characterOffsetBegin': 2, 'characterOffsetEnd': 4, 'pos': 'NN'}, {'index': 3, 'word': '在', 'originalText': '', 'characterOffsetBegin': 4, 'characterOffsetEnd': 5, 'pos': 'P'}, {'index': 4, 'word': '美麗', 'originalText': '', 'characterOffsetBegin': 5, 'characterOffsetEnd': 7, 'pos': 'VA'}, {'index': 5, 'word': '的', 'originalText': '', 'characterOffsetBegin': 7, 'characterOffsetEnd': 8, 'pos': 'DEC'}, {'index': 6, 'word': '北京', 'originalText': '', 'characterOffsetBegin': 8, 'characterOffsetEnd': 10, 'pos': 'NR'}]

這樣就是一個物件集合了,就可以各種取值各種判斷計算了