自然語言處理（一）

阿新 • • 發佈：2019-01-29

1、計算jieba和thula的P，R，F值。基於文字‘express.txt’，標準文字是人工切分。

基本計算公式：

精度（Precision）、召回率（Recall）、F值（F-mesure）。

N ：標準分割的單詞數e ：分詞器錯誤標註的單詞數c ：分詞器正確標註的單詞數

P = c/N R = c/(c+e) F = 2*R*P/(R+P)

結巴分詞的使用函式：

s1 = list(jieba.cut(f))

清華分詞的使用函式：

thu1=thulac.thulac(seg_only=True)  
s_2 = thu1.cut(f, text=True)

程式設計思路

讀取標準文字，建立詞典（資料型別為list），去除文字中的標點符號，計算n值

通過jieba進行分詞，jieba分詞後可直接生成list，刪除文字中的標點符號，將jieba分詞的結果與詞典進行對比，遍歷jieba分詞結果中的每個詞，若詞典中有，則c+1，若沒有，則e+1，最後計算P、R、F值，輸出結果
通過清華分詞，清華分詞後的結果為一個字串，用空格隔開，先通過一個迴圈將字串中的詞分割開，存入list中，再刪除list中的標點符後，其餘步驟與jieba分詞相同
將P、R、F的計算過程寫成函式，簡化程式碼

結果

程式碼

#!/usr/bin/env python
# -*- coding:utf-8 -*-
#Date:2018/3/26 19:07
#__Author__:cimoko
#File Name:lesson_3_1.py

import jieba
import re
import thulac

def P_R_F(n, c, e):
    R = round(c / n, 4)
    P = round(c / (c + e), 4)
    F = round(2*P*R / (P + R), 4)
    print("精度P為：", P * 100, '%')
    print("召回率R為：", R * 100, '%')
    print("F值為：", F * 100, '%')
    return P, R, F

f = str(open("express.txt").readlines())
#print(f)

#標準文字
raw = open('express_cut.txt').readlines()
d=[re.split(r' |\n',w)[0] for w in raw]
dict = []
for w in d:
    if w == r'，' or w == r'。' or w == r'（'or w == r'）':
        pass
    else:
        dict.append(w)
print('*************標準分詞文字*************')
print(dict)
n = len(dict)

#結巴
s1 = list(jieba.cut(f))
s_jieba = []
for w in s1:
    if w == r'，' or w == r'。' or w == r'（'or w == r'）'or w == r'['or w == r']'or w == r"'":
        pass
    else:
        s_jieba.append(w)
#print(s_jieba)
e_jieba = 0
c_jieba = 0
for i in range(len(s_jieba)):
    if s_jieba[i] in dict:
        c_jieba += 1
    else:
        e_jieba += 1

print('*************結巴分詞結果*************')
print(s_jieba)
print('c:',c_jieba)
print('e:',e_jieba)
print('n:',n)
P_R_F(n, c_jieba, e_jieba)

#清華
thu1=thulac.thulac(seg_only=True)
s_2 = thu1.cut(f, text=True)
s2=[]
#print(s_2)
s_qinghua = []
a=0
for i in range(len(s_2)):
    if s_2[i] == ' ':
        s2.append(s_2[a:i])
        a = i+1
    else:
        continue
for w in s2:
    if w == r'，' or w == r'。' or w == r'（'or w == r'）'or w == r'['or w == r']'or w == r"'":
        pass
    else:
        s_qinghua.append(w)
#print(s_qinghua)

e_qinghua = 0
c_qinghua = 0
for i in range(len(s_qinghua)):
    if s_qinghua[i] in dict:
        c_qinghua += 1
    else:
        e_qinghua += 1

print('*************清華分詞結果*************')
print(s_qinghua)
print('c:',c_qinghua)
print('e:',e_qinghua)
print('n:',n)
P_R_F(n, c_qinghua, e_qinghua)

python自然語言處理（一）

1標識化處理何為標識化處理？實際上就是一個將原生字串分割成一系列有意義的分詞，其複雜性根據不同NLP應用而異，目標語言的複雜性也佔了很大部分，例如中文的標識化是要比英文要複雜。 word_tokenize()是一種通用的，面向所有語料庫的標識化方法，基本能應付絕大多數。 reg

系統學習自然語言處理（一）--綜述

今天開始，進入NLP方向，目前在看《自然語言處理綜論》作為入門基礎，又不高興自己手打，所以，就參考了這篇部落格，作了一些修改。另外，這本書的第二版，還沒有討論深度學習在NLP的應用，因此，可以作為一個基礎讀物，搞明白NLP是什麼，做什麼，怎麼做這些問題，但它比一般的N

Python與自然語言處理（一）搭建環境

參考書籍《Python自然語言處理》，書籍中的版本是Python2和NLTK2，我使用的版本是Python3和NLTK3 安裝NLTK3，Natural Language Toolkit，自然語言工

python自然語言處理（一）之中文分詞預處理、統計詞頻

一個小的嘗試。。資料來源資料集一共200條關於手機的中文評論，以XML格式儲存。分詞工具 python-jieba預處理包括去停用詞、去標點符號和數字去停用詞：使用的是他人總結的停用詞表去標點符號和數字：用正則表示式。原本打算的是中文標點符號從網上覆制，英文標點符號用st

深度學習與自然語言處理（一）

自然語言處理主要研究用計算機來處理、理解以及運用人類語言（又稱自然語言）的各種理論和方法，屬於人工智慧領域的一個重要研究方向，是電腦科學與語言學的交叉學科，又常被稱為計算語言學。隨著網際網路的快速發展，網路文字尤其是使用者生成的文字成爆炸式增長，為自然語言處理帶來了巨大的應用

自然語言處理（一）——基礎

現在流行的自然語言處理方法中，主要分為基於統計的經典模型和基於火熱的深度學習模型.統計模型主要會涉及到概率論和資訊理論方面的知識，在這裡會首先對其進行回顧. 未完資訊理論噪聲通道模型在自然語言處理的過程中，常常類比於訊號傳輸的過程，將預處理

自然語言處理（一）

1、計算jieba和thula的P，R，F值。基於文字‘express.txt’，標準文字是人工切分。基本計算公式：精度（Precision）、召回率（Recall）、F值（F-mesure）。N ：標準分割的單詞數e ：分詞器錯誤標註的單詞數c ：分詞器正確標註的單詞數 P

Pyhon 自然語言處理（一）NLTK及語料庫下載

Python 自然語言處理（一）NLTK及語料庫下載 NLTK是用來進行自然語言處理很強大的包，本文介紹Python下安裝NLTK及語料下載 1. 安裝 NLTK pip install nltk 如果已經安裝了 Anaconda 則預設

使用 spacy 進行自然語言處理（一）

介紹自然語言處理(NLP) 是人工智慧方向一個非常重要的研究領域。自然語言處理在很多智慧應用中扮演著非常重要的角色，例如： automated chat bots, article summarizers, multi-lingual translat

初識NLP 自然語言處理（一）

系統語言數學實現一段這一如何其中 proc 接下來的一段時間，要深入研究下自然語言處理這一個學科，以期能夠帶來工作上的提升。學習如何實用python實現各種有關自然語言處理有關的事物，並了解一些有關自然語言處理的當下和新進的研究主題。 NLP，Natur

python自然語言處理（二）

1詞性標註簡單的理解就是對詞性（POS）進行標註，但在不同的領域，詞性可能是不同的，Penn Treebank pos標記庫：https://blog.csdn.net/u010099495/article/details/46776617 其中程式需要安裝兩個依賴包 nlt

自然語言處理（3）——Word2Vec理論

word2vec是一個將單詞轉換成向量形式的工具。可以把對文字內容的處理簡化為向量空間中的向量運算，計算出向量空間上的相似度，來表示文字語義上的相似度。一、理論概述（主要來源於http://licstar.net/archives/328這篇部落格） 1.詞向量是什麼自然語言理

關於自然語言處理（NLP）的個人學習資料

個人研究的各種亂七八糟無聊資料~：深入看過的論文：連結：https://pan.baidu.com/s/19mlS8eSY8vbzr96FPYfOvw 提取碼：vy3o 期待深入看的論文連結：https://pan.baidu.com/s/1-OT3c-x

《使用Python進行自然語言處理（Nltk）》2

import nltk from nltk.corpus import * '''1、古騰堡語料庫''' gutenberg.fileids() #所有古騰堡語料庫中的文字 emma = nltk.corpus.gutenberg.words('austen-e

自然語言處理（NLP）——分詞統計可能用到的模組方法

一、itertools.chain( *[ ] ) import itertools a= itertools.chain(['a','aa','aaa']) b= itertools.chain(

自然語言處理（NLP）- HMM+VITERBI演算法實現詞性標註（解碼問題）（動態規劃）（Python實現）

NLP- HMM+維特比演算法進行詞性標註（Python實現）維特比演算法針對HMM解碼問題，即解碼或者預測問題（下面的第二個問題），尋找最可能的隱藏狀態序列：對於一個特殊的隱馬爾可夫模型(HMM)及一個相應的觀察序列，找到生成此序列最可能的隱藏狀態序列。也就是說

Python 自然語言處理（NLP）工具庫彙總

6.spaCy 這是一個商業的開源軟體。結合了Python 和Cython 優異的 NLP 工具。是快速的，最先進的自然語言處理工具。網站：安裝： pip install spacy 7.Polyglot Polyglot 支援大規模多語言應用程式的處理。它支援165種語言的分詞，196中語言的辨識，

Pytext：Facebook基於PyTorch的自然語言處理（NLP）開源框架

自然語言處理(NLP)在現代深度學習生態中越來越常見。從流行的深度學習框架到雲端API的支援，例如Google雲、Azure、AWS或Bluemix，NLP是深度學習平臺不可或缺的部分。儘管已經取得了令人難以置信的進步，但構建大規模的NLP應用依然還有極大的挑戰，在學習研究和生產部署之間還存在很多摩擦。作為當

自然語言處理（NLP）常用開源工具總結----不定期更新

學習自然語言這一段時間以來接觸和聽說了好多開源的自然語言處理工具，在這裡做一下彙總方便自己以後學習，其中有自己使用過的也有了解不是很多的，對於不甚瞭解的工具以後學習熟悉了會做更新的。 1.IKAnalyzer IK Analyzer是一個開源的，基於Jav

Python與自然語言處理（二）基於Gensim的Word2Vec

繼續學習摸索，看到很多部落格都在研究Word2Vec，感覺挺有意思，我也來嘗試一下。實驗環境：Python3，Java8 Word2Vec的輸入是句子序列，而每個句子又是一個單詞列表，由於沒有這樣結構的現成輸入，所以決定自己動手對原始語料進行預處理。這裡還有一個自然語

自然語言處理（一）

相關推薦