python自然語言處理——NLTK——詞性標籤（pos_tag）

阿新 • • 發佈：2019-01-09

最近在做一個分類40000條推特評論的情感分類器。
設計文字情感分類器的時候首先要用到的就是NLTK包來進行單詞過濾。

先用NLTK包的pos_tag方法（part-of-speech tagging）來對單詞的詞性進行標記，標記後的結果是二元陣列格式。之後從這個二元數列中挑出我們所有需要的tag，存放進一個二元數列。

實現程式碼：

首先別忘了

import nltk

假設我們處理的是like hate這兩個詞。任意選擇一段英語文字，建立它們的token

words=word_tokenize(‘i hate study on monday. Jim like rabbit.’)

然後挑選出所有需要的詞性。詞性列表：

CC coordinatingconjunction 並列連詞

CD cardinaldigit 純數基數

DT determiner 限定詞（置於名詞前起限定作用，如 the、some、my 等）

EX existentialthere (like:"there is"... think of it like "thereexists") 存在句；存現句

FW foreignword 外來語；外來詞；外文原詞

IN preposition/subordinating conjunction介詞/從屬連詞；主從連詞；從屬連線詞

JJ adjective

'big' 形容詞

JJR adjective, comparative 'bigger' （形容詞或副詞的）比較級形式

JJS adjective, superlative 'biggest' （形容詞或副詞的）最高階

LS listmarker 1)

MD modal (could, will) 形態的，形式的 , 語氣的；情態的

NN noun, singular 'desk' 名詞單數形式

NNS nounplural 'desks' 名詞複數形式

NNP propernoun, singular 'Harrison' 專有名詞

NNPS proper noun

, plural 'Americans' 專有名詞複數形式

PDT predeterminer 'all the kids' 前位限定詞

POS possessiveending parent's 屬有詞結束語

PRP personalpronoun I, he, she 人稱代詞

PRP$ possessive pronoun my, his, hers 物主代詞

RB adverb very, silently, 副詞非常靜靜地

RBR adverb,comparative better （形容詞或副詞的）比較級形式

RBS adverb,superlative best （形容詞或副詞的）最高階

RP particle give up 小品詞(與動詞構成短語動詞的副詞或介詞)

TO to go 'to' the store.

UH interjection errrrrrrrm 感嘆詞；感嘆語

VB verb, baseform take 動詞

VBD verb, pasttense took 動詞過去時；過去式

VBG verb,gerund/present participle taking 動詞動名詞/現在分詞

VBN verb, pastparticiple taken 動詞過去分詞

VBP verb,sing. present, non-3d take 動詞現在

VBZ verb, 3rdperson sing. present takes 動詞第三人稱

WDT wh-determiner which 限定詞（置於名詞前起限定作用，如 the、some、my 等）

WP wh-pronoun who, what 代詞（代替名詞或名詞片語的單詞）

WP$ possessivewh-pronoun whose 所有格；屬有詞

WRB wh-abverb where, when 副詞

（https://wenku.baidu.com/view/c63bec3b366baf1ffc4ffe4733687e21af45ffab.html）

因為情感分類，一般需要的是人稱代詞、動詞、形容詞、副詞等，所以挑選出合適的tags；並且把pos_tag方法建立的詞和對應詞性儲存在pos_tags數列。

tags = set(['MD', 'UH', 'VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ', 'RP', 'RB', 'RBR', 'RBS', 'JJ', 'JJR', 'JJS'])
pos_tags =nltk.pos_tag(words)

之後建立空陣列ret，遍歷pos_tags，把有我們需要的詞性的陣列儲存到ret[]

ret = []
for word,pos in pos_tags:
        if (pos in tags):
            ret.append(word)
 return ' '.join(ret)

python自然語言處理——NLTK——詞性標籤（pos_tag）

最近在做一個分類40000條推特評論的情感分類器。設計文字情感分類器的時候首先要用到的就是NLTK包來進行單詞過濾。先用NLTK包的pos_tag方法（part-of-speech tagging）來對單詞的詞性進行標記，標記後的結果是二元陣列格式。之後從這個二元數列中挑出我

Python自然語言處理nltk庫中的一些重要的模組

nltk庫中的一些重要的模組 ——nltk.corpus ————獲取語料庫。 ——————語料庫和詞典的標準化介面 ——nltk.tokenize,nltk.stem ————字串處理 ——————分詞，句子分解，提取主幹 ——nltk.collocation

《用Python進行自然語言處理》程式碼筆記（五）：第七章：從文字提取資訊

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Author : Peidong # @Site : # @File : eg7.py # @Software: PyCharm """ 從文字提取資訊 """

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第三課詞向量（2）

一、word2vec 1、回顧：skip-grams word2vec的主要步驟是遍歷整個語料庫，利用每個視窗的中心詞來預測上下文的單詞，然後對每個這樣的視窗利用SGD來進行引數的更新。對於每一個視窗而言，我們只有2m+1個單詞（其中m表示視窗的半徑），因此我們計算出來的梯度向量是

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第二課詞向量（word vector）

課程概要 1、單詞含義 2、word2vec介紹 3、word2vec目標函式的梯度推導 4、目標函式優化：梯度下降法一、單詞含義含義（meaning）指的是由單詞表達的觀點。我們一般使用單詞含義的方法是，使用像WordNet那樣的分類詞典，給每個單詞對應的上下義關係以及同義

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第八課迴圈神經網路

課程概要 1、傳統語言模型 2、迴圈神經網路 3、例項（python） 4、RNN處理的一些技巧 5、針對其他任務的序列模型 6、總結一、傳統語言模型語言模型可以計算一些系列的單詞的概率P（w1，…,wT) 可以用來進行機器翻譯單詞順序：p(the

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第十課神經機器翻譯（neural machine translation）與attention模型

本課概要 1、機器翻譯（MT） 2、帶attention的序列模型 3、序列模型解碼器（decoder）一、機器翻譯（MT）機器翻譯是一個十分經典的語言理解的測試，涉及語言分析（language analysis）與語言生成（language generat

斯坦福大學自然語言處理第一課 “引言（introduction）”

斯坦福大學自然語言處理第一課“引言（introduction）” 1.課程介紹斯坦福大學於2012年3月在Coursera啟動了線上自然語言處理課程，由NLP領域大牛Dan Jurafsky 和 Chirs Manning教授授課： https://

TensorFlow自然語言處理篇--------遞迴（迴圈）神經網路RNN（LSTM模型）

歡迎點選參觀我的 ——> 個人學習網站（未完待續）準備工作我們將會訓練一個RNN用於語言方面，目標是給出一系列單詞，然後預測下一個單詞。為此，我們使用專門衡量這些模型好壞的標準資料：PTB資料。它的資料量比較小並且訓練起來相對較快。

深度學習在自然語言處理中的應用（一）

資料整理篇經典教材 Speech and Language Processing (第1,2版內容略陳舊，第三版很入時, 但有些重要章節沒放在網上) https://web.stanford.edu

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第六課依存句法分析

課程概要 1、句法結構：成分句法、依存句法 2、依存語法 3、 Transition-based依存句法分析 4、神經網路的依存句法分析一、句法結構：成分句法、依存句法二、依存語法三、Transition-based依存句法分析四、神經網路的依存句

Python 自然語言處理（基於jieba分詞和NLTK）

----------歡迎加入學習交流QQ群：657341423 自然語言處理是人工智慧的類別之一。自然語言處理主要有那些功能？我們以百度AI為例從上述的例子可以看到，自然語言處理最基本的功能是詞法分析，詞法分析的功能主要有：分詞分句詞語標註詞法時態

python自然語言處理-—安裝NLTK

安裝Anaconda後，進入Prompt介面依次輸入 easy_install pip pip install pyyaml nltk 結果如下下載nltk中的資料集 import nltk nltk.download() 選擇book文字集合下載相關資料集

python自然語言處理（二）

1詞性標註簡單的理解就是對詞性（POS）進行標註，但在不同的領域，詞性可能是不同的，Penn Treebank pos標記庫：https://blog.csdn.net/u010099495/article/details/46776617 其中程式需要安裝兩個依賴包 nlt

python自然語言處理（一）

1標識化處理何為標識化處理？實際上就是一個將原生字串分割成一系列有意義的分詞，其複雜性根據不同NLP應用而異，目標語言的複雜性也佔了很大部分，例如中文的標識化是要比英文要複雜。 word_tokenize()是一種通用的，面向所有語料庫的標識化方法，基本能應付絕大多數。 reg

python 自然語言處理統計語言建模（1/2）

一、計算單詞頻率例子：生成1-gram，2-gram，4-gram的Alpino語料庫的分詞樣本 import nltk # 1 - gram from nltk.util import ngrams from nltk.corpus import alp

python 自然語言處理統計語言建模 - （n-gram模型）

N-gram語言模型考慮一個語音識別系統，假設使用者說了這麼一句話：“I have a gun”，因為發音的相似，該語音識別系統發現如下幾句話都是可能的候選：1、I have a gun. 2、I have a gull. 3、I have a gub. 那麼問題來了，到底哪一個是正確答案呢？

python 自然語言處理詞性標註

一、詞性標註簡介 import nltk text1=nltk.word_tokenize("It is a pleasant day today") print(nltk.pos_tag(text1)) Number Tag

Python 自然語言處理（NLP）工具庫彙總

6.spaCy 這是一個商業的開源軟體。結合了Python 和Cython 優異的 NLP 工具。是快速的，最先進的自然語言處理工具。網站：安裝： pip install spacy 7.Polyglot Polyglot 支援大規模多語言應用程式的處理。它支援165種語言的分詞，196中語言的辨識，

精通Python自然語言處理 4 ：詞性標註--單詞識別

詞性標註被用於資訊檢索、機器翻譯、NER、語言分析等1、詞性標註簡介一個對句中的每個識別符號分配詞類（如名詞、動詞、形容詞等）標記的過程。在nltk.tag包中並被TaggerIbase類所繼承。>>> text1 = nltk.word_tok

python自然語言處理——NLTK——詞性標籤（pos_tag）

相關推薦