python+spaCy進行自然語言處理(NLP)

阿新 • • 發佈：2021-08-20

參考文章：

使用 Python+spaCy 進行簡易自然語言處理

spaCy教程學習 - 人工智慧遇見磐創 - 部落格園

1. 安裝

1.1 安裝spaCy

$ sudo pip3 install spacy

注意：此處使用的是python3
執行此命令之前應先確保pip已安裝，可通過如下命令進行檢測是否安裝
```
pip3 --version
```
執行結果如下，則未安裝

執行sudo apt install python3-pip命令進行安裝
安裝spaCy的過程中要保證網路暢通，否則會報錯
安裝成功如下所示

1.2 下載spaCy的資料集和模型

線上安裝行不通，只能離線安裝，english對應的統計模型共四個，可以選擇需要的進行離線下載

先只下載en_core_web_sm，下載對應的github地址為https://github.com/explosion/spacy-models/tags

如上圖，點選Downloads，翻到新開啟頁面的最下方，點選第二個，即可下載en_core_web_sm-3.1.0.tar.gz

在下載位置的地方開啟終端，執行命令

$ pip install en_core_web_sm-3.1.0.tar.gz

執行結果如下，安裝成功

可通過如下操作進行測試：

lmy@LMY-LAPTOP:~/NLP$ python3
Python 3.8.10 (default, Jun  2 2021, 10:49:15) 
[GCC 9.4.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import spacy
>>> spacy.load("en_core_web_sm")
<spacy.lang.en.English object at 0x7f4bddc37670>
>>>

2. spaCy的簡單使用

2.1 檢視活動的管道元件

>>> import spacy
>>> nlp = spacy.load("en_core_web_sm")
>>> doc = nlp("He went to play basketball")
>>> nlp.pipe_names
['tok2vec', 'tagger', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']

2.2 詞性標註

>>> for item in doc:
...     print(item.text, "-->", item.pos_)
... 
He --> PRON
went --> VERB
to --> PART
play --> VERB
basketball --> NOUN
>>> spacy.explain("PART")
'particle'

2.3 依存分析

>>> for item in doc:
...     print(item.text, "-->", item.dep_)
... 
He --> nsubj
went --> ROOT
to --> aux
play --> advcl
basketball --> dobj
>>> spacy.explain("nsubj"), spacy.explain("ROOT"), spacy.explain("aux"), spacy.explain("advcl"), spacy.explain("dobj")
('nominal subject', None, 'auxiliary', 'adverbial clause modifier', 'direct object')

2.4基於spaCy的命名實體識別

>>> doc = nlp("Indians spent over $71 billion on clothes in 2018")
>>> for ent in doc.ents:
...     print(ent.text, ent.label_)
... 
Indians NORP
over $71 billion MONEY
2018 DATE
>>> spacy.explain("NORP")
'Nationalities or religious or political groups'

python+spaCy進行自然語言處理(NLP)

參考文章：使用 Python+spaCy 進行簡易自然語言處理 spaCy教程學習 - 人工智慧遇見磐創 - 部落格園

使用scikit-learn進行自然語言處理——文件特徵提取(基於詞袋模型bag-of-words) 計算tf-idf

首先python環境已經安裝了numpy, scipy, sklearn, jieba # coding=utf-8 \"\"\" @desc: \"\"\" from scipy import sparse

自然語言處理(NLP)——簡介

自然語言處理（NLP Natural Language Processing）是一種專業分析人類語言的人工智慧。就是在機器語⾔和⼈類語言之間溝通的橋梁，以實現人機交流的目的。

自然語言處理nlp小姜機器人(閒聊) nlp_xiaojiang-996station GitHub鑑賞官

Override the entrypoint of an image Introduced in GitLab and GitLab Runner 9.4. Read more about the extended configuration options.

NLP自然語言處理

老實來講這課我一頭霧水滿腦袋問號 import numpy as np from collections import Counter counttime = 0

自然語言處理的基本概念--結合spacy軟體的學習

技術標籤：自然語言處理基本概念 doc: 表示document的縮寫，可以結構化地讀取文字相關的資訊，並且不會產生丟失

Python NLTK 自然語言處理入門與例程

在這篇文章中，我們將基於 Python 討論自然語言處理（NLP）。本教程將會使用 Python NLTK 庫。NLTK 是一個當下流行的，用於自然語言處理的 Python 庫。

哈工大自然語言處理工具箱之ltp在windows10下的安裝使用教程

ltp是哈工大出品的自然語言處理工具箱,pyltp是python下對ltp(c++)的封裝. 在linux下我們很容易的安裝pyltp,因為各種編譯工具比較方便. 但是在windows下需要安裝vs並且還得做一些配置,因為我服務的人都是在windows下辦

自然語言處理1-2: 編輯距離

原文出處：https://algorithms.tutorialhorizon.com/dynamic-programming-edit-distance-problem/ 問題：假設我們現在有兩個字串s1和s2，並且給出如下所示的三個編輯操作，寫出一個演算法，當每次只能使用其中一個編

自然語言處理4-3:語言模型之n-gram模型

n-gram模型 unigram模型：假設每個單詞的出現概率和前面的單詞無關，寫成表示式就是：

自然語言處理4-4：語言模型之模型評估perplexity

perplexity可以用來評估訓練的語言模型的好壞，其實就是下面這個公式 $$perplexity = 2^{-x}\\qquad x表示的是平均的log likelihood，也可以理解為平均的概率啦$$

自然語言處理4-5：語言模型之平滑操作

為什麼需要平滑操作假設有一個預料集我喜歡喝奶茶我喜歡吃巧克力我喜歡健身

自然語言處理「迷惑行為大賞」第二季

作為一名NLPer，"自然語言處理太難了" 成為你的口頭禪了嗎？今天整理了一系列自然語言處理的迷惑行為，和大家一起欣賞

自然語言處理「迷惑行為大賞」，自然語言處理太難難難了！

點選上方“AI遇見機器學習”，選擇“星標”公眾號重磅乾貨，第一時間送達

【學術】計算傳播學：自然語言處理技術的用途和應用潛力

目錄一、社會傳播學研究二、目前社會傳播學存在的挑戰（1）如何高效地收集、整合資料，並進行資訊的提取與利用。

人工智慧-自然語言處理（1）

人工智慧-自然語言處理（1）本章將介紹一些不同的方法，這些方法將我們正在使用的單詞轉換為可操縱和進行計算的向量。

自然語言處理中的Attention機制

Attention機制的理解 Attention機制也就是注意力機制，在自然語言處理中，就是對於一個語言序列的不同的部分給予不同的注意力，在數學上一般表現為權重，也就是對一個語言序列的各個元素加權。

W06 - 999、基於自然語言處理篩選簡歷

初學耗時：999h 注：CSDN手機端暫不支援章節內鏈跳轉，但外鏈可用，更好體驗還請上電腦端。

清華大學劉知遠：知識指導的自然語言處理

“語言是一塊琥珀，許多珍貴和絕妙的思想一直安全地儲存在裡面。”從人類誕生伊始，自然語言就承載著世世代代的智慧，積聚了無窮無盡的知識。這片深蘊寶藏的沃土吸引了眾多滿懷好奇的AI研究者，投入其中耕

【直播回放】新手如何入門並學習自然語言處理

大家好，歡迎來到我們的付費視訊直播回放欄目，在這個專欄中我們會每一次針對某一個主題，做1～2個小時左右的直播，包含PPT的講解與微信群的答疑交流。