基於機器學習的文字分類NLP基本介紹

阿新 • • 發佈：2020-08-04

學習目的：

1 學會TF-IDF的原理和使用
2 使用sklearn的機器學習模型完成文字分類

處理文字方法：

1 One-hot（獨熱編碼）
2 Bag of Words（詞袋）
3 N-gram
4 TF-IDF 分數

下面具體介紹每種方法

one-hot：即將每一個單詞使用一個離散的向量表示。具體將每個字/詞編碼一個索引，然後根據索引進行賦值

如：

句子1：我 愛 北 京 天 安 門
句子2：我 喜 歡 上 海


首先對所有句子的字進行索引，即將每個字確定一個編號：
{'我': 1, '愛': 2, '北': 3, '京': 4, '天': 5,
  '安': 6, '門': 7, ' 
喜': 8, '歡': 9, '上': 10, '海': 11}


得到有個11維的稀疏矩陣
我：[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
愛：[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
...
海：[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1]

Bag of Words（詞袋錶示），也稱為Count Vectors，每個文件的字/詞可以使用其出現次數來進行表示

#直接統計每個字出現的次數，並進行賦值：
句子1：我 愛 北 京 天 安 門
轉換為 [1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0]

句子2：我 喜 歡 上 海
轉換為 [1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1]

在sklearn中可以直接CountVectorizer來實現這一步驟

from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
]
vectorizer = CountVectorizer()
vectorizer.fit_transform(corpus).toarray()

N-gram與Count Vectors類似，不過加入了相鄰單詞組合成為新的單詞，並進行計數

如果N取值為2，則句子1和句子2就變為：

句子1：我愛 愛北 北京 京天 天安 安門
句子2：我喜 喜歡 歡上 上海

TF-IDF 分數由兩部分組成：

第一部分是詞語頻率（Term Frequency），第二部分是逆文件頻率（Inverse Document Frequency）。

其中計算語料庫中文件總數除以含有該詞語的文件數量，然後再取對數就是逆文件頻率

1 TF(t)= 該詞語在當前文件出現的次數 / 當前文件中詞語的總數
2 IDF(t)= log_e（文件總數 / 出現該詞語的文件總數）

程式碼實現

# Count Vectors + RidgeClassifier

import pandas as pd

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import RidgeClassifier
from sklearn.metrics import f1_score

train_df = pd.read_csv('../data/train_set.csv', sep='\t', nrows=15000)

vectorizer = CountVectorizer(max_features=3000)
train_test = vectorizer.fit_transform(train_df['text'])

clf = RidgeClassifier()
clf.fit(train_test[:10000], train_df['label'].values[:10000])

val_pred = clf.predict(train_test[10000:])
print(f1_score(train_df['label'].values[10000:], val_pred, average='macro'))
# 0.74

# TF-IDF +  RidgeClassifier

import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import RidgeClassifier
from sklearn.metrics import f1_score

train_df = pd.read_csv('../data/train_set.csv', sep='\t', nrows=15000)

tfidf = TfidfVectorizer(ngram_range=(1,3), max_features=3000)
train_test = tfidf.fit_transform(train_df['text'])

clf = RidgeClassifier()
clf.fit(train_test[:10000], train_df['label'].values[:10000])

val_pred = clf.predict(train_test[10000:])
print(f1_score(train_df['label'].values[10000:], val_pred, average='macro'))
# 0.87

基於機器學習的文字分類NLP基本介紹

學習目的： 1 學會TF-IDF的原理和使用 2 使用sklearn的機器學習模型完成文字分類

機器學習-文字分類（1）之獨熱編碼、詞袋模型、N-gram、TF-IDF

1、one-hot 一般是針對於標籤而言，比如現在有貓：0，狗：1，人：2，船：3，車：4這五類，那麼就有：

機器學習-文字分類（2）-新聞文字分類

參考：https://mp.weixin.qq.com/s/6vkz18Xw4USZ3fldd_wf5g 1、資料集下載地址 https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/train_set.csv.zip

NLP文字分類學習筆記4.1：基於RCNN的文字分類

迴圈卷積神經網路RCNN 1、CNN與RNN缺點 CNN通過視窗獲取特徵，視窗尺寸不合適就會捕獲不到好特徵，視窗也不能太大，這樣就捕獲不到全域性的特徵，所以它類似於傳統的N-gram

NLP文字分類學習筆記7.1：基於ERNIE的文字分類

ERNIE 相關連結：ERNIE官方使用介紹，ERNIE專案地址基於transformer的encoder，主要思想是將文字中已有的知識融入到模型訓練中，因此採用實體mask的方式（實體指人名，地名等詞）

機器學習之分類問題實戰(基於UCI Bank Marketing Dataset)

導讀：分類問題是機器學習應用中的常見問題，而二分類問題是其中的典型，例如垃圾郵件的識別。本文基於UCI機器學習資料庫中的銀行營銷資料集，從對資料集進行探索，資料預處理和特徵工程，到學習模型的評估與選擇

Pytorch實現基於CharRNN的文字分類與生成示例

1 簡介本篇主要介紹使用pytorch實現基於CharRNN來進行文字分類與內容生成所需要的相關知識，並最終給出完整的實現程式碼。

【Java學習】01. Java基本介紹及環境搭建

Java基本介紹 Java具有簡單性、面向物件、分散式、健壯性、安全性、平臺獨立與可移植性、多執行緒、動態性等特點。Java可以編寫桌面應用程式、Web應用程式、分散式系統和嵌入式系統應用程式等。

基於機器學習的 SQL 注入漏洞挖掘技術的分析與實現——論文研究學習

論文研究學習總體介紹和概括這篇文章，首先從介紹SQL注入的背景入手，這裡點到了產生原因、影響、攻擊型別和傳統的漏洞注入技術。然後提出基於機器學習的 SQL 注入漏洞挖掘方法，這裡的指的是利用S

python機器學習 | PCA降維演算法介紹及實現

技術標籤：python機器學習本篇文章學習：通俗易懂的主成分分析法（PCA）詳解

基於機器學習的異常流量監測程式碼實現

import numpy as npimport pandas as pdfrom sklearn.neighbors import KNeighborsClassifierimport pydotplusimport matplotlib.pyplot as pltimport graphviz# from sklearn.externals import joblibfrom sklearn

東方聯盟提出基於機器學習的藍芽認證方案

東方聯盟研究人員提出了一種機器學習方法，該方法使用藍芽網路中裝置之間的真實互動作為可靠處理裝置到裝置身份驗證的基礎。

機器學習迴歸分類

Logit模型的經濟學含義：PM10保持不變的時候，PM2.5增加一個單位，取1與取0的概率比增加e^0.05（優勢比）

機器學習 | 鳶尾花分類專案實戰

前言：本系列部落格參考於《機器學習演算法導論》和《Python機器學習》如有侵權，敬請諒解。本書儘量用總結性的語言重述本書內容，避免侵權。

01- 基於機器學習的物體檢測方法

　　物體檢測就是對數字影象中一類特定的物體的位置進行自動檢測。基本的檢測框架有兩種：

【K8S 系列】k8s 學習一，Kubernetes 基本介紹及核心元件

Kubernetes 概述官網：：https://kubernetes.io/ kubernetes github：https://github.com/kubernetes/kubernetes

【轉】機器學習中分類問題類別樣本不均勻如何處理

最近剛好對類別不平衡的分類問題（也即長尾分佈學習，long-tailed recognition）做了一波review，整理一下我自己的總結，可以和其他回答互補一下，為小夥伴們提供一些思路和參考。這裡涵蓋的大部分也都是近年深度學習

機器學習入門 pandas 庫基本使用

numpy和pandas的職責 numpy 主要是函式，呼叫api pandas是主要的，來進行資料分析 pandas

h3 { background: rgba(42, 92, 170, 1); box-shadow: 0 1px 6px 1px rgba(10, 10, 0, 0.5); color: rgba(255, 255, 255, 1); font-size: 18px; font-weight: bold; height: 30px; padding: 8px 0 5px 10px; text-sh

Spring MVC學習(一) Spring MVC基本介紹以及配置

Spring MVC學習(一)Spring MVC基本介紹以及配置摘要：這篇筆記是對於Spring MVC的第一部分的學習中的整理，主要記錄了Spring MVC的基礎知識以及配置一個簡單的Spring MVC專案的方法。

基於機器學習的文字分類NLP基本介紹

相關推薦