自然語言處理--向量之間點積看基於TruncatedSVD 的垃圾短訊息分類的效果

阿新 • • 發佈：2021-01-11

要了解向量空間模型在分類方面的效果如何，一種方法是檢視類別內部向量之間的餘弦相似度與它們的類別歸屬之間的關係。

我們應該會看到，任何垃圾短訊息（“sms2!”）之間的正的餘弦相似度（點積）更大:

import pandas as pd
from nlpia.data.loaders import get_data
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.tokenize.casual import casual_tokenize
from 
 sklearn.decomposition import TruncatedSVD
import numpy as np

# 從 nlpia 包中的 DataFrame 載入短訊息資料
pd.options.display.width = 120
sms = get_data('sms-spam')
# 向短訊息的索引號後面新增一個感嘆號，以使垃圾短訊息更容易被發現
index = ['sms{}{}'.format(i, '!'*j) for (i,j) in zip(range(len(sms)), sms.spam)]
sms.index = index
print(sms.head( 
6))

# 計算每條訊息的 TF-IDF 向量
tfidf = TfidfVectorizer(tokenizer=casual_tokenize)
tfidf_docs = tfidf.fit_transform(raw_documents=sms.text).toarray()
# 來自分詞器（casual_tokenize）的 9232 個不同的1-gram 詞條
print(len(tfidf.vocabulary_))
tfidf_docs = pd.DataFrame(tfidf_docs)
# 減去平均值對向量化的文件（詞袋向量）進行中心化處理
tfidf_docs = tfidf_docs - 
 tfidf_docs.mean()
# 4837 條短訊息
print(tfidf_docs.shape)
# 有 638 條（13%）被標記為垃圾短訊息
print(sms.spam.sum())
print("詞彙表：\n", tfidf.vocabulary_)

# svd
svd = TruncatedSVD(n_components=16, n_iter=100)
svd_topic_vectors = svd.fit_transform(tfidf_docs.values)
columns = ['topic{}'.format(i) for i in range(svd.n_components)]
svd_topic_vectors = pd.DataFrame(svd_topic_vectors, columns=columns, index=index)
# TruncatedSVD 的這些主題向量與 前面PCA 生成的主題向量完全相同！這個結果是因為我們非
# 常謹慎地使用了很多的迭代次數（n_iter），並且還確保每個詞項（列）的 TF-IDF 頻率都做了
# 基於零的中心化處理（通過減去每個詞項上的平均值）。
print(svd_topic_vectors.round(3).head(6))

# 計算前10 條短訊息對應的前 10個主題向量之間的點積，我們應該會看到，
# 任何垃圾短訊息（“sms2!”）之間的正的餘弦相似度（點積）更大。
svd_topic_vectors = (svd_topic_vectors.T / np.linalg.norm(svd_topic_vectors, axis=1)).T
print(svd_topic_vectors.iloc[:10].dot(svd_topic_vectors.iloc[:10].T).round(1))

自然語言處理--向量之間點積看基於TruncatedSVD 的垃圾短訊息分類的效果

技術標籤：自然語言處理python機器學習nlp自然語言處理要了解向量空間模型在分類方面的效果如何，一種方法是檢視類別內部向量之間的餘弦相似度與它們的類別歸屬之間的關係。

自然語言處理實踐——1.詞向量word2vec的轉化

技術標籤：paper機器學習自然語言處理 1. 為什麼要進行詞向量的轉化？計算機看不懂我們人類的語言文字，必須轉化成機器看得懂的形式才能進行下一步的處理。

自然語言處理--keras實現一維卷積網路對IMDB 電影評論資料集構建情感分類器

技術標籤：自然語言處理卷積神經網路python情感分析nlp 為什麼在 NLP 分類任務中選擇 CNN 呢？ 1.CNN神經網路可以像處理影象一樣處理文字並“理解”它們 2.主要好處是高效率 3.在許多方面，由於池化層和卷積核大

哈工大自然語言處理工具箱之ltp在windows10下的安裝使用教程

ltp是哈工大出品的自然語言處理工具箱,pyltp是python下對ltp(c++)的封裝. 在linux下我們很容易的安裝pyltp,因為各種編譯工具比較方便. 但是在windows下需要安裝vs並且還得做一些配置,因為我服務的人都是在windows下辦

使用scikit-learn進行自然語言處理——文件特徵提取(基於詞袋模型bag-of-words) 計算tf-idf

首先python環境已經安裝了numpy, scipy, sklearn, jieba # coding=utf-8 \"\"\" @desc: \"\"\" from scipy import sparse

自然語言處理1-2: 編輯距離

原文出處：https://algorithms.tutorialhorizon.com/dynamic-programming-edit-distance-problem/ 問題：假設我們現在有兩個字串s1和s2，並且給出如下所示的三個編輯操作，寫出一個演算法，當每次只能使用其中一個編

自然語言處理4-3:語言模型之n-gram模型

n-gram模型 unigram模型：假設每個單詞的出現概率和前面的單詞無關，寫成表示式就是：

自然語言處理4-4：語言模型之模型評估perplexity

perplexity可以用來評估訓練的語言模型的好壞，其實就是下面這個公式 $$perplexity = 2^{-x}\\qquad x表示的是平均的log likelihood，也可以理解為平均的概率啦$$

自然語言處理4-5：語言模型之平滑操作

為什麼需要平滑操作假設有一個預料集我喜歡喝奶茶我喜歡吃巧克力我喜歡健身

自然語言處理「迷惑行為大賞」第二季

作為一名NLPer，"自然語言處理太難了" 成為你的口頭禪了嗎？今天整理了一系列自然語言處理的迷惑行為，和大家一起欣賞

自然語言處理「迷惑行為大賞」，自然語言處理太難難難了！

點選上方“AI遇見機器學習”，選擇“星標”公眾號重磅乾貨，第一時間送達

【學術】計算傳播學：自然語言處理技術的用途和應用潛力

目錄一、社會傳播學研究二、目前社會傳播學存在的挑戰（1）如何高效地收集、整合資料，並進行資訊的提取與利用。

人工智慧-自然語言處理（1）

人工智慧-自然語言處理（1）本章將介紹一些不同的方法，這些方法將我們正在使用的單詞轉換為可操縱和進行計算的向量。

自然語言處理中的Attention機制

Attention機制的理解 Attention機制也就是注意力機制，在自然語言處理中，就是對於一個語言序列的不同的部分給予不同的注意力，在數學上一般表現為權重，也就是對一個語言序列的各個元素加權。

W06 - 999、基於自然語言處理篩選簡歷

初學耗時：999h 注：CSDN手機端暫不支援章節內鏈跳轉，但外鏈可用，更好體驗還請上電腦端。

清華大學劉知遠：知識指導的自然語言處理

“語言是一塊琥珀，許多珍貴和絕妙的思想一直安全地儲存在裡面。”從人類誕生伊始，自然語言就承載著世世代代的智慧，積聚了無窮無盡的知識。這片深蘊寶藏的沃土吸引了眾多滿懷好奇的AI研究者，投入其中耕

【直播回放】新手如何入門並學習自然語言處理

大家好，歡迎來到我們的付費視訊直播回放欄目，在這個專欄中我們會每一次針對某一個主題，做1～2個小時左右的直播，包含PPT的講解與微信群的答疑交流。

自然語言處理（1）：Transformer模型實現原理詳解

劃時代的產物在2018年，谷歌推出了BERT模型之後，該模型在11項NLP任務中奪得STOA結果，引爆了整個NLP界。而BERT取得成功的一個關鍵因素是Transformer的強大作用。谷歌的Transformer模型最早是用於機器翻譯

自然語言處理之語料庫

語料庫定義：語料庫(corpus)就是存放語言材料的倉庫(語言資料庫）語料庫技術的發展

NLP自然語言處理

老實來講這課我一頭霧水滿腦袋問號 import numpy as np from collections import Counter counttime = 0

自然語言處理--向量之間點積看基於TruncatedSVD 的垃圾短訊息分類的效果

相關推薦