語義的特徵提取及簡單詞頻展示(WordCloud)

阿新 • • 發佈：2018-12-20

對於語句分析，以及詞雲展示，具體程式碼如下：

# coding=utf-8
import jieba
import numpy
import pandas as pd
from wordcloud import WordCloud
import matplotlib.pyplot as plt

# 將三個句子用jieba.cut處理
content1 = jieba.lcut("今天很殘酷，明天更殘酷，後天很美好，但絕對大部分是死在明天晚上，所以每個人不要放棄今天。")
content2 = jieba.lcut("我們看到的從很遠星系來的光是在幾百萬年之前發出的，這樣當我們看到宇宙時，我們是在看它的過去。")
content3 = jieba.lcut("如果只用一種方式瞭解某樣事物，你就不會真正瞭解它。瞭解事物真正含義的祕密取決於如何將其與我們所瞭解的事物相聯絡。")

# 將此三個轉換成列表
content1 = ' '.join(list(content1))
content2 = ' '.join(list(content2))
content3 = ' '.join(list(content3))

# 例項化count
count = CountVectorizer(stop_words=["不會", "如果"])

# 對三篇文章進行特徵提取
data = count.fit_transform([content1, content2, content3])

# 內容列印
print(count.get_feature_names())
print(data.toarray())

# 雲詞展示
# 統計雲詞
words = [content1.split(" "), content2.split(" "), content3.split(" ")]
stopwords = ["不會", "如果","師兄",  "，", "。"]
all_words = []
for word in words:
    for i in word:
        if i in stopwords or len(i)==1:
            continue
        all_words.append(str(i))

# 轉為DataFrame形式
all_words = pd.DataFrame({"all_words": all_words})

words_count = all_words.groupby(by=["all_words"])["all_words"].agg({"count": numpy.size})
words_count = words_count.reset_index().sort_values(by=["count"], ascending=False)

wordcloud = WordCloud(font_path="/Library/Fonts/Songti.ttc", background_color="white", max_font_size=80)
word_frequence = {x[0]: x[1] for x in words_count.head(len(words_count)-1).values}
wordcloud = wordcloud.fit_words(word_frequence)

# 詞頻展示
plt.imshow(wordcloud)

輸出：

['一種', '不要', '之前', '瞭解', '事物', '今天', '光是在', '幾百萬年', '發出', '取決於', '只用', '後天', '含義', '大部分', '如何', '宇宙', '我們', '所以', '放棄', '方式', '明天', '星系', '晚上', '某樣', '殘酷', '每個', '看到', '真正', '祕密', '絕對', '美好', '聯絡', '過去', '這樣']
[[0 1 0 0 0 2 0 0 0 0 0 1 0 1 0 0 0 1 1 0 2 0 1 0 2 1 0 0 0 1 1 0 0 0]
 [0 0 1 0 0 0 1 1 1 0 0 0 0 0 0 1 3 0 0 0 0 1 0 0 0 0 2 0 0 0 0 0 1 1]
 [1 0 0 4 3 0 0 0 0 1 1 0 1 0 1 0 1 0 0 1 0 0 0 1 0 0 0 2 1 0 0 1 0 0]]

生成的影象為：
在這裡插入圖片描述

語義的特徵提取及簡單詞頻展示(WordCloud)

對於語句分析，以及詞雲展示，具體程式碼如下： # coding=utf-8 import jieba import numpy import pandas as pd from wordcloud import WordCloud import matplotlib.pyplot a

音訊特徵提取及差異

MFCC特徵提取步驟：預加重->STFT->mel濾波->DCT變換->倒譜提升不同工具提取的特徵會有差別，這裡選用python中的librosa庫分析預加重： FIR一階高通濾波器，提升高頻分量，傳遞函式為 H(z)

特徵提取演算法簡單學習筆記

特徵提取：利用已有的特徵計算出一個抽象程度更高的特徵集，也指計算得到某個特徵的演算法特徵選擇：嘗試從初始的特徵集T中選擇對文字描述效果最好的特徵子集T’（重點是“選擇”）我的理解：特徵提取：需要進行特徵變換，改變向量空間特徵選擇：選擇，保留原始特徵意義------------

數字影象處理之特徵提取及常用方法

形狀特徵（一）特點：各種基於形狀特徵的檢索方法都可以比較有效地利用影象中感興趣的目標來進行檢索，但它們也有一些共同的問題，包括：①目前基於形狀的檢索方法還缺乏比較完善的數學模型；②如果目標有變形時檢索結果往往不太可靠；③許多形狀特徵僅描述了目標區域性的性質，要全面描述目標常對計算時間和儲存量有較高的要

紋理特徵提取及LBP紋理特徵matlab實現

一幅影象的紋理是在影象計算中經過量化的影象特徵。影象紋理描述影象或其中小塊區域的空間顏色分佈和光強分佈。紋理特徵的提取分為基於結構的方法和基於統計資料的方法。一個基於結構的紋理特徵提取方法是將所要檢測的紋理進行建模，在影象中搜索重複的模式。該方法對人工合成的紋理識別效果

sift、surf、orb 特徵提取及最優特徵點匹配

目錄 sift sift特徵簡介 sift特徵提取步驟 surf surf特徵簡介 surf特徵提取步驟 orb

java基礎之JDBC三：簡單工具類的提取及應用

註冊 args 釋放資源 file void tex 用戶名 SQ lose 簡單工具類： public class JDBCSimpleUtils { /** * 私有構造方法 */ private JDBCSimpleU

JQData數據提取及MySQL簡單操作——基於Python

技術建立 enc 改變證券交易基於 nod ali basename JQData平臺真的挺不錯，平臺數據可以免費使用一年，滿足絕大多數人需求，具體賬號獲取請自行百度喲~ 因需要高頻數據而Wind也只給近三年，再要還得購，，機緣遇到這一平臺，獲得了賬號試用很不錯，分享

基於OpenCV的Gabor變換及特徵提取

一、Gabor變換概述　　Gabor變換是一種加窗短時Fourier變換（Window Fourier transform or Short Time Fourier Transform）。Fourier變換是整體上將訊號分解為不同的頻率分量（任何訊號都可分解為復正弦訊號之和）

影象處理之特徵提取（一）之HOG特徵簡單梳理

　　上圖是一張行人圖的四種表示方式，原三色圖，灰度圖，邊緣圖，梯度圖，人腦根據前期學習與先驗知識很容易理解到影象中包含著一個行人，並可以根據一定情況將其從影象中摳選出來，但計算機是怎麼思考的呢？怎樣讓計算機理解以上影象中包含的是一個行人呢？前三個影象現在情況不適用，所以選取梯度圖，現在的梯度圖同樣也是人腦處理

簡單的影象顯著性區域特徵提取方法-----opencv實現LC,AC,FT

上文講了幾種簡單的方法，顯著性檢測就是把一幅影象中最吸引人注意的部分提取出來。我用opencv重寫了LC，AC,FT三種演算法，程式碼和效果如下： 1.，後面的方法其實大概都是基於這個實現的

人臉表情識別筆記（二）特徵提取之LBP（區域性二值模式）原理及MATLAB程式碼

一：原理部分 LBP（Local Binary Pattern，區域性二值模式）是一種用來描述影象區域性紋理特徵的運算元；它具有旋轉不變性和灰度不變性等顯著的優點。它是首先由T. Ojala, M.Pietikäinen, 和D. Harwood 在1994年提出，用

利用RobHess原始碼實現SIFT演算法及RANSAC去錯的影象特徵提取匹配及去除錯匹配

本文是在VS2010+Opencv2.4.9環境下實現！首先下載RobHess利用opencv實現SIFT演算法原始碼，在配置好opencv環境的vs2010中實現SIFT特徵提取、匹配，在利用K-D樹、BBF和RANSAC去除錯誤匹配，實驗結果如圖：去

文字特徵提取_03：基於詞頻數的文件向量CountVectorizer

王小草SparkML筆記筆記整理時間：2017年1月10日筆記整理者：王小草 1. 基於詞頻數的文件向量在文字特徵提取_01和02中分別介紹了TF-IDF文件矩陣和基於神經網路的word2vec詞嵌入矩陣。本文我們要介紹的是一個非常基礎非常

影象特徵點提取及描述子彙總：FIST、SURF、FAST、BRIEF、ORB、BRISK、FREAK

SIFT特徵提取及描述子 1 特徵提取 1.1 構建尺度空間 1.2 選取特徵點一個點如果在DOG尺度空間本層以及上下兩層的26個領域中是最大或最小值時，就認為該點是影象在該尺度下的一個特徵點 1.3 去除不好的特徵點 2 特徵描述子

NLP中的語言模型及文字特徵提取演算法

本文以基本語言模型為邏輯主線，漫談NLP中兩個核心問題，即文字表示（Text Representation）與文字特徵提取（Feature Engineering）。通過本文你會發現，NLP的一部分經典演算法以及目前的發展都能夠通過文字表示串聯在一起，有個

影象處理之特徵提取：HOG特徵簡單梳理

HOG 方向梯度直方圖，這裡分解為方向梯度與直方圖。一、方向梯度梯度：在向量微積分中，標量場的梯度是一個向量場。標量場中某一點上的梯度指向標量場增長最快的方向，梯度的長度是這個最大的變化率。更嚴格的說，從歐幾里得空間Rn到R的函式的梯度是在Rn某一點最佳的線性近

opencv上gpu版surf特徵點與orb特徵點提取及匹配例項

一、前言本文主要實現了使用opencv裡的gpu版surf特徵檢測器和gpu版orb檢測器，分別對圖片進行特徵點提取及匹配，並對尋獲的特徵點進行了距離篩選，將匹配較為好的特徵點進行展示二、實現程式碼我不生產程式碼，我只是程式碼的搬運工和修改工 //main.cpp/

CxImage的編譯及簡單使用舉例

end ron bin 源碼 clu cximage itl tools ostream 1、從http://sourceforge.net/projects/cximage/下載最新的CxImage 702源碼； 2、解壓縮後，以管理員身份打開CxImageFu

Centos7下安裝php-redis擴展及簡單使用

簡單使用默認安裝路徑 lan 使用 ges l數據庫 sta https log 前言：在本篇博客中，我將給大家介紹如何在Centos7上安裝PHP-Redis擴展以及一些簡單的實用，關於如何在Centos上安裝redis的，可以參考我的上一篇博客 Redis在Cen

語義的特徵提取及簡單詞頻展示(WordCloud)

相關推薦