Day 40：文字特徵抽取，中文特徵值化

阿新 • • 發佈：2021-01-19

技術標籤：學習記錄學習成長學習筆記大資料資料分析 python 字串機器學習

Python 回憶錄

2020/1/18
- 文字特徵抽取
- - 流程
  - 中文流程

2020/1/18

文字特徵抽取

其實就是對文字資料進行特徵值化，運用到sklearn的類是sklearn.feature_extraction.text.CountVectorizer注意是在text模組下的。

CountVectorizer（）返回的是詞頻矩陣

CountVectorizer.fit_transform(x)X:文字或者包含文字字串的可迭代物件，返回sparse矩陣
CountVectorizer.inverse_transform(x)

x:array陣列或者sparse矩陣返回值：轉換之前的資料格式
CountVectorizer.get_feature_names()返回單詞列表

流程

1.實列化CountVectorizer
2. 呼叫fit_transform方法輸入資料並轉換（需要注意利用toarray（）方法從sparse矩陣轉換array陣列）

from sklearn.feature_extraction.text import CountVectorizer
def countvec():
	cv = CountVectorizer()
	data = cv.fit_transform(["life is too short, i like python" 
,"life is too long, i dislike python"])
	print(cv.get_feature_names())
	print(data.toarray())

	return None


if __name__ == "__main__":
	countvec()

輸出
在這裡插入圖片描述
第一行是get_feature_name統計所有文章出現的詞，相當於詞的列表，一個字母的沒有統計因為沒有太大意義。
第二行是統計每個詞出現次數

中文流程

要想要中文特徵值化得需要用到 “ jieba”這個工具幫忙把中文段落用空格分開。在terminal中 pip install jieba

安裝用jieba.cut("一個字串")方法分隔字串。
注意：jieba.cut返回的不是列表，所以得需要轉換列表並且再轉為字串才可以被CountVectorizer.fit_transform()方法所應用

import jieba
from sklearn.feature_extraction.text import CountVectorizer


def cutword():
    con1 = jieba.cut("這裡就隨便寫點中文的字串")
    con2 = jieba.cut("這裡要寫一點和上面不一樣的中文字串")
    #轉換為列表後轉化為字串
    c1 = ' '.join(list(con1))
    c2 = ' '.join(list(con2))
    return c1, c2


def countvec():

    c1, c2 = cutword()
    cv = CountVectorizer()
    data = cv.fit_transform([c1,c2,])
    print(cv.get_feature_names())
    print(data.toarray())


if __name__ == "__main__":
	countvec()

輸出
在這裡插入圖片描述

Day 40：文字特徵抽取，中文特徵值化

技術標籤：學習記錄學習成長學習筆記大資料資料分析python字串機器學習 Python 回憶錄

P6 文字特徵抽取以及中文問題

http://bilibili.com/video/BV184411Q7Ng?p=6 \"\"\" 演示字典的特徵抽取， DictVectorizer是一個類的名字

機器學習進度01（sklearn、字典特徵抽取、文字特徵抽取（CountVectorizer、TfidfVevtorizer）、中文文字特徵抽取）

sklearn資料集 1 scikit-learn資料集API介紹 sklearn.datasets 載入獲取流行資料集 datasets.load_*()

sklearn--文字特徵抽取

技術標籤：python機器學習 #文字特徵抽取 #作用：對文字資料進行特徵值化 from sklearn.feature_extraction.text import CountVectorizer

微軟 Windows Terminal 命令列終端工具 1.7 預覽釋出：新增設定 UI ，增強視窗化管理

3月2日訊息外媒 Neowin 報道，微軟部落格今天公佈了 Windows Terminal 的最新預覽版，將版本提升到 1.7。這也意味著，1.6 版本現在已經開始普遍使用。至於 1.7 版本，微軟帶來了一堆改進，新增加設定 UI 介面，增強視

騰訊 QQ 安卓版 8.8.55 正式版釋出：帶來“超級表情”，可愛萌化

感謝網友迷一樣的菠蘿、韋小寶2、霸氣者、火星網友的線索投遞！

什麼是機器學習的特徵工程？【資料集特徵抽取（字典，文字TF-Idf）、特徵預處理（標準化，歸一化）、特徵降維（低方差，相關係數，PCA）】

2.特徵工程 2.1 資料集 2.1.1 可用資料集 Kaggle網址：https://www.kaggle.com/datasets UCI資料集網址： http://archive.ics.uci.edu/ml/

python使用正則表示式去除中文文字多餘空格，保留英文之間空格方法詳解

在pdf轉為文字的時候，經常會多出空格，影響資料觀感，因此需要去掉文字中多餘的空格，而文字中的英文之間的正常空格需要保留，輸入輸出如下：

建一個窗體，新增元件標籤伩文字域文字區/按鈕，用以錄入 Stundent資訊：姓名/性別/學號及高等數學

matlab中文顯示亂碼：控制檯上的，編輯器的，圖片中的

問題:matlab指令碼與函式檔案的中文註釋顯示亂碼. 環境:matlab R2019a. Windows 10 參考：

基於ABP做一個簡單的系統——實戰篇：4.基於富文字編輯器，Razor模板引擎生成內容並匯出Word 填坑記錄

起因需求是這樣的，有一種協議需要生成，協議的模板是可配置的，在生成過程中，模板中的內容可以根據約定的標記進行替換（就像mvc的razor模板一樣）。生成後的內容還需要匯出成word或pdf。

表情包AI生成器：識別人臉情緒，自動配文字

梅寧航發自凹非寺量子位報道 | 公眾號 QbitAI Meme表情包，興盛於各大社交網站，但自己動手製作費時耗力。

麒麟9000跑分再曝：GPU表現搶眼，華為Mate 40 Pro螢幕解析度確認

10 月 13 日訊息繼 Geekbench 跑分曝光後，麒麟 9000 處理器的安兔兔跑分也已經出爐，還透露了華為 Mate 40 Pro 的螢幕解析度。

華為Mate 40 Pro系統介面截圖曝光：搭載麒麟9000，預裝EMUI 11

10 月 19 日訊息隨著華為 Mate 40 系列釋出的臨近，關於新機更多的爆料浮出水面。現在西班牙媒體 Huawei Ailesi 曝光了號稱是華為 Mate 40 Pro 系統介面截圖，一起來看一下。

lession 1，資料特徵提取，字典特徵提取，文字特徵提取

from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.feature_extraction import DictVectorizer

題目：古典問題（兔子生崽）：有一對兔子，從出生後第3個月起每個月都生一對兔子，小兔子長到第三個月後每個月又生一對兔子，假如兔子都不死，問每個月的兔子總數為多少？（輸出前40個月即可）

技術標籤：C 題目：古典問題（兔子生崽）：有一對兔子，從出生後第3個月起每個月都生一對兔子，小兔子長到第三個月後每個月又生一對兔子，假如兔子都不死，問每個月的兔子總數為多少？（輸出前40個月即可）程式

Java經典程式設計習題100例：第17例：承上題，將這40個成績按照從高到低的順序輸出出來

技術標籤：Java體系java演算法C語言c++python 不要自卑，去提升實力網際網路行業誰技術牛誰是爹如果文章可以帶給你能量，那是最好的事！請相信自己加油o~

普歌-赤道團隊：文字，圖片，行內塊元素/塊級元素水平/垂直居中合集(內容較多，建議收藏)

技術標籤：cssHtmlhtmlcssflexless 在html學習或網頁開發中，會遇到需要設定水平居中的場景，但不同型別的元素水平/垂直居中有不同書寫格式或者程式碼，現在我來盤點一下：

愛奇藝手機端側 “增強畫質”上線：華為 P40/Mate 40 等機型可體驗，低畫質秒變清晰

3月9日訊息據華為開發者聯盟釋出，在最新上線的愛奇藝 V12.1.5 版本中，愛奇藝與 HUAWEI HiAI 合作在手機端側新增了增強畫質功能。該功能使用愛奇藝自研的 ZoomAI 超分演算法，能在端側將低解析度的視訊進行畫質增強

華為 Mate 40 Pro 4G 入網工信部：搭載麒麟 9000 ，首款預裝鴻蒙 OS 2.0 的手機

4 月 25 日訊息近期，華為悄悄在官網上線了Mate 40 Pro 4G 版與 Mate X2 4G 版，除了不支援 5G，其餘配置均與 5G 版相同，兩款機型顯示搭載麒麟 9000 晶片。

Day 40：文字特徵抽取，中文特徵值化

Python 回憶錄

2020/1/18

文字特徵抽取

流程

中文流程

相關推薦