sklearn--文字特徵抽取

阿新 • • 發佈：2021-01-11

#文字特徵抽取
#作用：對文字資料進行特徵值化

from sklearn.feature_extraction.text import CountVectorizer

#對文字進行特徵值化


def countvec():

    #例項化

    cv=CountVectorizer()
    data=cv.fit_transform(["life is short,i like python","life is too long,i dislike python"])
    print(data. 
toarray())
    return None

if __name__ == '__main__':
    countvec()

輸出為：

[[0 1 1 1 0 1 1 0]
 [1 1 1 0 1 1 0 1]]

當得到標誌詞時，重複的詞將不予統計
在這裡插入圖片描述

#文字特徵抽取
#作用：對文字資料進行特徵值化

from sklearn.feature_extraction.text import CountVectorizer
import jieba

#對文字進行特徵值化


def countvec():

    #例項化

    cv=CountVectorizer()
    data= 
cv.fit_transform(["life is short,i like python","life is too long,i dislike python"])
    print(cv.get_feature_names())

    print(data.toarray())
    return None

def cutword():
    con1=jieba.cut("今天很殘酷，明天更殘酷，後天很美好，但絕對大部分是死在明天晚上，所以每個人都不要放棄今天。")
    #不能直接輸出con1,因為要轉換成列表 


    con2=jieba.cut("我們看到的是從很遠星系來的光是在幾百萬年之前發出的，這樣當我們看到宇宙時，我們是在看它的過去。")


    con3=jieba.cut("如果只用一種方式瞭解某樣事物，你就不會真正瞭解它。瞭解事物真正含義的祕密取決於如何將其與我們所瞭解的事物相聯絡。")
   #轉換成列表
    content1=list(con1)
    content2=list(con2)
    content3=list(con3)
    #把列表轉換成字串
    c1=''.join(content1)
    c2=''.join(content2)
    c3=''.join(content3)
    return c1,c2,c3

def hanzivec():

    #中文例項化
    c1,c2,c3=cutword()
    print(c1,c2,c3)

    cv = CountVectorizer()
    data = cv.fit_transform([c1,c2,c3])
    print(cv.get_feature_names())

    print(data.toarray())

    return None

if __name__ == '__main__':
    hanzivec()```

sklearn--文字特徵抽取

技術標籤：python機器學習 #文字特徵抽取 #作用：對文字資料進行特徵值化 from sklearn.feature_extraction.text import CountVectorizer

機器學習進度01（sklearn、字典特徵抽取、文字特徵抽取（CountVectorizer、TfidfVevtorizer）、中文文字特徵抽取）

sklearn資料集 1 scikit-learn資料集API介紹 sklearn.datasets 載入獲取流行資料集 datasets.load_*()

P6 文字特徵抽取以及中文問題

http://bilibili.com/video/BV184411Q7Ng?p=6 \"\"\" 演示字典的特徵抽取， DictVectorizer是一個類的名字

Day 40：文字特徵抽取，中文特徵值化

技術標籤：學習記錄學習成長學習筆記大資料資料分析python字串機器學習 Python 回憶錄

什麼是機器學習的特徵工程？【資料集特徵抽取（字典，文字TF-Idf）、特徵預處理（標準化，歸一化）、特徵降維（低方差，相關係數，PCA）】

2.特徵工程 2.1 資料集 2.1.1 可用資料集 Kaggle網址：https://www.kaggle.com/datasets UCI資料集網址： http://archive.ics.uci.edu/ml/

lession 1，資料特徵提取，字典特徵提取，文字特徵提取

from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.feature_extraction import DictVectorizer

深度學習之文字特徵值抽取

技術標籤：Python 首先構建三個字串： str1="疫情之下，全球化的道路將得到更多支援票還是反對票？人類社將更渴求一個相容幷包、相互支撐、分工合作的共生體，還是各自封閉，在保護主義和單邊主義的矯飾中飲

文字特徵提取

英文文字特徵提取方法步驟： ①匯入相關API from sklearn.feature_extraction.text import CountVectorizer

python機器學習-中文文字特徵提取

#中文分詞 def cut_word(text): text=\" \".join(list(jieba.cut(text))) return text #中文文字的特徵提取

CeiT：訓練更快的多層特徵抽取ViT

【GiantPandaCV導語】來自商湯和南洋理工的工作，也是使用卷積來增強模型提出low-level特徵的能力，增強模型獲取區域性性的能力，核心貢獻是LCA模組，可以用於捕獲多層特徵表示。

使用sklearn做特徵工程

目錄 1 特徵工程是什麼？ 2 資料預處理　　2.1 無量綱化　　　　2.1.1 標準化　　　　2.1.2 區間縮放法

P5 字典特徵資料抽取

https://www.bilibili.com/video/BV184411Q7Ng?p=5 註解：把一句英文轉變成了一個二維陣列。

二分查詢變形--文字摘要依據相似度找到對應的應該抽取的句子

技術標籤：數學python資料探勘二分查詢常規思路: 1.找到中間值，判斷與待查詢值大小，分別去左右序列中的中間值比較大小

機器學習sklearn（八）：特徵工程（一）特徵離散化（一）K-bins 離散化

離散化 (Discretization)(有些時候叫量化(quantization) 或裝箱(binning)) 提供了將連續特徵劃分為離散特徵值的方法。某些具有連續特徵的資料集會受益於離散化，因為離散化可以把具有連續屬性的資料集變換成只有

機器學習sklearn（九）：特徵工程（二）特徵離散化（二）特徵二值化

特徵二值化是將數值特徵用閾值過濾得到布林值的過程。這對於下游的概率型模型是有用的，它們假設輸入資料是多值伯努利分佈(Bernoulli distribution)。例如這個示例sklearn.neural_network.BernoulliRBM。

機器學習sklearn（十二）：特徵工程（三）特徵組合與交叉（一）多項式特徵

在機器學習中，通過增加一些輸入資料的非線性特徵來增加模型的複雜度通常是有效的。一個簡單通用的辦法是使用多項式特徵，這可以獲得特徵的更高維度和互相間關係的項。這在PolynomialFeatures中實現:

機器學習sklearn（十三）：特徵工程（三）特徵編碼（一）特徵雜湊(一)

來源：https://www.freesion.com/article/24301262498/ 本文介紹的是一種面對高基數類別特徵的普適性方法：特徵雜湊（FeatureHasher）。目前這只是本人的一種想法，具體效果如何還需要在實際專案中驗證。

機器學習sklearn（十四）：特徵工程（五）特徵編碼（二）特徵雜湊(二)

特徵雜湊（相當於一種降維技巧）類FeatureHasher是一種高速，低記憶體消耗的向量化方法，它使用了特徵雜湊技術，或可稱為 “雜湊法” （hashing trick）的技術。代替在構建訓練中遇到的特徵的雜湊表，如向量化所做

機器學習sklearn（十五）：特徵工程（六）特徵選擇（一）主成分分析PCA

1. 準確的PCA和概率解釋（Exact PCA and probabilistic interpretation） PCA 用於對具有一組連續正交分量(Orthogonal component譯註: 或譯為正交成分,下出現成分和分量是同意詞)的多變數資料集進行方差最大化的

機器學習sklearn（十六）：特徵工程（七）特徵選擇（二）卡方選擇（一）卡方檢驗

卡方檢驗，統計學的方法，現在機器學習看變數的時候也會用到。很多不知道的人，一聽到這個名詞，會馬上聯想到，

sklearn--文字特徵抽取

相關推薦