機器學習2-特徵工程

阿新 • • 發佈：2021-01-18

特徵工程

特徵抽取

文字特徵提取-`CountVectorizer`

作用：對文字資料進行特徵值化

sklearn.feature_extraction.text.CountVectorizer(stop_words=[])
- 返回詞頻矩陣

CountVectorizer.fit_transform(X) X:文字或者包含文字字串的可迭代物件返回值：返回sparse矩陣
CountVectorizer.inverse_transform(X) X:array陣列或者sparse矩陣返回值:轉換之前資料格
CountVectorizer.get_feature_names() 返回值:單詞列表

應用

我們對以下資料進行特徵提取

["life is short,i like python",
"life is too long,i dislike python"]

具體步驟：

例項化類CountVectorizer
呼叫fit_transform方法輸入資料並轉換（注意返回格式，利用toarray()進行sparse矩陣轉換array陣列）

def count_demo():
    """
       文字特徵抽取：CountVectorizer
       :return: None
    """
    data = ["life is short,i like like python", "life is too long,i dislike python"]
    #例項化轉換器
    transfer=CountVectorizer(stop_words=["is","too"])
    #呼叫fit_transform
    data_new=transfer.fit_transform(data)
    print("data_new:\n",data_new.toarray())
    print("返回特徵名字：\n", transfer.get_feature_names())
    return None

返回結果：

接下來將英文換成中文

def count_chinese_demo():
    """
       中文文字特徵抽取：CountVectorizer
       :return: None
    """
    data = ["我 愛 北京 天安門", "天安門 上 太陽 升"]
    #例項化轉換器
    transfer=CountVectorizer()
    #呼叫fit_transform
    data_new=transfer.fit_transform(data)
    print("data_new:\n",data_new.toarray())
    print("返回特徵名字：\n", transfer.get_feature_names())
    return None

結果是：

可見不支援單箇中文，需用空格分割，如若不進行分割，會把整個句子來作為特徵處理

然後手動分詞實現是不太可能的，我們採用jieba進行分詞

jieba分詞：

def cut_word(text):
    text=" ".join(list(jieba.cut(text)))
    return text

def count_chinese_demo2():
    """
       中文文字特徵抽取,自動分詞
       :return: None
    """
    data = ["一種還是一種今天很殘酷，明天更殘酷，後天很美好，但絕對大部分是死在明天晚上，所以每個人不要放棄今天。",
            "我們看到的從很遠星系來的光是在幾百萬年之前發出的，這樣當我們看到宇宙時，我們是在看它的過去。",
            "如果只用一種方式瞭解某樣事物，你就不會真正瞭解它。瞭解事物真正含義的祕密取決於如何將其與我們所瞭解的事物相聯絡。"]
    text_new=[]
    for item in data:
        text_new.append(cut_word(item))
    #例項化轉換器
    transfer=CountVectorizer(stop_words=["一種","所以"])
    #呼叫fit_transform
    data_new=transfer.fit_transform(text_new)
    print("data_new:\n",data_new.toarray())
    print("返回特徵名字：\n", transfer.get_feature_names())
    return None

例項化容器中加入：stop_words的目的是去除沒有太大意義的詞

結果為：

總結

CountVectorizer做到的是：以單詞作為統計詞，並統計出現的次數

文字特徵提取-Tf-idf

TF-IDF的主要思想是：如果某個詞或短語在一篇文章中出現的概率高，並且在其他文章中很少出現，則認為此詞或者短語具有很好的類別區分能力，適合用來分類。
TF-IDF作用：用以評估一字詞對於一個檔案集或一個語料庫中的其中一份檔案的重要程度。

公式

詞頻（term frequency，tf）指的是某一個給定的詞語在該檔案中出現的頻率
逆向文件頻率（inverse document frequency，idf）是一個詞語普遍重要性的度量。某一特定詞語的idf，可以由總檔案數目除以包含該詞語之檔案的數目，再將得到的商取以10為底的對數得到

案例

def tfidf():

    """
    用TF-IDF的方法進行文字特徵抽取
    """
    data = ["一種還是一種今天很殘酷，明天更殘酷，後天很美好，但絕對大部分是死在明天晚上，所以每個人不要放棄今天。",
            "我們看到的從很遠星系來的光是在幾百萬年之前發出的，這樣當我們看到宇宙時，我們是在看它的過去。",
            "如果只用一種方式瞭解某樣事物，你就不會真正瞭解它。瞭解事物真正含義的祕密取決於如何將其與我們所瞭解的事物相聯絡。"]
    text_new = []
    for item in data:
        text_new.append(cut_word(item))
    # 例項化轉換器
    transfer = TfidfVectorizer(stop_words=["一種", "所以"])
    # 呼叫fit_transform
    data_new = transfer.fit_transform(text_new)
    print("data_new:\n", data_new.toarray())
    print("返回特徵名字：\n", transfer.get_feature_names())
    return None

結果如下：

總結

他所反映的是這些詞的重要性，主要應用於機器學習演算法進行文章分類中前期資料處理方式

特徵預處理

什麼是特徵預處理？

特徵預處理API

from sklearn.preprocessing import MinMaxScaler,StandardScaler

為什麼我們要進行歸一化/標準化？

特徵的單位或者大小相差較大，或者某特徵的方差相比其他的特徵要大出幾個數量級，容易影響（支配）目標結果，使得一些演算法無法學習到其它的特徵

歸一化

1 定義

通過對原始資料進行變換把資料對映到(預設為[0,1])之間

2 公式

作用於每一列，max為一列的最大值，min為一列的最小值,那麼X’’為最終結果，mx，mi分別為指定區間值預設mx為1,mi為0

3 API

sklearn.preprocessing.MinMaxScaler (feature_range=(0,1)… )
- MinMaxScalar.fit_transform(X)
  - X:numpy array格式的資料[n_samples,n_features]
- 返回值：轉換後的形狀相同的array

4 資料計算

def minmax_demo():
    """
    歸一化
    """
    #1.獲取資料
    data=pd.read_csv("datingTestSet2.txt", sep=',')
    data=data.iloc[:,:3]

    #2.例項化一個轉換器,範圍在0-1
    transfer = MinMaxScaler(feature_range=[0,1])
    #3.呼叫fit_transform
    data_new=transfer.fit_transform(data)
    print("data_new:\n",data_new)
    print("特徵：\n",data.columns)

    return None

結果如下：

5 歸一化總結

注意最大值最小值是變化的，另外，最大值與最小值非常容易受異常點影響，所以這種方法魯棒性較差，只適合傳統精確小資料場景。

標準化

1 定義

通過對原始資料進行變換把資料變換到均值為0,標準差為1範圍內

2 公式

作用於每一列，mean為平均值，σ為標準差

所以回到剛才異常點的地方，我們再來看看標準化

對於歸一化來說：如果出現異常點，影響了最大值和最小值，那麼結果顯然會發生改變
對於標準化來說：如果出現異常點，由於具有一定資料量，少量的異常點對於平均值的影響並不大，從而方差改變較小。

3 API

sklearn.preprocessing.StandardScaler( )
- 處理之後每列來說所有資料都聚集在均值0附近標準差差為1
- StandardScaler.fit_transform(X)
  - X:numpy array格式的資料[n_samples,n_features]
- 返回值：轉換後的形狀相同的array

4 資料計算

def stand_demo():
    """
    歸一化
    """
    #1.獲取資料
    data=pd.read_csv("datingTestSet2.txt", sep=',')
    data=data.iloc[:,:3]

    #2.例項化一個轉換器
    transfer = StandardScaler()
    #3.呼叫fit_transform
    data_new=transfer.fit_transform(data)
    print("data_new:\n",data_new)
    print("每一列特徵的平均值：\n", transfer.mean_)
    print("每一列特徵的方差：\n", transfer.var_)

    return None

結果如下：

5 標準化總結

在已有樣本足夠多的情況下比較穩定，適合現代嘈雜大資料場景。

特徵選擇

1 定義

資料中包含冗餘或無關變數（或稱特徵、屬性、指標等），旨在從原有特徵中找出主要特徵。

2 方法

Filter(過濾式)：主要探究特徵本身特點、特徵與特徵和目標值之間關聯
- 方差選擇法：低方差特徵過濾
- 相關係數
Embedded (嵌入式)：演算法自動選擇特徵（特徵與目標值之間的關聯）
- 決策樹:資訊熵、資訊增益
- 正則化：L1、L2
- 深度學習：卷積等

3API

from sklearn.feature_selection import VarianceThreshold

4低方差特徵過濾

刪除低方差的一些特徵，前面講過方差的意義。再結合方差的大小來考慮這個方式的角度。

特徵方差小：某個特徵大多樣本的值比較相近
特徵方差大：某個特徵很多樣本的值都有差別

難點：在於掌握閾值的大小，來進行合理的控制低方差的過濾

主成分分析

什麼是主成分分析(PCA)

定義：高維資料轉化為低維資料的過程，在此過程中可能會捨棄原有資料、創造新的變數
作用：是資料維數壓縮，儘可能降低原資料的維數（複雜度），損失少量資訊。
應用：迴歸分析或者聚類分析當中

計算案例理解

假設對於給定5個點，資料如下

(-1,-2)
(-1, 0)
( 0, 0)
( 2, 1)
( 0, 1)

要求：將這個二維的資料簡化成一維？並且損失少量的資訊

這個過程如何計算的呢？找到一個合適的直線，通過一個矩陣運算得出主成分分析的結果（不需要理解）

2 API

sklearn.decomposition.PCA(n_components=None)
- 將資料分解為較低維數空間
- n_components:
  - 小數：表示保留百分之多少的資訊
  - 整數：減少到多少特徵
- PCA.fit_transform(X) X:numpy array格式的資料[n_samples,n_features]
- 返回值：轉換後指定維度的array

3 資料計算

def pca_demo():
    """
    pca降維
    """
    data=[[2,8,4,5],[6,3,0,8],[5,4,9,1]]
    #例項化一個轉換器
    transfer=PCA(n_components=0.95)
    #呼叫fit_transform
    data_new=transfer.fit_transform(data)
    print("保留95%的資訊，降維結果為:\n",data_new)

    # 1、例項化PCA, 整數——指定降維到的維數
    transfer2 = PCA(n_components=3)
    # 2、呼叫fit_transform
    data2 = transfer2.fit_transform(data)
    print("降維到3維的結果：\n", data2)
    return None

結果如下：

機器學習-2.特徵工程和文字特徵提取

1. 資料集的組成前面講了，機器學習是從歷史資料當中獲得規律，那這些歷史資料的組成是個什麼格式？大都儲存在哪裡？ – 在機器學習裡大多數資料不會存在資料庫中，大都存在檔案中（比如csv檔案） – 不存在資料庫原因：1. 讀取速度導致存在效能瓶頸。2. 儲存的格式不太符合機器學習

機器學習2-特徵工程

特徵工程特徵抽取文字特徵提取-CountVectorizer 作用：對文字資料進行特徵值化 sklearn.feature_extraction.text.CountVectorizer(stop_words=[]) 返回詞頻矩陣 CountVect

系統學習機器學習之特徵工程（二）--離散型特徵編碼方式：LabelEncoder、one-hot與啞變數*

轉自：https://www.cnblogs.com/lianyingteng/p/7792693.html 在機器學習問題中，我們通過訓練資料集學習得到的其實就是一組模型的引數，然後通過學習得到的引數確定模型的表示，最後用這個模型再去進行我們後續的預測分類等工作。在模型訓練過程中，我們會對訓練

機器學習 --2 特徵預處理之資料將維

特徵選擇概念特徵選擇就是單純地從提取到的所有特徵中選擇部分特徵作為訓練集特徵，特徵在選擇前和選擇後可以改變值、也不改變值，但是選擇後的特徵維數肯定比選擇前小，畢竟我們只選擇了其中的一部分特徵。方差過濾式 # 按照方差過濾 from sklearn.f

機器學習 --2 特徵預處理之資料標準化

歸一化: API位置 sklearn.preprocessing 歸一化: 特點：通過對原始資料進行變換把資料對映到(預設為[0,1])之間注意也可以通過指定MinMaxScalar 裡邊的feature_range 來指定縮放的範圍示例程式碼

【機器學習】特徵工程多特徵值序列化數值化獨熱編碼處理(LabelEncoder, pd.factorize())

多特徵值序列化數值化獨熱編碼處理當我們在運用某些模型時，比如在Scikit-learn中，它要求資料都得是numberic（數值型），若是文字型別就無法進行訓練。那麼在這種情況下，我們就應該先對資料進行序列化數值化：下面是幾種在Python中數值化的方法： 1

機器學習之特徵工程-資料預處理

摘自 jacksu在簡書機器學習之特徵工程-資料預處理 https://www.jianshu.com/p/23b493d38b5b 通過特徵提取，我們能得到未經處理的特徵，這時的特徵可能有以下問題：不屬於同一量綱：即特徵的規格不一樣，不能夠放在

Python機器學習之特徵工程

import numpy as np import matplotlib.pyplot as plt import pandas as pd import seaborn as sns from sklearn.model_selection import

機器學習：特徵工程

特徵選擇直接影響模型靈活性、效能及是否簡潔。好特徵的靈活性在於它允許你選擇不復雜的模型，同時執行速度也更快，也更容易理解和維護。特徵選擇四個過程：產生過程，評價函式，停止準則，驗證過程。目

機器學習之特徵工程

首先，給一張特徵工程的思維導圖：【如果要瀏覽圖片，建議將其下載到本地，使用圖片瀏覽軟體檢視】關於特徵工程（Feature Engineering），已經是很古老很常見的話題了，坊間常說：“資料和特徵決定了機器學習的上限，而模型和演算法只是逼近這個上限而已”。由此可見，特徵工程在機器學習中佔

機器學習之特徵工程-特徵選擇

點選“閱讀原文”直接開啟【北京站 | GPU CUDA 進階課程】報名連結一個基本的資料探勘場景如下：資料探勘.jpg 從上面的資料探勘場景可知，當資料預處理完成後，我們需要選擇有意義的特徵，輸入機器學習的演算法模型進行訓練。通常來說，從兩個方面考慮來選擇特徵：特徵是否發散：如果一個特徵

系統學習機器學習之特徵工程（一）--維度歸約

這裡，我們討論特徵選擇和特徵提取，前者選取重要的特徵子集，後者由原始輸入形成較少的新特徵，理想情況下，無論是分類還是迴歸，我們不應該將特徵選擇或特徵提取作為一個單獨的程序，分類或者回歸方法應該能夠利用任何必要的特徵，而丟棄不相關的特徵。但是，考慮到演算法儲存量和時間的複雜度，

機器學習筆記——特徵選擇

常見的特徵選擇方法大致可分為三類：過濾式：過濾式方法先對資料集進行特徵選擇，然後再訓練學習器，特徵選擇過程與後續學習器無關。這相當於先用特徵選擇過程對初始特徵進行“過濾”，再用過濾後的特徵來訓練模型。包裹式：包裹式特徵選擇直接把最終將要使用的學習器的效能作為特徵子集的評價標準。換言之，包

機器學習特徵值特徵抽取

根據文字的的特徵值，進行特徵值的抽取 from sklearn.feature_extraction import DictVectorizer from sklearn.feature_extraction.text import CountVectorizer def coun

機器學習-2（機器學習程式的步驟）

1 收集資料這一塊你要的知識是如何獲得資料如果不是自己的生產環境產生的真實資料，你還需要獲得爬蟲的技能，來從外部獲取資料到自己的分析庫。 2 準備輸入資料這一塊可以理解為資料轉換，把資料格式轉

機器學習2---線性模型

LDA的程式碼可參見：https://blog.csdn.net/yt71656/article/details/45199603 來補充程式碼，萌新寫的，也沒有經過整理，只是為了熟悉思路，大神輕噴。線性迴歸，python3。使用的資料是

2. 特徵工程之特徵選擇

1. 前言當資料預處理完成後，我們需要選擇有意義的特徵輸入機器學習的演算法和模型進行訓練。在做資料分析的時候，特徵的來源一般有兩塊，一塊是業務已經整理好各種特徵資料，我們需要去找出適合我們問題需要的特徵；另一塊是我們從業務特徵中自己去尋找高階資料特徵。我們就針對這兩部分來分別討論。 2. 特徵選擇的

機器學習——資料特徵預處理

歸一化以及標準化歸一化特定:通過對原始資料進行變換把資料對映到(預設為[0,1])之間公式:X'=(x-min)/(max-min) X''=X'*(mx-mi)+mi 注意:作用於每一列，max為一列的最大值，min為一列的最小值，那麼X''為最終結果，mx，mi分別為指定區

ML - 貸款使用者逾期情況分析2 - 特徵工程1（資料預處理）

文章目錄資料預處理 (判定貸款使用者是否逾期) 1. 刪除無用特徵 2. 資料格式化 - X_date 3. 資料處理 - 類別特徵 X_cate 4. 資料處理 - 其他非數值型特徵 5. 資料處理 - 數值型特徵

機器學習2：Naive Bayes（樸素貝葉斯）

參考：https://blog.csdn.net/syoya1997/article/details/78618885貝葉斯模型的講解貝葉斯模型，二分類中展開為 P(H) – 已知的先驗概率 P(H|E) – 我們想求的後驗概率，即在B事件發生後對於事件A概率的評估

機器學習2-特徵工程

特徵工程

特徵抽取

文字特徵提取-CountVectorizer

應用

總結

CountVectorizer做到的是：以單詞作為統計詞，並統計出現的次數

文字特徵提取-Tf-idf

特徵預處理

什麼是特徵預處理？

特徵預處理API

為什麼我們要進行歸一化/標準化？

歸一化

1 定義

2 公式

3 API

4 資料計算

5 歸一化總結

標準化

1 定義

2 公式

3 API

4 資料計算

5 標準化總結

特徵選擇

1 定義

2 方法

3API

4低方差特徵過濾

相關係數

主成分分析

什麼是主成分分析(PCA)

計算案例理解

2 API

3 資料計算

相關推薦

文字特徵提取-`CountVectorizer`