天池二手車_特徵工程

阿新 • • 發佈：2020-07-15

前面已經做了類別和連續特徵的分析，本文將針對特徵工程進行

匯入資料

import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

#匯入訓練集和測試集
train_data =pd.read_csv('F:\\python\\天池_二手車交易價格預測\\used_car_train_20200313.csv',sep=' ')
test_data=pd.read_csv('F:\\python\\天池_二手車交易價格預測\\used_car_testB_20200421.csv 
',sep=' ')

刪除異常值

#異常值處理
def out_proc(data,col_name,scale=3):
    
    def box_plot_out(data_ser,box_scale):
        '''
        data_ser接受pd.Series資料格式
        '''
        iqr=box_scale*(data_ser.quantile(0.75)-data_ser.quantile(0.25))   #0.75分位數的值-0.25分位數的值
        val_low=data_ser.quantile(0.25)-iqr
        val_up 
=data_ser.quantile(0.75) + iqr
        rule_low = (data_ser < val_low)   
        rule_up = (data_ser > val_up)
        return (rule_low, rule_up), (val_low, val_up)  #前面返回異常的pandas.Series 資料，後面返回臨界值
    data_n=data.copy()  #先複製一個df
    data_series=data_n[col_name]  #某一列的值
    rule, value = box_plot_out(data_series, box_scale=scale)
    index  
= np.arange(data_series.shape[0])[rule[0] | rule[1]]  #shape[0]是行數，丨是or的意思，真個就是輸出有異常值的索引數
    print("Delete number is: {}".format(len(index)))   #輸出異常值個數
    data_n = data_n.drop(index)   #刪除異常值
    data_n.reset_index(drop=True, inplace=True)  #重新設定索引
    print("Now column number is: {}".format(data_n.shape[0]))  #刪除異常值之後數值的個數
    index_low = np.arange(data_series.shape[0])[rule[0]]   #低於臨界值的索引數
    outliers = data_series.iloc[index_low]   #低於臨界值的值
    print("Description of data less than the lower bound is:")
    print(pd.Series(outliers).describe())  
    index_up = np.arange(data_series.shape[0])[rule[1]]
    outliers = data_series.iloc[index_up]
    print("Description of data larger than the upper bound is:")
    print(pd.Series(outliers).describe())
    
    fig, ax = plt.subplots(1, 2, figsize=(10, 7))
    sns.boxplot(y=data[col_name], data=data, palette="Set1", ax=ax[0])  #某列原來的箱型圖
    sns.boxplot(y=data_n[col_name], data=data_n, palette="Set1", ax=ax[1])  #刪除異常值後的箱型圖
    return data_n  #返回刪除後的值

train_data根據power刪除一些異常值

# 這裡刪不刪同學可以自行判斷
# 但是要注意 test 的資料不能刪 = = 不能掩耳盜鈴是不是
train_data= out_proc(train_data,'power',scale=3)
    
train_data.shape

訓練集和測試集放在一起，方便構造特徵

#用一列做標籤區分一下訓練集和測試集
train_data['train']=1
test_data['train']=0
data = pd.concat([train_data, test_data], ignore_index=True)

建立汽車使用時間（data['creatDate'] - data['regDate']）

# 不過要注意，資料裡有時間出錯的格式，所以我們需要 errors='coerce'
data['used_time'] = (pd.to_datetime(data['creatDate'], format='%Y%m%d', errors='coerce') - 
                            pd.to_datetime(data['regDate'], format='%Y%m%d', errors='coerce')).dt.days

由於有些樣本有問題，導致使用時間為空，我們計算一下空值的個數

data['used_time'].isnull().sum()  #15054

天池二手車_特徵工程

前面已經做了類別和連續特徵的分析，本文將針對特徵工程進行匯入資料 import pandas as pd

阿里雲的金融風控-貸款違約預測_特徵工程

特徵工程 3.1 學習目標學習特徵預處理、缺失值、異常值處理、資料分桶等特徵處理方法

Alink漫談(十) ：特徵工程之特徵雜湊/標準化縮放

Alink漫談(十) ：特徵工程之特徵雜湊/標準化縮放目錄 Alink漫談(十) ：特徵工程之特徵雜湊/標準化縮放

資料預處理和特徵工程

目錄資料探勘的五大流程資料預處理(preprocessing)資料歸一化資料標準化缺失值處理處理離散型特徵和非數值型標籤處理連續型特徵二值化分箱特徵選擇(feature selection)特徵提取(feature extraction)Filter過濾法方差

人工智慧之特徵工程：什麼是特徵工程？特徵工程怎麼做？

目錄 1 特徵工程是什麼？2 資料預處理　　2.1 無量綱化　　　　2.1.1 標準化　　　　2.1.2 區間縮放法　　　　2.1.3 標準化與歸一化的區別　　2.2 對定量特徵二值化　　2.3 對定性特徵啞編碼　　2.4 缺失值計算　　2

資料準備和特徵工程

資料準備和特徵工程 1.感知資料 1-1檔案中的資料 1.1.1CSV檔案 pd.read_csv(csv_file, index_col=0)

機器視覺之資料的特徵工程

前言：隨著人工智慧的不斷髮展，機器學習這門技術也越來越重要，本文就介紹了機器學習的基礎內容。本章主要講如何對用於機器學習的資料進行特徵工程，特徵工程具體包括特徵抽取、特徵預處理、資料降維等過程。之後我

ML之FE：基於BigMartSales資料集利用Featuretools工具實現自動特徵工程之詳細攻略

技術標籤：MLDataScience ML之FE：基於BigMartSales資料集利用Featuretools工具實現自動特徵工程之詳細攻略

特徵工程之編碼化

技術標籤：數學基礎python人工智慧機器學習數學建模深度學習編碼化 1.編碼化是把變數通過某種方式對映成更符合邏輯或更易入模的特徵的一種方法

什麼是機器學習裡面的特徵工程

@目錄1.什麼是特徵工程？2.資料預處理2.1無量綱2.1.1標準化2.1.2間隔縮放方法2.1.3標準化與規範化之間的區別2.2二進位制定量特徵2.3對於定性特徵，啞編碼2.4遺漏值計算2.5資料轉換3.功能選擇3.1過濾器3.1.1方差選擇方

微軟開源工具包NNI：自動特徵工程、NAS、超參調優、模型壓縮

NNI (Neural Network Intelligence)是一個輕量但強大的工具包，幫助使用者自動的進行特徵工程，神經網路架構搜尋，超參調優以及模型壓縮。

ALINK(二十六)：特徵工程（四）特徵離散化（四）二值化 (BinarizerBatchOp)

Java 類名：com.alibaba.alink.operator.batch.feature.BinarizerBatchOp Python 類名：BinarizerBatchOp

ALINK(二十七)：特徵工程（六）特徵組合與交叉（特徵組合也叫特徵交叉）

0 概念特徵交叉一種合成特徵的方法，可以在多維特徵資料集上，進行很好的非線性特徵擬合。

ALINK(二十八)：特徵工程（七）特徵組合與交叉（二）Cross特徵預測/訓練 (CrossFeaturePredictBatchOp)

Cross特徵預測 (CrossFeaturePredictBatchOp) Java 類名：com.alibaba.alink.operator.batch.feature.CrossFeaturePredictBatchOp

ALINK(二十九)：特徵工程（八）特徵組合與交叉（三）Hash Cross特徵 (HashCrossFeatureBatchOp)

Hash Cross特徵 (HashCrossFeatureBatchOp) Java 類名：com.alibaba.alink.operator.batch.feature.HashCrossFeatureBatchOp

機器學習sklearn（八）：特徵工程（一）特徵離散化（一）K-bins 離散化

離散化 (Discretization)(有些時候叫量化(quantization) 或裝箱(binning)) 提供了將連續特徵劃分為離散特徵值的方法。某些具有連續特徵的資料集會受益於離散化，因為離散化可以把具有連續屬性的資料集變換成只有

機器學習sklearn（九）：特徵工程（二）特徵離散化（二）特徵二值化

特徵二值化是將數值特徵用閾值過濾得到布林值的過程。這對於下游的概率型模型是有用的，它們假設輸入資料是多值伯努利分佈(Bernoulli distribution)。例如這個示例sklearn.neural_network.BernoulliRBM。

機器學習sklearn（十二）：特徵工程（三）特徵組合與交叉（一）多項式特徵

在機器學習中，通過增加一些輸入資料的非線性特徵來增加模型的複雜度通常是有效的。一個簡單通用的辦法是使用多項式特徵，這可以獲得特徵的更高維度和互相間關係的項。這在PolynomialFeatures中實現:

機器學習sklearn（十三）：特徵工程（三）特徵編碼（一）特徵雜湊(一)

來源：https://www.freesion.com/article/24301262498/ 本文介紹的是一種面對高基數類別特徵的普適性方法：特徵雜湊（FeatureHasher）。目前這只是本人的一種想法，具體效果如何還需要在實際專案中驗證。

機器學習sklearn（十四）：特徵工程（五）特徵編碼（二）特徵雜湊(二)

特徵雜湊（相當於一種降維技巧）類FeatureHasher是一種高速，低記憶體消耗的向量化方法，它使用了特徵雜湊技術，或可稱為 “雜湊法” （hashing trick）的技術。代替在構建訓練中遇到的特徵的雜湊表，如向量化所做

天池二手車_特徵工程

相關推薦