構建決策樹和svm模型（某金融資料集）

阿新 • • 發佈：2018-12-22

根據金融資料集作出的決策樹和svm模型

# 匯入需要的包
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import roc_auc_score,  f1_score
from matplotlib import pyplot as plt
from sklearn.svm import SVC
from  sklearn. 
svm import LinearSVC
from sklearn.tree import DecisionTreeClassifier

# 因為資料並非utf-8編碼，要使用gbk編碼讀入，否則出錯
data = pd.read_csv('./data.csv', index_col=0, encoding='gbk')

# 單獨提取出y標籤列，和其餘的88列標記為X
y = data['status']
X = data.drop('status', axis=1)
#X值的行列數，以及y的分佈型別
print('X.shape:', X.shape)
print('y 的分佈\n' 
, y.value_counts())

X.shape: (4754, 88)
y 的分佈
 0    3561
1    1193
Name: status, dtype: int64

# 首先剔除一些明顯無用的特徵，如 id_name, custid, trade_no, bank_card_no，
X.drop(['id_name', 'custid', 'trade_no', 'bank_card_no'], axis=1, inplace=True)
print(X.shape)

(4754, 84)

# 選取數值型特徵
X_num = X.select_dtypes('number' 
).copy()
print(X_num.shape)
type(X_num.mean())

(4754, 80)





pandas.core.series.Series

#使用均值填充缺失值
X_num.fillna(X_num.mean(), inplace=True)

#觀察除數值型以外的變數
X_str = X.select_dtypes(exclude='number').copy()
X_str.describe()

reg_preference_for_trad	source	latest_query_time	loans_latest_time
count	4752	4754	4450	4457
unique	5	1	207	232
top	一線城市	xs	2018-04-14	2018-05-03
freq	3403	4754	423	134

#把reg_preference用虛擬變數代替，其它三個變數刪除
X_str['reg_preference_for_trad'] = X_str['reg_preference_for_trad'].fillna(X_str['reg_preference_for_trad'].mode()[0])
X_str_dummy = pd.get_dummies(X_str['reg_preference_for_trad'])
X_str_dummy.head()
#X_str.drop(['latest_query_time'],axis=1,inplace=True)

一線城市	三線城市	二線城市
5	1	0
10	1	0
12	1	0
13	0	1
14	1	0

X_cl = pd.concat([X_num, X_str_dummy], axis=1, sort=False)
X_cl.shape

(4754, 85)

#以三七比例分割訓練集和測試集
random_state = 1115
X_train, X_test, y_train, y_test = train_test_split(X_cl, y, test_size=0.3, random_state=random_state)
print(X_train.shape)
print(X_test.shape)

(3327, 85)
(1427, 85)

#svc模型,不明白嘗試了svc和lin_svc做出的預測f1都是0。只是因為沒有資料預處理時候歸一化？
"""
svc = SVC(C=1.0, kernel='rbf', gamma=0.1)
svc.fit(X_train, y_train)

#lin_svc模型
Lin_SVC = LinearSVC()
Lin_SVC.fit(X_train,y_train)
"""
#決策樹模型

clf = DecisionTreeClassifier(max_depth=4)
clf.fit(X_train, y_train)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=4,
            max_features=None, max_leaf_nodes=None,
            min_impurity_split=1e-07, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            presort=False, random_state=None, splitter='best')

#評估
# 準確性
"""
y_train_pred = svc.predict(X_train)
y_test_pred = svc.predict(X_test)
"""
"""
#lin_svc
y_train_pred = Lin_SVC.predict(X_train)
y_test_pred = Lin_SVC.predict(X_test)
"""
#決策樹

y_train_pred = clf.predict(X_train)
y_test_pred = clf.predict(X_test)

print('準確性：')
print('訓練集：{:.4f}'.format(f1_score(y_train, y_train_pred)))
print('測試集：{:.4f}'.format(f1_score(y_test, y_test_pred)))
print('ROC AUC：')
print('訓練集：{:.4f}'.format(roc_auc_score(y_train, y_train_pred)))
print('測試集：{:.4f}'.format(roc_auc_score(y_test, y_test_pred)))

準確性：
訓練集：0.4083
測試集：0.3992
ROC AUC：
訓練集：0.6227
測試集：0.6166

問題：
不明白svm以及線性svm作出的預測f1-score為什麼是0,只是因為資料沒有歸一化麼？

構建決策樹和svm模型（某金融資料集）

根據金融資料集作出的決策樹和svm模型 # 匯入需要的包 import pandas as pd from sklearn.linear_model import LogisticRegression from sklearn.model_selection i

我的Keras使用總結（2）——構建影象分類模型（針對小資料集）

　　Keras基本的使用都已經清楚了，那麼這篇主要學習如何使用Keras進行訓練模型，訓練訓練，主要就是“練”，所以多做幾個案例就知道怎麼做了。　　在本文中，我們將提供一些面向小資料集（幾百張到幾千張圖片）構造高效，實用的影象分類器的方法。 1，熱身練習——CIFAR10 小圖片分類示例（Sequentia

caffe隨記（八）---使用caffe訓練FCN的pascalcontext-fcn32s模型（pascal-context資料集）

本篇討論利用caffe進行FCN訓練（採用的是pascal-context資料集） 1、下載FCN的框架如圖是我在windows下的檢視因為不同的資料來源和不同的FCN型別的網路結構並不同，對資料來源的讀取方式也不同，因此有很多分支，本篇博文以pascalcont

Python實現支援向量機（基於雙月資料集）

1、生成資料集 class moon_data_class(object): def __init__(self,N,d,r,w): self.N=N self.w=w self.d=d self.r=

RDD（彈性分散式資料集）的分析

RDD： Resilient Distributed Dataset(彈性分散式資料集) 彈性：資料集的可恢復型原因：在分散式環境下，運算節點很容易出問題，會造成資料的丟失，rdd可以在資料丟失的背景下恢復資料。資料恢復的技術：1.基本備份 2.基於日誌（hadoop n

tf.keras入門(1) Basic Classification（Fashion MNIST資料集）

基本分類（Fashion MNIST）使用tf.keras ，是一種在TensorFlow中構建和訓練模型的高階api 本指南使用 Fashion MNIST 資料集，其中包含 70000 張灰度影象，涵蓋 10 個類別。以下影象顯示了單件服飾在較低解析度（28x28 畫素）下

TensorFlow車牌識別完整版（含車牌資料集）

在之前釋出的一篇博文《MNIST資料集實現車牌識別--初步演示版》中，我們演示瞭如何使用TensorFlow進行車牌識別，但是，當時採用的資料集是MNIST數字手寫體，只能分類0-9共10個數字，無法分類省份簡稱和字母，侷限性較大，無實際意義。經過影象定位分割處理

R語言學習二（包與資料集）

R語言安裝包什麼是R語言的包？我們可以把它視為一種擴充套件R基本功能的機制，包本身也集成了眾多的函式。在使用R的過程中如果我們要使用某些函式，而當前R裡面沒有的話，我們通常可以去查詢那些與其相關的包，那些包裡面通常已經包含了其他開發者開發好的功能，我們

Kaggle--泰坦尼克號失蹤者生死情況預測原始碼（附Titanic資料集）

資料視覺化分析import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np titanic=pd.read_csv('train.csv') #pri

Tensorflow深度學習之二十一：LeNet的實現（CIFAR-10資料集）

一、LeNet的簡介 LeNet是一個用來識別手寫數字的最經典的卷積神經網路，是Yann LeCun在1998年設計並提出的。Lenet的網路結構規模較小，但包含了卷積層、池化層、全連線層，他們都構成了現代CNN的基本元件。 LeNet包含輸入層在內共有

Python實現多層感知器MLP（基於雙月資料集）

1、載入必要的庫，生成資料集 import math import random import matplotlib.pyplot as plt import numpy as np class moon_data_class(object): def

Tensorflow深度學習之二十二：AlexNet的實現（CIFAR-10資料集）

二、工程結構由於我自己訓練的機器記憶體視訊記憶體不足，不能一次性讀取10000張圖片，因此，在這之前我按照圖片的類別，將每一張圖片都提取了出來，儲存成了jpg格式。與此同時，在儲存圖片的過程中，儲存了一個python的dict結構，鍵為每一張圖片的相對地

樹迴歸：CART演算法構建迴歸樹和模型樹（程式碼筆記）

分類迴歸樹（Classification And Regression Trees，CART）是一種構造樹的監督學習方法。和ID3決策樹作比較： 1. ID3每次直接用最佳特徵分割資料，即如果當前特徵有4個可能值，那麼資料將被分成4份，處理的是標稱型資料，不能直接處理連續

30分鐘學會用scikit-learn的基本回歸方法（線性、決策樹、SVM、KNN）和整合方法（隨機森林，Adaboost和GBRT）

注：本教程是本人嘗試使用scikit-learn的一些經驗，scikit-learn真的超級容易上手，簡單實用。30分鐘學會用呼叫基本的迴歸方法和整合方法應該是夠了。本文主要參考了scikit-learn的官方網站前言：本教程主要使用了numpy的最最基

SVM支援向量機系列理論（六） SVM過擬合的原因和SVM模型選擇

6.1 SVM 過擬合的原因實際我們應用的SVM模型都是核函式+軟間隔的支援向量機，那麼，有以下原因導致SVM過擬合：選擇的核函式過於powerful，比如多項式核中的Q設定的次數過高要求的間隔過大，即在軟間隔支援向量機中C的引數過大時，表示比較重視間隔，堅持要資

利用邏輯迴歸，決策樹，svm計算準確率和AUC值

利用邏輯迴歸，決策樹，svm計算準確率和AUC值匯入的包 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import

紅黑樹的構建以及插入和刪除操作（C語言完整）

參照演算法導論虛擬碼。註釋沒有很詳細，建議先看演算法導論或者其他博主的分析搞清楚insert和delete操作的方法。 #include<stdio.h> #include<stdlib.h> typedef int type; typ

決策樹和基於決策樹的集成方法（DT,RF,GBDT,XGB）復習總結

alpha 做了 .org ntb 變量 feature sum mac 實踐摘要：　　1.算法概述　　2.算法推導　　3.算法特性及優缺點　　4.註意事項　　5.實現和具體例子內容： 1.算法概述　　1.1 決策樹（DT）是一種基本的分類和

R語言專題，如何使用party包構建決策樹？

r語言下面將在iris數據集上，演示如何使用party包中的函數ctree來建立一棵決策樹。iris數據集中的Sepal.Length、Sepal.Width、Petal.Length和Petal.Width，都將用來預測鳶尾花的種類。party包中的函數ctree用來建立決策樹，函數predict用來對新數

Spark 決策樹--回歸模型

pipe sele nal evaluate 回歸 textfile style mode ssi package Spark_MLlib import org.apache.spark.ml.Pipeline import org.apache.spark.ml.ev

構建決策樹和svm模型（某金融資料集）

相關推薦