一週演算法實踐day1：模型構建

阿新 • • 發佈：2018-12-18

一週演算法實踐day1：模型構建

資料說明

1任務
2基本要點
3完整程式碼及註釋
4執行結果展示
5遇到的問題

資料說明

這份資料集是金融資料（非原始資料，已經處理過了），我們要做的是預測貸款使用者是否會逾期。表格中 “status” 是結果標籤：0表示未逾期，1表示逾期。

1任務

將金融資料集三七分，隨機種子2018，呼叫sklearn的包，簡單構建邏輯迴歸、SVM和決策樹3個模型並對每一個模型進行評分，評分方式任意，例如準確度和auc值。（在任務1中不需要考慮資料預處理和模型調參）

2基本要點

csv是常用的資料儲存格式,pandas可以方便的讀寫csv檔案

data_all = pd.read_csv('data_all.csv')

使用sklearn庫中的train_test_split進行資料三七分，和設定隨機種子

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=2018)

3完整程式碼及註釋

#匯入包
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn. 
linear_model import LogisticRegression
from sklearn.svm import LinearSVC
from sklearn import tree

#載入資料
data_all = pd.read_csv('data_all.csv')
print("資料行列數",data_all.shape)

#資料分析
print(data_all.head())#表頭
print(data_all.describe())#基本統計量
#檢視每列是否有缺失值
print(data_all.isnull().sum())

#劃分資料集
#特徵是除去“status”列的所有值
feature = 
 [x for x in data_all.columns if x not in ['status']]
X = data_all[feature]
#'status'列是標籤
y = data_all['status']
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=2018)

#構建模型
#1.邏輯迴歸
lr = LogisticRegression(random_state=2018)
lr.fit(X_train,y_train)
#2.SVM
svc = LinearSVC(random_state=2018)
svc.fit(X_train,y_train)
#3.tree
dt = tree.DecisionTreeClassifier(random_state=2018)
dt.fit(X_train,y_train)

#評價三種模型在測試集的表現
lr_acc = lr.score(X_test,y_test)
svc_acc = svc.score(X_test,y_test)
dt_acc = dt.score(X_test,y_test)
print("LogisticRegressiom Acc: %f, SVM Acc: %f, tree Acc: %f"%(lr_acc,svc_acc,dt_acc))

4執行結果展示

LogisticRegressiom Acc: 0.748423, SVM Acc: 0.748423, tree Acc: 0.684653

5遇到的問題

模型中引數並沒有理解
在劃分資料集時，X，y的處理也有困惑。

一週演算法實踐day1：模型構建

一週演算法實踐day1：模型構建資料說明 1任務 2基本要點 3完整程式碼及註釋 4執行結果展示 5遇到的問題資料說明這份資料集是金融資料（非原始資料，已經處理過了），我們要做的是預測貸

【一週演算法實踐】__2.模型構建之整合模型

模型構建之整合模型構建RF GBDT XDBoost LightGBM這四個模型，並對每一個模型使用準確率和AUC評分。在上次任務中使用了LR SVM DecisionTree這三個簡單的模型對樣本進行了預測和評價，請參照https://blog.csdn.net/wxq_1993/a

一週演算法實踐__1.模型構建

預測貸款使用者是否逾期資料集下載：https://pan.baidu.com/s/1dtHJiV6zMbf_fWPi-dZ95g 1.匯入模組 import numpy as np import pandas as pd from sklearn.model_selec

一週演算法梳理|任務3

任務內容決策樹演算法資訊理論基礎（熵聯合熵條件熵資訊增益基尼不純度）決策樹的不同分類演算法（ID3演算法、C4.5、CART分類樹）的原理及應用場景迴歸樹原理決策樹防止過擬合手段模型評估 sklearn引數詳解，Python繪

一週演算法梳理|任務1

任務內容任務1 線性迴歸演算法機器學習的一些概念有監督、無監督、泛化能力、過擬合欠擬合(方差和偏差以及各自解決辦法)、交叉驗證。線性迴歸的原理線性迴歸損失函式、代價函式、目標函式優化方法(梯度下降法、牛頓法、擬牛頓法等) 線性迴歸的評估指標

卷積神經網路簡單的應用（二）：模型構建與訓練

模型構建文中採用了Tensorflow框架進行模型的構建，這裡簡單介紹下Tensorflow的安裝（在Anaconda上安裝）：⑴Anaconda安裝：https://www.anaconda.com/download/，選擇支援py36的版本；⑵直接在命令列中安裝Tenso

第十一週上機實踐專案專案4-教師兼職幹部類

問題及程式碼：【專案 - 教師兼幹部類】分別定義Teacher(教師)類和Cadre（幹部）類，採用多重繼承方式由這兩個類派生出新類Teacher_Cadre（教師兼幹部）。要求：（1）在兩個基類中都包含姓名、年齡、性別、地址、電話等資料成員。（2）在Teacher類

第十一週上機實踐專案——正三角形

01./* 02.*程式的版權和版本宣告部分： 03.*Copyright（c）2013，煙臺大學計算機學院學生 04.*All ri

第十一週上機實踐專案——點類派生直線類

第十週第十一週上機實踐專案-專案4-教師兼幹部類

第十一週上機實踐專案專案1-點-圓-圓柱類的設計（3）

問題及程式碼：【專案 - 點-圓-圓柱類族的設計】按以下的提示，由基類的設計和測試開始，逐漸地完成各個類的設計，求出圓格柱體的表面積、體積並輸出並且完成要求的計算任務：（1）先建立一個Point(點)類，包含資料成員x,y(座標點)，實現需要的成員函式，並設計main

第十一週上機實踐專案4——類族的設計（3）

（3）再以Circle類為直接基類，派生出一個Cylinder(圓柱體)類，再增加資料成員h(高)，，以及求圓柱表面積的成員函式area和求圓柱體積的成員函式volume，實現需要的成員函式，並設計ma

第十一週上機實踐專案——職員有薪水了（拓展）

第十一週上機實踐專案——儲存班長資訊的學生類

第十一週上機實踐專案——專案3-警察和廚師-（2）

第十一週上機實踐專案4——類族的設計（2）

（2）以Point為基類，派生出一個Circle(圓)類，增加資料成員r(半徑)，以及求面積的成員函式area，實現其他需要的成員函式，設計main函式完成測試；程式碼 #include<i

第十一週上機實踐專案——求兩個數的最大公約數

01./* 02.*程式的版權和版本宣告部分： 03.*Copyright（c）2013，煙臺大學計算機學院學生 04.*All

第十一週上機實踐專案2——職員有薪水了（2）

（2）字串除了用C++擴充的string型別外，按C語言的傳統，還可以用char 表示。請將類宣告中的string全部改為char 後，重新寫一遍程式（此時的區別是，類中有指標成員，構造和解構函式需要考

【演算法設計與分析作業題】第十一週：20. Valid Parentheses

題目 C++ solution class Solution { public: bool isValid(string s) { stack<char> cstack; for (int i = 0; i < s.si

detectron程式碼理解（一）：Resnet模型構建理解

這裡具體以resnet50為例進行說明，一句一句地分析程式碼，程式碼位置位於Resnet.py，具體的分析函式為add_ResNet_convX_body. 在分析之前首先貼上resnet50的程式碼結構圖： # add the stem (by default, conv1 and

一週演算法實踐day1：模型構建