Titanic模型構建

阿新 • • 發佈：2019-01-08

1.因為邏輯回顧和支援向量機對資料的要求一樣，都需要的是連續性資料。所以先使用邏輯迴歸和支援向量機

資料處理

train_data.Sex[train_data.Sex == 'male'] = 0
train_data.Sex[train_data.Sex == 'female'] = 1
test_data.Sex[test_data.Sex == 'male'] = 0
test_data.Sex[test_data.Sex == 'female'] = 1
#對標稱資料連續化，取其one-hot,Pclass、Embarked、title、Family、person
dum_pclass = pd.get_dummies(train_data.Pclass, prefix='Pclass')
dum_embarked = pd.get_dummies(train_data.Embarked, prefix='Embarked')
dum_title = pd.get_dummies(train_data.title, prefix='title')
dum_family = pd.get_dummies(train_data.Family, prefix='Family')
dum_person = pd.get_dummies(train_data.person, prefix='person')
df_train = pd.concat([train_data, dum_pclass, dum_embarked, dum_title, dum_family, dum_person], axis=1)
df_train.drop(['Pclass', 'Embarked', 'title', 'Family', 'person'], axis=1, inplace=True)
dum_pclass = pd.get_dummies(test_data.Pclass, prefix='Pclass')
dum_embarked = pd.get_dummies(test_data.Embarked, prefix='Embarked')
dum_title = pd.get_dummies(test_data.title, prefix='title')
dum_family = pd.get_dummies(test_data.Family, prefix='Family')
dum_person = pd.get_dummies(test_data.person, prefix='person')
df_test = pd.concat([test_data, dum_pclass, dum_embarked, dum_title, dum_family, dum_person], axis=1)
df_test.drop(['Pclass', 'Embarked', 'title', 'Family', 'person'], axis=1, inplace=True)
#對Age和Fare歸一化
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df_train['Age'] = scaler.fit_transform(df_train['Age'].values.reshape(-1,1))
df_train['Age'] = scaler.fit_transform(df_train['Age'].values.reshape(-1,1))
df_test['Age'] = scaler.fit_transform(df_test['Age'].values.reshape(-1,1))
df_test['Age'] = scaler.fit_transform(df_test['Age'].values.reshape(-1,1))

使用邏輯迴歸做預測

print(df_test.columns, len(df_train.columns))
#使用邏輯迴歸做預測
from sklearn.linear_model.logistic import LogisticRegression
from sklearn.cross_validation import train_test_split,cross_val_score
X = df_train[['Sex', 'SibSp', 'Parch', 'Fare', 'Cabin', 'Age', 'isalone', 'mother',
       'ticket-same', 'Pclass_1', 'Pclass_2', 'Pclass_3', 'Embarked_C',
       'Embarked_Q', 'Embarked_S', 'title_1', 'title_2', 'title_3', 'title_4',
       'title_5', 'title_6', 'title_7', 'title_8', 'Family_0', 'Family_1',
       'Family_2', 'person_adult-man', 'person_adult-woman', 'person_child']]
Y = df_train['Survived']
classifier=LogisticRegression()
classifier.fit(X,Y)
scores=cross_val_score(classifier,X,Y,cv=5)
print( '準確率',np.mean(scores),scores)

使用支援向量機做預測

#使用支援向量機做預測
from sklearn import svm
clf = svm.SVC()
clf.fit(X, Y)
scores=cross_val_score(clf, X, Y, cv=5)
print('準確率',np.mean(scores), scores)

2.決策樹需要的資料為標稱資料，將資料處理好儲存到檔案中

用決策樹來做預測

#使用決策樹做預測
train_data = pd.read_csv('./Titanic-data/task-2-train2.csv')
test_data = pd.read_csv('./Titanic-data/task-2-test2.csv')
X = train_data[['Pclass', 'Sex', 'SibSp', 'Parch', 'Cabin', 'Embarked',
       'title', 'isalone', 'Family', 'mother', 'person', 'ticket-same', 'age',
       'fare']]
Y = train_data['Survived']
from sklearn import tree
clf = tree.DecisionTreeClassifier()
clf = clf.fit(X, Y)
scores=cross_val_score(clf, X, Y, cv=5)#交叉驗證，使用5折交叉驗證
print('準確率',np.mean(scores), scores)

參考資料https://blog.csdn.net/weixin_40300458/article/details/79996764?from=singlemessage

Titanic模型構建

1.因為邏輯回顧和支援向量機對資料的要求一樣，都需要的是連續性資料。所以先使用邏輯迴歸和支援向量機資料處理 train_data.Sex[train_data.Sex == 'male'] = 0 train_data.Sex[train_data.Sex == 'female'] =

【分析師】股票模型構建

-1 模型神經網絡如何 name 建立 log 盈利初步采用神經網絡算法（神經網絡是要求最小的預測誤差，ok的），可以借鑒地震預測模型，每月或者一周更新一次數據，加入多個因子變量，盈利預測：兩三個月更新一次，每個月不更新的時候賦值為0，更新的時候加進去。先制作一個e

lvs-nat，lvs-dr模型構建phpMyAdmin

lvs-nat lvs-dr模型構建phpmyadmin 1.使用NAT模型的TCP協議類型的lvs服務負載均衡一個php應用，如Discuz!論壇或者phpMyAdmin； NAT模型的lvs集群的構建是基於網絡地址轉換進行的；所以首先必須要有至少三臺主機，配置其IP地址； ① Direc

ArcGIS模型構建器案例學習筆記-字段處理模型集

arc arcgis 構建器分享分享圖片 round mage yellow span ArcGIS模型構建器案例學習筆記-字段處理模型集聯系方式：謝老師，135-4855-4328，[email protected] 由四個子模型組成子模型1：判斷字段是否存

快速上手深度學習掌握TensorFlow模型構建與開發

第5章第6章優勢損失函數學習過程 htm 項目機器過程第1章課程介紹介紹機器學習的背景，介紹tensorflow的背景，介紹課程python，numpy，virtualenv等前置學習內容，安裝tensorflow1-1 導學1-2 課程安排1-3 深度學習

GIS案例學習筆記-明暗等高線提取地理模型構建

技術分享 -s png 筆記 yellow com info 宋體 ext GIS案例學習筆記-明暗等高線提取地理模型構建聯系方式：謝老師，135-4855-4328，xiexiaokui#qq.com 目的：針對數字高程模型，通過地形分析，建立明暗等高線提取模型，生

回歸模型構建

sets 目的 imp The ase scale predict die bsp 回歸模型構建模塊函數算法名稱簡稱 linear_model LinearRegression 線性回歸 LR svm SVR 支持向量機回歸 SVM neigh

ArcGIS案例學習筆記2_2_模型構建器和山頂點提取批處理

style back 技術 margin 方式 col 天下宋體 com ArcGIS案例學習筆記2_2_模型構建器和山頂點提取批處理計劃時間：第二天下午背景：數據量大，工程大目的：自動化，批處理，定制業務流程，不寫程序教程：Pdf/343 數據：cha

深度學習之模型構建

water ssi sum sta eat rom col ffffff oss 標準模型 from keras.utils import plot_model from keras.models import Model from keras.layers import

detectron程式碼理解（一）：Resnet模型構建理解

這裡具體以resnet50為例進行說明，一句一句地分析程式碼，程式碼位置位於Resnet.py，具體的分析函式為add_ResNet_convX_body. 在分析之前首先貼上resnet50的程式碼結構圖： # add the stem (by default, conv1 and

detectron程式碼理解（二）：FPN模型構建

1.FPN的原理 FPN的原理示意圖如下，上述包括一個自底向上的線路，一個自頂向下的線路，橫向連線（lateral connection），圖中放大的區域就是橫向連線。自底向上的路徑：自下而上的路徑是卷積網路的前饋計算，在前向過程中，feature map的大小在經過某些層後會改變，

ArcGIS分割柵格·使用模型構建器

問題最近遇到一個分割柵格資料的需求，把一張大的影像圖按標準比例尺分幅裁剪為多張影像。看起來很簡單，但實際操作過程中還是踩到了一些坑，諸多嘗試後使用模型構建器比較圓滿解決了問題，在這裡記錄下，以饗來者。思路製作10000比例尺分幅圖框；使用分幅圖框對柵格進行裁剪

效能測試過程及模型構建

在效能測試過程中，建模實際上可分為兩個過程，效能測試過程和模型構建過程，效能測試過程主要完成對系統進行效能測試，並蒐集相應的測試結果，形成測試過程文件；模型構建主要是根據蒐集到的效能測試需求和生產系統的相關資訊完成效能模型的構建工作，並指導

金融貸款逾期的模型構建1

資料 data_all.csv檔案是非原始資料，已經處理過了。資料是金融資料, 我們要做的是預測貸款使用者是否會逾期。表格中, status是標籤: 0表示未逾期, 1表示逾期。任務——模型構建給定資料集，資料三七分，隨機種子2018。（在任務1中什麼都不用考慮，即不需資

一週演算法實踐day1：模型構建

一週演算法實踐day1：模型構建資料說明 1任務 2基本要點 3完整程式碼及註釋 4執行結果展示 5遇到的問題資料說明這份資料集是金融資料（非原始資料，已經處理過了），我們要做的是預測貸

ArcGIS模型構建器案例教程-批量復制工作空間所有要素類

back -c 分享 sse color clas style inf 模型 ArcGIS模型構建器案例教程-批量復制工作空間所有要素類目的：批量復制工作空間所有要素類工具名稱：WorkspaceCopyFeatureClasses 使用方法：輸入工作空間，指定輸

金融貸款逾期的模型構建4——模型調優

文章目錄一、任務二、概述 1、引數說明 2、常用方法二、實現 1、模組引入 2、模型評估函式 3、資料讀取 4、Logistic Regress

金融貸款逾期的模型構建3——模型評估

文章目錄一、評價指標 1、基本概念 2、準確率（accuracy） 3、精確率（precision） 4、召回率（recall） 5、F1值 6、roc曲線和 auc值

金融貸款逾期的模型構建2——整合模型

任務——模型構建構建隨機森林、GBDT、XGBoost和LightGBM這4個模型，並對每一個模型進行評分，評分方式任意，例如準確度和auc值。 1、相關安裝資源隨機森林、GBDT均在sklearn包中； LightGBM：https://github.co

時間序列--MA（殘差模型構建）

殘差如果有某種結構，我們可以對殘差建模，進一步捕捉資訊可以為剩餘誤差時間序列建立一個模型，並預測模型的預期誤差。然後可以從模型預測中減去預測誤差，從而提高效能。一個簡單有效的殘差模型是自迴歸模型。這是使用一些滯後誤差值來預測下一個時間步驟的誤差的地方。這些滯後誤差組合線上性迴歸模型中，很

Titanic模型構建

相關推薦