Kaggle泰坦尼克特徵工程和模型融合

阿新 • • 發佈：2019-02-05

上次我們對資料進行了分析,看到不同特徵對結果,也就是能否生存下來具有不同的影響,對資料進行觀察後我們需要選擇不同的特徵,並且對特徵進行組合,來為模型訓練做好準備,也就是特徵工程

import pandas as pd #資料分析
import numpy as np #科學計算
from pandas import Series,DataFrame
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestRegressor
#對title提取
import re

train = pd.read_csv("C:\\Users\\Yao\\Desktop\\kaggle\\train.csv")
test = pd.read_csv("C:\\Users\\Yao\\Desktop\\kaggle\\test.csv")

我們可以對不同的名字觀察,可以發現大傢俱有不同的title,可以提取titile作為特徵

def get_title(name):
    title = re.search(' ([A-Za-z]+)\.',name)
    if title:
        return (title.group(1))
    return ('')
train['Title'] = train['Name'].apply(get_title)
#print(pd.crosstab(train['Title'],train['Sex']))
train['Title'] = train['Title'].replace(['Lady', 'Countess','Capt', 'Col',\
     'Don', 'Dr', 'Major', 'Rev', 'Sir', 'Jonkheer', 'Dona'], 'Rare')
train['Title'] = train['Title'].replace('Mlle','Miss')
train['Title'] = train['Title'].replace('Ms','Miss')
train['Title'] = train['Title'].replace('Mme','Mrs')
#print(train[['Title','Survived']].groupby(['Title'],as_index=False).mean())
test['Title'] = test['Name'].apply(get_title)
#print(pd.crosstab(test['Title'],test['Sex']))
test['Title'] = test['Title'].replace(['Lady', 'Countess','Capt', 'Col',\
     'Don', 'Dr', 'Major', 'Rev', 'Sir', 'Jonkheer', 'Dona'], 'Rare')
test['Title'] = test['Title'].replace('Mlle','Miss')
test['Title'] = test['Title'].replace('Ms','Miss')
test['Title'] = test['Title'].replace('Mme','Mrs')


train['familysize']  = train['Parch'] + train['SibSp'] + 1
train['alone'] = 0 
train.loc[train['familysize'] ==1,'alone' ] = 1
#用s對缺失處進行填充 fillna 填充函式
train['Embarked'] = train['Embarked'].fillna('S')
train['Cabin'] = train['Cabin'].fillna('no')
age_df=train[['Age','Fare','Parch','SibSp','Pclass']]
age_df_true=age_df.loc[(age_df.Age.notnull())]
age_df_null=age_df.loc[(age_df.Age.isnull())]
X=age_df_true.values[:,1:]
y=age_df_true.values[:,0]
rfr=RandomForestRegressor(n_estimators=1000,n_jobs=-1)
rfr.fit(X,y)
preAge=rfr.predict(age_df_null.values[:,1:])
train.loc[train.Age.isnull(),'Age']=preAge

drop_elements = ['PassengerId','Name','Ticket','Cabin','SibSp','Parch']
train_set=train.drop(drop_elements,axis = 1 )


#對測試樣本進行資料處理
test['familysize']  = test['Parch'] + test['SibSp'] + 1
test['alone'] = 0 
test.loc[test['familysize'] ==1,'alone' ] = 1
test['Embarked'] = test['Embarked'].fillna('S')
test['Cabin'] = test['Cabin'].fillna('no')
age_df=test[['Age','Fare','Parch','SibSp','Pclass']]
age_df_null=age_df.loc[(age_df.Age.isnull())]
preAge=rfr.predict(age_df_null.values[:,1:])
test.loc[test.Age.isnull(),'Age']=preAge
drop_elements = ['PassengerId','Name','Ticket','Cabin','SibSp','Parch']
test_set=test.drop(drop_elements,axis = 1 )

這裡,我們對家人數目做一個求和運算,計算總人數,判斷是否為獨自一個人,作為另一個特徵,接下來可以通過得到的有價值的特徵進行模型訓練


#訓練與預測

from sklearn import linear_model
import sklearn.preprocessing as preprocessing
dummies_Embarked = pd.get_dummies(train_set['Embarked'],prefix= 'Embarked')

dummies_Sex = pd.get_dummies(train_set['Sex'],prefix= 'Sex')

dummies_Pclass = pd.get_dummies(train_set['Pclass'],prefix= 'Pclass')

dummies_Title = pd.get_dummies(train_set['Title'],prefix= 'Title')

df=pd.concat([train_set,dummies_Embarked,dummies_Sex,dummies_Title],axis=1)
df.drop(['Sex','Embarked','Title'],axis=1,inplace=True)

train_np = df.as_matrix()

使用get_dummies函式可以把類別特徵變成one-hot模式,方便模型訓練,最後進行concat組合


y = train_np[:,0]
X = train_np[:,1:]

clf = linear_model.LogisticRegression(C=1.0,penalty='l1',tol=1e-6)
clf.fit(X,y)


dummies_Embarked = pd.get_dummies(test_set['Embarked'],prefix= 'Embarked')

dummies_Sex = pd.get_dummies(test_set['Sex'],prefix= 'Sex')

dummies_Pclass = pd.get_dummies(test_set['Pclass'],prefix= 'Pclass')

dummies_Title = pd.get_dummies(test_set['Title'],prefix= 'Title')

bf=pd.concat([test_set,dummies_Embarked,dummies_Sex,dummies_Title],axis=1)
bf.drop(['Sex','Embarked','Title'],axis=1,inplace=True)
bf=bf.fillna(50)
test_np = bf.as_matrix()


predictions = clf.predict(test_np)
result = pd.DataFrame({'PassengerId':test['PassengerId'].as_matrix(),'Survived':predictions.astype(np.int32)})
result.to_csv('feature_predictions.csv',index=False)

這裡使用不同的幾個模型使用StratifiedShuffleSplit進行資料切分,用不同的模型進行訓練,比較結果

#不同的方法嘗試
import matplotlib.pyplot as plt
import xgboost as xgb

from sklearn.model_selection import StratifiedShuffleSplit
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier,AdaBoostClassifier,GradientBoostingClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis,QuadraticDiscriminantAnalysis
from sklearn.linear_model import LogisticRegression

classifiers=[
        KNeighborsClassifier(3),
        DecisionTreeClassifier(),
        RandomForestClassifier(),
        SVC(probability=True),
        AdaBoostClassifier(),
        GradientBoostingClassifier(),
        GaussianNB(),
        LinearDiscriminantAnalysis(),
        QuadraticDiscriminantAnalysis(),
        LogisticRegression(),
        xgb.XGBClassifier()
        ]

sss=StratifiedShuffleSplit(n_splits=10,test_size=0.1,random_state=0)
x = train_np[:,1:]
y = train_np[:,0]
accuracy = np.zeros(len(classifiers))
for train_index, test_index in sss.split(x,y):
    x_train,x_test = x[train_index], x[test_index]
    y_train,y_test = y[train_index], y[test_index]
    clf_num = 0
    for clf in classifiers:
        clf_name = clf.__class__.__name__
        clf.fit(x_train,y_train)
        accuracy[clf_num] += (y_test == clf.predict(x_test)).mean()
        clf_num += 1
accuracy = accuracy/ 10
plt.bar(np.arange(len(classifiers)),accuracy, width=0.5, color='b')
plt.xlabel('Alog')
plt.ylabel('Accuracy')
plt.xticks(np.arange(len(classifiers)) + 0.25,
           ('KNN','DT','RF','SVC','AdaB','GBC','GNB',
            'LDA','QDA','LR','xgb')

不同的結果

最後可以把模型融合起來,提高準確率


#模型融合
import matplotlib.pylab as pyl



sss=StratifiedShuffleSplit(n_splits=10,test_size=0.1,random_state=0)
x = train_np[:,1:]
y = train_np[:,0]
x1_test = np.zeros((test.shape[0],len(classifiers)))
accuracy = np.zeros(len(classifiers))
for train_index, test_index in sss.split(x,y):
    x_train,x_test = x[train_index], x[test_index]
    y_train,y_test = y[train_index], y[test_index]
    clf_num = 0
    for clf in classifiers:
        clf_name = clf.__class__.__name__
        clf.fit(x_train,y_train)
        x1_test[:,clf_num] += clf.predict(test_np)
        accuracy[clf_num] += (y_test == clf.predict(x_test)).mean()
        clf_num += 1
accuracy = accuracy/ 10
x1_test = x1_test / 10
plt.bar(np.arange(len(classifiers)),accuracy, width=0.5, color='b')
plt.xlabel('Alog')
plt.ylabel('Accuracy')
plt.xticks(np.arange(len(classifiers)) + 0.25,
           ('KNN','DT','RF','SVC','AdaB','GBC','GNB',
            'LDA','QDA','LR','xgb'))


pyl.pcolor(np.corrcoef(x1_test.T), cmap = 'Blues')
pyl.colorbar()
pyl.xticks(np.arange(0.5,11.5),
           ['KNN','DT','RF','SVC','AdaB','GBC','GNB','LDA','QDA','LR','xgb'])

pyl.yticks(np.arange(0.5,11.5),
           ['KNN','DT','RF','SVC','AdaB','GBC','GNB','LDA','QDA','LR','xgb'])

pyl.show

index = [0, 1, 2, 3,4,5,6,7,8, 9]
linear_prediction = x1_test[:, index].mean(axis=1 )
linear_prediction[linear_prediction >= 0.5] = 1
linear_prediction[linear_prediction < 0.5] =0
mixRe = pd.DataFrame({'PassengerId':test['PassengerId'].as_matrix(),'Survived':linear_prediction.astype(np.int32)})
mixRe.to_csv('mix2.csv',index=False)

最後得到結果為78%準確率,可以進前50%排名,可以在這基礎上繼續進行特徵工程,模型融合時可以計算相關性,對誤差結果分析,不斷對結果進行提升.

Kaggle泰坦尼克特徵工程和模型融合

上次我們對資料進行了分析,看到不同特徵對結果,也就是能否生存下來具有不同的影響,對資料進行觀察後我們需要選擇不同的特徵,並且對特徵進行組合,來為模型訓練做好準備,也就是特徵工程import pandas as pd #資料分析 import numpy as np #科學計算

kaggle泰坦尼克號python和r

之前用了一陣子spss modeler，自己整了r，後來發現國內高手都用python，發現了網上兩篇類似的python和r寫的文章，這裡加上原文連結，可以一起學習： 1：python版本連結：http://blog.csdn.net/longxinchen_ml/artic

kaggle 泰坦尼克預測案例

kaggle 泰坦尼克預測準確率79%。 #!/usr/bin/Python # -*- coding: utf-8 -*- # This Python 3 environment comes with many helpful analytics libraries installed # I

kaggle泰坦尼克 Kaggle泰坦尼克預測(完整分析)

Kaggle泰坦尼克預測(完整分析) 2017年06月26日 15:53:26 閱讀數：10313 1.引言先說一句，年末雙十一什麼的一來，真是非(mang)常(cheng)歡(gou)樂(le)！然後push自己抽

【機器學習】kaggle 泰坦尼克

參考程式碼 kaggle泰坦尼克入門，分別使用了線性迴歸、邏輯迴歸和隨機森林三種演算法。連結如下： https://www.jianshu.com/p/bbfbdedc3c1c 隨機森林演算法介紹決策樹-Gini不純度決策樹演算法有缺陷，當我們需要區分的特徵很多時，需要引入Gini

Kaggle —— 泰坦尼克號Titanic

1. 資料總覽 Titanic 生存模型預測，其中包含了兩組資料：train.csv 和 test.csv，分別為訓練集合和測試集合。 import re import numpy as np import pandas as pd import matpl

Kaggle--泰坦尼克號失蹤者生死情況預測原始碼（附Titanic資料集）

資料視覺化分析import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np titanic=pd.read_csv('train.csv') #pri

Kaggle泰坦尼克預測(完整分析)

1.引言先說一句，年末雙十一什麼的一來，真是非(mang)常(cheng)歡(gou)樂(le)！然後push自己抽出時間來寫這篇blog的原因也非常簡單：寫完前兩篇邏輯迴歸的介紹和各個角度理解之後，我們討論群(戳我入群)的小夥伴們紛紛表示『好像很高階的樣紙，but 然

kaggle——泰坦尼克號生死預測

把很久以前做的泰坦尼克號的程式碼貼出來。 # -*- coding: utf-8 -*- """ Created on Fri Mar 30 14:23:12 2017 @author: Yichengfan """ import pandas as pd

kaggle 泰坦尼克號生存預測——六種演算法模型實現與比較

Hi，大家好，這是我第一篇部落格。作為非專業程式小白，部落格內容必然有不少錯誤之處，還望各位大神多多批評指正。在開始正式內容想先介紹下自己和一些異想天開的想法。我是一名研究生，研究的方向是蛋白質結構與功能方向。在研究過程中發現生物系統是如此複雜，猶如一張網，資訊流動，

Kaggle: 泰坦尼克號生存預測

0.前言本文對Kaggle泰坦尼克比賽的訓練集和測試集進行分析,並對乘客的生存結果進行了預測.作為資料探勘的入門專案,本人將思路記錄下來,以供參考.如有不足之處,歡迎指正. 1.匯入資料 import pandas as pd import n

機器學習系列(3)_邏輯迴歸應用之Kaggle泰坦尼克之災

1.引言先說一句，年末雙十一什麼的一來，真是非(mang)常(cheng)歡(gou)樂(le)！然後push自己抽出時間來寫這篇blog的原因也非常簡單：寫完前兩篇邏輯迴歸的介紹和各個角度理解之後，我們討論群(戳我入群)的小夥伴們紛紛表示『好像很

R語言泰坦尼克號隨機森林模型案例資料分析

採取大量單獨不完美的模型，他們的一次性錯誤可能不會由其他人做出。如果我們對所有這些模型的結果進行平均，我們有時可以從它們的組合中找到比任何單個部分更好的模型。這就是整體模型的工作方式，他們培養了許多不同的模型，並讓他們的結果在整個團隊中得到平均或投票。我們現在很清楚決策樹

特徵工程和模型融合--機器學習--思維導圖和筆記（29）

一、思維導圖（點選圖方法）二、補充筆記（1）常見的特徵工程主要指對各種型別的特徵進行處理，包括數值型特徵、類別型特徵、時間型特徵和其他型別特徵和組合特徵。對於數值型特徵，可以進行幅度調整（包括min-max縮放、標準化、歸一化）、統計值分析（最大值、最小值、平

泰坦尼克號資料探勘專案實戰——Task2 特徵工程

參考：【1】https://www.cnblogs.com/wxquare/p/5484636.html 【2】https://blog.csdn.net/weishiym/article/details/79

kaggle練習項目—泰坦尼克乘客生還預測

sans 練習 missing 中文 ces 大寫 param show ont 一、問題復述　　泰坦尼克號是一艘英國皇家郵輪，在當時是全世界最大的海上船舶。1912年4月，該郵輪在首航中碰撞上冰山後沈沒。造成船上2224名人員中1514人罹難。　　現在根據乘客的船艙等

ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kaggle資料集預測泰坦尼克號生存人員

ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kaggle資料集預測泰坦尼克號生存人員實驗資料設計思路實現程式碼(部分程式碼) /** js程式碼實現SVM演算法 */ //ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kagg

機器學習（十七）kaggle競賽之泰坦尼克號專案實戰-2

導航想寫這篇部落格的由衷是做完幾個專案，有時對於圖的畫法和模型融合演算法原理理解還很膚淺，特此加深一下印象。內容概覽圖 pandas、matplotlib、seaborn 餅圖直方圖

機器學習（八）kaggle競賽之泰坦尼克號專案實戰-1

引言機器學習演算法都是為專案為資料服務的，某一個演算法都有它自己的適用範圍，以及優勢與劣勢，研究演算法由於平日的日常操練，那麼用它去做專案就如同上戰場殺敵一樣，去發揮它的價值，kaggle就是這樣一個刷怪升級

人工智障也刷題！Kaggle 入門之實戰泰坦尼克號

背景關於 Kaggle www.kaggle.com/ 這是一個為你提供完美資料，為你提供實際應用場景，可以與小夥伴在資料探勘領域 high 的不要不要的的地方啊！！！ Kaggle 是一個用來學習、分享和競賽的線上資料實驗平臺，有點類似 KDD—CUP（國際知識發現和資料探勘競賽），企

Kaggle泰坦尼克特徵工程和模型融合

相關推薦