泰坦尼克號生存預測（二）-- 特徵分析

阿新 • • 發佈：2019-02-02

5. 特徵再分析

對處理過的資料再分析

train[['Survived','Pclass','Sex','Age_level','Fare_log','Embarked','Familysize','isAlone','Has_Cabin','Title']].groupby('Survived',as_index=False).mean()

Survived	Pclass	Sex	Age_level	Fare_log	Embarked	Familysize	isAlone	Has_Cabin	Title
0	0	2.531876	0.852459	2.653916	1.652095	1.307832	1.883424	0.681239	0.123862	4.500911
1	1	1.950292	0.318713	2.587719	2.198830	1.447368	1.938596	0.476608	0.397661	2.786550

由上述資料可知：

1) Pclass船票等級1、2級生存率相對較高（Survived=1），而3、4級生存率較低；

2) Sex性別女（Sex=0）生存率比男性（Sex=1）生存率高；

3) Age_level年齡小的生存率相對較高；

4) Fare_log消費高的有更高的生存率；

5) isAlone(1)獨自一人上船比有家人陪同（0）的生存率低；

6) Has_Cabin擁有船艙生存率更高.

6. 相關性分析-多變數分析

a. 直方圖和資料透視表

f, (axis1,axis2) = plt.subplots(1,2,figsize=(18,6))
sns.barplot(x='Embarked',y='Survived',hue='Sex',data=train,ax=axis1)
sns.barplot(x='Age_level',y='Survived',hue='Sex',data=train,ax=axis2)

發現：

1）性別對生存率影響非常明顯，女性（Sex=0）普遍比男性有更高的生存率；

2）年齡（50+)的女性和14歲以下的小孩（age_level=1)有更高的生存率；

3）不同於其他組別的男性低生存率，14歲以下的男童生存率較高；

4）啟用新的一類特徵：年輕男孩“boy”

雙因子結合分析：

for dataset in full_data:
    dataset['Embarked_gender']=0
    dataset.loc[(dataset['Embarked']==1)&(dataset['Sex']==0),'Embarked_gender']=1
    dataset.loc[(dataset['Embarked']==2)&(dataset['Sex']==0),'Embarked_gender']=2
    dataset.loc[(dataset['Embarked']==3)&(dataset['Sex']==0),'Embarked_gender']=3
    dataset.loc[(dataset['Embarked']==1)&(dataset['Sex']==1),'Embarked_gender']=4
    dataset.loc[(dataset['Embarked']==2)&(dataset['Sex']==1),'Embarked_gender']=5
    dataset.loc[(dataset['Embarked']==3)&(dataset['Sex']==1),'Embarked_gender']=6

train[['Embarked_gender','Survived']].groupby('Embarked_gender',as_index=False).mean().sort_values(by='Survived',ascending=False)

Embarked_gender	Survived
1	2	0.876712
2	3	0.750000
0	1	0.692683
4	5	0.305263
3	4	0.174603
5	6	0.073171

資料透視表：

train_pivot = pd.pivot_table(train, index=['Familysize','Pclass'], columns='Sex',values='Survived',aggfunc=np.mean,margins=True)
def get_color(val):
    color = 'red' if val <0.4 else 'black'
    return 'color:%s'%color
train_pivot = train_pivot.style.applymap(get_color)

# 繪製多個同坐標軸圖形
grid = sns.FacetGrid(train,row = 'Pclass',col='Survived',size=2,aspect=3)
grid.map(plt.hist, 'Age_level')
grid.add_legend()

由以上分析可知：

1）Familysize為1，2的男性存活率均低於0.4；

2）獨自一人且船票等級為2和3的乘客存活率低於0.4；

3）一等船票年齡在14~40之間的乘客存活的人數較多；

4）3等船票年齡在14~30之間的乘客去世的人數最多。

f,(axis1,axis2,axis3)=plt.subplots(1,3,figsize=(18,8))
sns.violinplot(x='Pclass',y='Fare_log',hue='Survived',data=train,ax=axis1)
axis1.set_title('Pclass vs Fare Survival comparison')
sns.violinplot(x='Pclass',y='Age_level',hue='Survived',data=train,ax=axis2)
axis2.set_title('Pclass vs Age_level Survival comparison')
sns.violinplot(x='Pclass',y='Familysize',hue='Survived',data=train,ax=axis3)
axis3.set_title('Pclass vs Familysize Survival comparison')

f, axis = plt.subplots(2,3,figsize=(18,8))
sns.barplot(x='Embarked',y='Survived',data=train,ax=axis[0,0])
sns.barplot(x='Pclass',y='Survived',data=train,ax=axis[0,1],order=[1,2,3])
sns.barplot(x='Deck',y='Survived',data=train,ax=axis[0,2],order=[0,1,2])

sns.pointplot(x='Fare_log',y='Survived',data=train,ax=axis[1,0])
sns.pointplot(x='Age_level',y='Survived',data=train,ax=axis[1,1])
sns.pointplot(x='Familysize',y='Survived',data=train,ax=axis[1,2])

b. 去掉無關特徵

drop_elements = ['PassengerId','Name','Age', 'Ticket','Fare','Cabin', 'isAlone', 'boy']
train=train.drop(drop_elements,axis=1)
test=test.drop(drop_elements,axis=1)

皮爾遜相關性熱力圖

colormap = plt.cm.RdBu
plt.figure(figsize=(14,12))
plt.title('Pearson Correlation of Features',y=1.05,size=15)
sns.heatmap(train.astype(float).corr(),linewidth=0.1,vmax=1.0,square=True,cmap=colormap,linecolor='white',annot=True)

相關性在0.5~0.7之間的通常認為有中度偏強的相關性

g = sns.pairplot(train[['Survived','Pclass','Sex','Age_level','Fare_log','Familysize','Title']],hue='Survived',palette='seismic',size=1.2,diag_kind='kde',diag_kws=dict(shade=True),plot_kws=dict(s=10))
# 隱去X軸刻度標籤
g.set(xticklabels=[])

以上pairplot的散點圖可以看見雙因子對存活率的影響：例如同行家庭成員較少同時船票等級為1等2等時全是紅色散點，說明這兩個因素同時存在時存活率較高。

下一篇將著重於模型預測~

泰坦尼克號生存預測（二）-- 特徵分析

5. 特徵再分析對處理過的資料再分析 train[['Survived','Pclass','Sex','Age_level','Fare_log','Embarked','Familysize','isAlone','Has_Cabin','Title']].grou

泰坦尼克號生存預測（python）

scores k近鄰 ace gbdt dom png 記錄 inline sse 1 數據探索對數據進行一個整體的理解 1.1 查看數據都有一些什麽特征 import pandas as pd import seaborn as sns %matplotlib inl

機器學習--決策樹及泰坦尼克號生存預測

決策樹是一個類似於流程圖的樹結構，分支節點表示對一個特徵進行測試，根據測試結果進行分類，樹葉節點代表一個類別。要判斷從哪個特徵進行分裂，就要對資訊進行量化，量化的方式有： ID3: 資訊增益條件熵：其中pi=P(X=xi)，X,Y代表了兩個事件，而它們之間有

tensorflow實現泰坦尼克號生存率預測（邏輯迴歸）

目錄 1 邏輯迴歸介紹其實我們可以把邏輯迴歸當成只有一層的神經網路。關於邏輯迴歸的具體知識可以參考我的上一邊部落格，地址：https://mp.csdn.net/postedit/82929291。使用交叉熵損失函式

kaggle初探--泰坦尼克號生存預測

繼續學習資料探勘，嘗試了kaggle上的泰坦尼克號生存預測。 Titanic for Machine Learning 匯入和讀取 # data processing import numpy as np import pandas as pd impor

Kaggle專案案例分析泰坦尼克號生存預測

一、資料來源及說明 1.1 資料來源來自Kaggle的非常經典資料專案 Titanic：Machine Learning1.2 資料說明資料包含train.csv 和test.csv 兩個檔案資料集，一個訓練用，一個測試用。train文件資料是用來分析和建模，包含泰

kaggle 泰坦尼克號生存預測——六種演算法模型實現與比較

Hi，大家好，這是我第一篇部落格。作為非專業程式小白，部落格內容必然有不少錯誤之處，還望各位大神多多批評指正。在開始正式內容想先介紹下自己和一些異想天開的想法。我是一名研究生，研究的方向是蛋白質結構與功能方向。在研究過程中發現生物系統是如此複雜，猶如一張網，資訊流動，

Kaggle: 泰坦尼克號生存預測

0.前言本文對Kaggle泰坦尼克比賽的訓練集和測試集進行分析,並對乘客的生存結果進行了預測.作為資料探勘的入門專案,本人將思路記錄下來,以供參考.如有不足之處,歡迎指正. 1.匯入資料 import pandas as pd import n

泰坦尼克號生存預測 (Logistic and KNN)

從Kaggle官網下載資料：train 、test。賽事描述：泰坦尼克號的沉沒是歷史上最臭名昭著的沉船之一。1912年4月15日，泰坦尼克號在處女航時與冰山相撞沉沒，2224名乘客和船員中有1502人遇難。這一聳人聽聞的悲劇震驚了國際社會，並導致更好的

ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kaggle資料集預測泰坦尼克號生存人員

ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kaggle資料集預測泰坦尼克號生存人員實驗資料設計思路實現程式碼(部分程式碼) /** js程式碼實現SVM演算法 */ //ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kagg

二分類問題（泰坦尼克號獲救預測）

# -*- coding: utf-8 -*- # @Time : 2018/12/13 10:46 # @Author : WenZhao # @Email : [email protected] # @File : tt.py # @Software: PyCha

隨機森林演算法實現泰坦尼克號生存人數預測

from sklearn.feature_extraction import DictVectorizer from sklearn.ensemble import RandomForestClassifier import pandas as pd 網址可以直接複製 dat

泰坦尼克號生存概率分析

本專案在Kaggle中是資料分析入門專案，如果你想了解資料分析，我們就從這裡開始吧！資料集可以到Kaggle入門專案中直接找到，下載即可！ 1.提出問題什麼樣的人在泰坦尼克號中更容易存活？ 2.採集資料、理解資料匯入資料分析工具庫Numpy、Pandas 用pan

機器學習之泰坦尼克號遇難預測

思路：一、資料預處理 1、資料讀取 2、可以用data.head（）來顯示資料的前幾行，date.info（）來顯示資料的資訊 3、缺失值的處理 4、挑選特徵 5、分離特徵和標籤二、train 1、選取模型（可以先簡單後複雜，如果兩個模型效果差不多，簡單的節約時間

Kaggle泰塔尼克號生存預測

學習Pandas的用法 # Import the Pandas library import pandas as pd # Load the train and test datasets to create two DataFrames train_url = "http://s3

決策樹－泰坦尼克號生還預測

row.names pclass survived \ 0 1 1st 1 1 2 1st 0 2 3 1st 0 3 4 1st 0 4

kaggle——泰坦尼克號生死預測

把很久以前做的泰坦尼克號的程式碼貼出來。 # -*- coding: utf-8 -*- """ Created on Fri Mar 30 14:23:12 2017 @author: Yichengfan """ import pandas as pd

機器學習專案實戰----泰坦尼克號獲救預測(一)

一、任務基礎泰坦尼克號沉沒是歷史上最著名的沉船事故之一。1912年4月15日，在她的處女航中，泰坦尼克號在與冰山相撞後沉沒，在2224名乘客和機組人員中造成1502人死亡。這場聳人聽聞的悲劇震驚了國際社會，併為船舶制定了更好的安全規定。造成海難失事的原因之一是乘客和機組人員沒有足夠的救生艇。儘管倖存下沉有

機器學習專案實戰----泰坦尼克號獲救預測(二)

四、特徵重要性衡量通過上面可以發現準確率有小幅提升，但是似乎得到的結果還是不太理想。我們可以發現模型似乎優化的差不多了，使用的特徵似乎也已經使用完了。準確率已經達到了瓶頸，但是如果我們還想提高精度的話，還是要回到最原始的資料集裡面。對分類器的結果最大的影響還是輸入的資料本身。接下來採用的方法一般是從原始的

Kaggle入門——泰坦尼克號生還者預測

前言　　這個是Kaggle比賽中泰坦尼克號生存率的分析。強烈建議在做這個比賽的時候，再看一遍電源《泰坦尼克號》，可能會給你一些啟發，比如婦女兒童先上船等。所以是否獲救其實並非隨機，而是基於一些背景有先後順序的。 1，背景介紹　　1912年4月15日，載著1316號乘客和891名船員的豪華巨輪泰坦尼克號在首

泰坦尼克號生存預測（二）-- 特徵分析

5. 特徵再分析

6. 相關性分析-多變數分析

相關推薦