Kaggle —— 泰坦尼克號Titanic

1. 資料總覽

Titanic 生存模型預測，其中包含了兩組資料：train.csv 和 test.csv，分別為訓練集合和測試集合。

import re
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

%matplotlib inline

觀察前幾行的源資料：

train_data = pd.read_csv('data/train.csv' 
)
test_data = pd.read_csv('data/test.csv')

sns.set_style('whitegrid')
train_data.head()

PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Parch	Fare	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th…	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S
4	5	0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	NaN	S

資料資訊總覽：

train_data.info()
print("-" * 40)
test_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB

----------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 11 columns):
PassengerId    418 non-null int64
Pclass         418 non-null int64
Name           418 non-null object
Sex            418 non-null object
Age            332 non-null float64
SibSp          418 non-null int64
Parch          418 non-null int64
Ticket         418 non-null object
Fare           417 non-null float64
Cabin          91 non-null object
Embarked       418 non-null object
dtypes: float64(2), int64(4), object(5)
memory usage: 36.0+ KB

從上面我們可以看出，Age、Cabin、Embarked、Fare幾個特徵存在缺失值。

繪製存活的比例：

train_data['Survived'].value_counts().plot.pie(autopct = '%1.2f%%')

<matplotlib.axes._subplots.AxesSubplot at 0x230c2508ef0>

這裡寫圖片描述

2. 缺失值處理的方法

對資料進行分析的時候要注意其中是否有缺失值。

一些機器學習演算法能夠處理缺失值，比如神經網路，一些則不能。對於缺失值，一般有以下幾種處理方法：

（1）如果資料集很多，但有很少的缺失值，可以刪掉帶缺失值的行；

（2）如果該屬性相對學習來說不是很重要，可以對缺失值賦均值或者眾數。比如在哪兒上船Embarked這一屬性（共有三個上船地點），缺失倆值，可以用眾數賦值

train_data.Embarked[train_data.Embarked.isnull()] = train_data.Embarked.dropna().mode().values

（3）對於標稱屬性，可以賦一個代表缺失的值，比如‘U0’。因為缺失本身也可能代表著一些隱含資訊。比如船艙號Cabin這一屬性，缺失可能代表並沒有船艙。

#replace missing value with U0
train_data['Cabin'] = train_data.Cabin.fillna('U0') # train_data.Cabin[train_data.Cabin.isnull()]='U0'

（4）使用迴歸隨機森林等模型來預測缺失屬性的值。因為Age在該資料集裡是一個相當重要的特徵（先對Age進行分析即可得知），所以保證一定的缺失值填充準確率是非常重要的，對結果也會產生較大影響。一般情況下，會使用資料完整的條目作為模型的訓練集，以此來預測缺失值。對於當前的這個資料，可以使用隨機森林來預測也可以使用線性迴歸預測。這裡使用隨機森林預測模型，選取資料集中的數值屬性作為特徵（因為sklearn的模型只能處理數值屬性，所以這裡先僅選取數值特徵，但在實際的應用中需要將非數值特徵轉換為數值特徵）

from sklearn.ensemble import RandomForestRegressor

#choose training data to predict age
age_df = train_data[['Age','Survived','Fare', 'Parch', 'SibSp', 'Pclass']]
age_df_notnull = age_df.loc[(train_data['Age'].notnull())]
age_df_isnull = age_df.loc[(train_data['Age'].isnull())]
X = age_df_notnull.values[:,1:]
Y = age_df_notnull.values[:,0]
# use RandomForestRegression to train data
RFR = RandomForestRegressor(n_estimators=1000, n_jobs=-1)
RFR.fit(X,Y)
predictAges = RFR.predict(age_df_isnull.values[:,1:])
train_data.loc[train_data['Age'].isnull(), ['Age']]= predictAges

讓我們再來看一下缺失資料處理後的DataFram：

train_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            891 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          891 non-null object
Embarked       891 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB

3. 分析資料關係

(1) 性別與是否生存的關係 Sex

train_data.groupby(['Sex','Survived'])['Survived'].count()

Sex     Survived
female  0            81
        1           233
male    0           468
        1           109
Name: Survived, dtype: int64

train_data[['Sex','Survived']].groupby(['Sex']).mean().plot.bar()

<matplotlib.axes._subplots.AxesSubplot at 0x230c251ab00>

這裡寫圖片描述

以上為不同性別的生存率，可見在泰坦尼克號事故中，還是體現了Lady First。

(2) 船艙等級和生存與否的關係 Pclass

train_data.groupby(['Pclass','Survived'])['Pclass'].count()

Pclass  Survived
1       0            80
        1           136
2       0            97
        1            87
3       0           372
        1           119
Name: Pclass, dtype: int64

train_data[['Pclass','Survived']].groupby(['Pclass']).mean().plot.bar()

<matplotlib.axes._subplots.AxesSubplot at 0x230c5e08b70>

這裡寫圖片描述

train_data[['Sex','Pclass','Survived']].groupby(['Pclass','Sex']).mean().plot.bar()

<matplotlib.axes._subplots.AxesSubplot at 0x230c5e2ad68>

這裡寫圖片描述

不同等級船艙的男女生存率：

train_data.groupby(['Sex', 'Pclass', 'Survived'])['Survived'].count()

Sex     Pclass  Survived
female  1       0             3
                1            91
        2       0             6
                1            70
        3       0            72
                1            72
male    1       0            77
                1            45
        2       0            91
                1            17
        3       0           300
                1            47
Name: Survived, dtype: int64

從圖和表中可以看出，總體上泰坦尼克號逃生是婦女優先，但是對於不同等級的船艙還是有一定的區別。

(3) 年齡與存活與否的關係 Age

分別分析不同等級船艙和不同性別下的年齡分佈和生存的關係：

fig, ax = plt.subplots(1, 2, figsize = (18, 8))
sns.violinplot("Pclass", "Age", hue="Survived", data=train_data, split=True, ax=ax[0])
ax[0].set_title('Pclass and Age vs Survived')
ax[0].set_yticks(range(0, 110, 10))

sns.violinplot("Sex", "Age", hue="Survived", data=train_data, split=True, ax=ax[1])
ax[1].set_title('Sex and Age vs Survived')
ax[1].set_yticks(range(0, 110, 10))

plt.show()

這裡寫圖片描述

分析總體的年齡分佈：

plt.figure(figsize=(12,5))
plt.subplot(121)
train_data['Age'].hist(bins=70)
plt.xlabel('Age')
plt.ylabel('Num')

plt.subplot(122)
train_data.boxplot(column='Age', showfliers=False)
plt.show()

這裡寫圖片描述

不同年齡下的生存和非生存的分佈情況：

facet = sns.FacetGrid(train_data, hue="Survived",aspect=4)
facet.map(sns.kdeplot,'Age',shade= True)
facet.set(xlim=(0, train_data['Age'].max()))
facet.add_legend()

<seaborn.axisgrid.FacetGrid at 0x230c5e53cf8>

png

不同年齡下的平均生存率：

# average survived passengers by age
fig, axis1 = plt.subplots(1,1,figsize=(18,4))
train_data["Age_int"] = train_data["Age"].astype(int)
average_age = train_data[["Age_int", "Survived"]].groupby(['Age_int'],as_index=False).mean()
sns.barplot(x='Age_int', y='Survived', data=average_age)

<matplotlib.axes._subplots.AxesSubplot at 0x230c60135f8>

這裡寫圖片描述

train_data['Age'].describe()

count    891.000000
mean      29.668231
std       13.739002
min        0.420000
25%       21.000000
50%       28.000000
75%       37.000000
max       80.000000
Name: Age, dtype: float64

樣本有891，平均年齡約為30歲，標準差13.5歲，最小年齡為0.42，最大年齡80.

按照年齡，將乘客劃分為兒童、少年、成年和老年，分析四個群體的生還情況：

bins = [0, 12, 18, 65, 100]
train_data['Age_group'] = pd.cut(train_data['Age'], bins)
by_age = train_data.groupby('Age_group')['Survived'].mean()
by_age

Age_group
(0, 12]      0.506173
(12, 18]     0.466667
(18, 65]     0.364512
(65, 100]    0.125000
Name: Survived, dtype: float64

by_age.plot(kind = 'bar')

<matplotlib.axes._subplots.AxesSubplot at 0x230c6079e80>

這裡寫圖片描述

(4) 稱呼與存活與否的關係 Name

通過觀察名字資料，我們可以看出其中包括對乘客的稱呼，如：Mr、Miss、Mrs等，稱呼資訊包含了乘客的年齡、性別，同時也包含了如社會地位等的稱呼，如：Dr,、Lady、Major、Master等的稱呼。

train_data['Title'] = train_data['Name'].str.extract(' ([A-Za-z]+)\.', expand=False)

pd.crosstab(train_data['Title'], train_data['Sex'])

Sex	female	male
Title
Capt	0	1
Col	0	2
Countess	1	0
Don	0	1
Dr	1	6
Jonkheer	0	1
Lady	1	0
Major	0	2
Master	0	40
Miss	182	0
Mlle	2	0
Mme	1	0
Mr	0	517
Mrs	125	0
Ms	1	0
Rev	0	6
Sir	0	1

觀察不同稱呼與生存率的關係：

train_data[['Title','Survived']].groupby(['Title']).mean().plot.bar()

<matplotlib.axes._subplots.AxesSubplot at 0x230c61699b0>

這裡寫圖片描述

同時，對於名字，我們還可以觀察名字長度和生存率之間存在關係的可能：

fig, axis1 = plt.subplots(1,1,figsize=(18,4))
train_data['Name_length'] = train_data['Name'].apply(len)
name_length = train_data[['Name_length','Survived']].groupby(['Name_length'],as_index=False).mean()
sns.barplot(x='Name_length', y='Survived', data=name_length)

<matplotlib.axes._subplots.AxesSubplot at 0x230c61689b0>

這裡寫圖片描述

從上面的圖片可以看出，名字長度和生存與否確實也存在一定的相關性。

(5) 有無兄弟姐妹和存活與否的關係 SibSp

# 將資料分為有兄弟姐妹的和沒有兄弟姐妹的兩組：
sibsp_df = train_data[train_data['SibSp'] != 0]
no_sibsp_df = train_data[train_data['SibSp'] == 0]

plt.figure(figsize=(10,5))
plt.subplot(121)
sibsp_df['Survived'].value_counts().plot.pie(labels=['No Survived', 'Survived'], autopct = '%1.1f%%')
plt.xlabel('sibsp')

plt.subplot(122)
no_sibsp_df['Survived'].value_counts().plot.pie(labels=['No Survived', 'Survived'], autopct = '%1.1f%%')
plt.xlabel('no_sibsp')

plt.show()

這裡寫圖片描述

(6) 有無父母子女和存活與否的關係 Parch

和有無兄弟姐妹一樣，同樣分析可以得到：

parch_df = train_data[train_data['Parch'] != 0]
no_parch_df = train_data[train_data['Parch'] == 0]

plt.figure(figsize=(10,5))
plt.subplot(121)
parch_df['Survived'].value_counts().plot.pie(labels=['No Survived', 'Survived'], autopct = '%1.1f%%')
plt.xlabel('parch')

plt.subplot(122)
no_parch_df['Survived'].value_counts().plot.pie(labels=['No Survived', 'Survived'], autopct = '%1.1f%%')
plt.xlabel('no_parch')

plt.show()

這裡寫圖片描述

###(7) 親友的人數和存活與否的關係 SibSp & Parch

fig,ax=plt.subplots(1,2,figsize=(18,8))
train_data[['Parch','Survived']].groupby(['Parch']).mean().plot.bar(ax=ax[0])
ax[0].set_title('Parch and Survived')
train_data[['SibSp','Survived']].groupby(['SibSp']).mean().plot.bar(ax=ax[1])
ax[1].set_title('SibSp and Survived')

Text(0.5,1,'SibSp and Survived')

這裡寫圖片描述

train_data['Family_Size'] = train_data['Parch'] + train_data['SibSp'] + 1
train_data[['Family_Size','Survived']].groupby(['Family_Size']).mean().plot.bar()

<matplotlib.axes._subplots.AxesSubplot at 0x230c77155c0>

這裡寫圖片描述

從圖表中可以看出，若獨自一人，那麼其存活率比較低；但是如果親友太多的話，存活率也會很低。

(8) 票價分佈和存活與否的關係 Fare

首先繪製票價的分佈情況：

plt.figure(figsize=(10,5))
train_data['Fare'].hist(bins = 70)

train_data.boxplot(column='Fare', by='Pclass', showfliers=False)
plt.show()

這裡寫圖片描述

train_data['Fare'].describe()

count    891.000000
mean      32.204208
std       49.693429
min        0.000000
25%        7.910400
50%       14.454200
75%       31.000000
max      512.329200
Name: Fare, dtype: float64

繪製生存與否與票價均值和方差的關係：

fare_not_survived = train_data['Fare'][train_data['Survived'] == 0]
fare_survived = train_data['Fare'][train_data['Survived'] == 1]

average_fare = pd.DataFrame([fare_not_survived.mean(), fare_survived.mean()])
std_fare = pd.DataFrame([fare_not_survived.std(), fare_survived.std()])
average_fare.plot(yerr=std_fare, kind='bar', legend=False)

plt.show()

這裡寫圖片描述

由上圖示可知，票價與是否生還有一定的相關性，生還者的平均票價要大於未生還者的平均票價。

(9) 船艙型別和存活與否的關係 Cabin

由於船艙的缺失值確實太多，有效值僅僅有204個，很難分析出不同的船艙和存活的關係，所以在做特徵工程的時候，可以直接將該組特徵丟棄。

當然，這裡我們也可以對其進行一下分析，對於缺失的資料都分為一類。

簡單地將資料分為是否有Cabin記錄作為特徵，與生存與否進行分析：

# Replace missing values with "U0"
train_data.loc[train_data.Cabin.isnull(), 'Cabin'] = 'U0'
train_data['Has_Cabin'] = train_data['Cabin'].apply(lambda x: 0 if x == 'U0' else 1)
train_data[['Has_Cabin','Survived']].groupby(['Has_Cabin']).mean().plot.bar()

<matplotlib.axes._subplots.AxesSubplot at 0x230c7566080>

png

對不同型別的船艙進行分析：

# create feature for the alphabetical part of the cabin number
train_data['CabinLetter'] = train_data['Cabin'].map(lambda x: re.compile("([a-zA-Z]+)").search(x).group())
# convert the distinct cabin letters with incremental integer values
train_data['CabinLetter'] = pd.factorize(train_data['CabinLetter'])[0]
train_data[['CabinLetter','Survived']].groupby(['CabinLetter']).mean().plot.bar()

<matplotlib.axes._subplots.AxesSubplot at 0x230c5ebcd30>

這裡寫圖片描述

可見，不同的船艙生存率也有不同，但是差別不大。所以在處理中，我們可以直接將特徵刪除。

(10) 港口和存活與否的關係 Embarked

泰坦尼克號從英國的南安普頓港出發，途徑法國瑟堡和愛爾蘭昆士敦，那麼在昆士敦之前上船的人，有可能在瑟堡或昆士敦下船，這些人將不會遇到海難。

sns.countplot('Embarked', hue='Survived', data=train_data)
plt.title('Embarked and Survived')

Text(0.5,1,'Embarked and Survived')

這裡寫圖片描述

sns.factorplot('Embarked', 'Survived', data=train_data, size=3, aspect=2)
plt.title('Embarked and Survived rate')
plt.show()

這裡寫圖片描述

由上可以看出，在不同的港口上船，生還率不同，C最高，Q次之，S最低。

以上為所給出的資料特徵與生還與否的分析。

據瞭解，泰坦尼克號上共有2224名乘客。本訓練資料只給出了891名乘客的資訊，如果該資料集是從總共的2224人中隨機選出的，根據中心極限定理，該樣本的資料也足夠大，那麼我們的分析結果就具有代表性；但如果不是隨機選取，那麼我們的分析結果就可能不太靠譜了。

(11) 其他可能和存活與否有關係的特徵

對於資料集中沒有給出的特徵資訊，我們還可以聯想其他可能會對模型產生影響的特徵因素。如：乘客的國籍、乘客的身高、乘客的體重、乘客是否會游泳、乘客職業等等。

另外還有資料集中沒有分析的幾個特徵：Ticket（船票號）、Cabin（船艙號）,這些因素的不同可能會影響乘客在船中的位置從而影響逃生的順序。但是船艙號資料缺失，船票號類別大，難以分析規律，所以在後期模型融合的時候，將這些因素交由模型來決定其重要性。

4. 變數轉換

變數轉換的目的是將資料轉換為適用於模型使用的資料，不同模型接受不同型別的資料，Scikit-learn要求資料都是數字型numeric，所以我們要將一些非數字型的原始資料轉換為數字型numeric。

所以下面對資料的轉換進行介紹，以在進行特徵工程的時候使用。

所有的資料可以分為兩類：

1.定性(Quantitative)變數可以以某種方式排序，Age就是一個很好的列子。
2.定量(Qualitative)變數描述了物體的某一（不能被數學表示的）方面，Embarked就是一個例子。

定性(Qualitative)轉換：

1. Dummy Variables

就是類別變數或者二元變數，當qualitative variable是一些頻繁出現的幾個獨立變數時，Dummy Variables比較適合使用。我們以Embarked為例，Embarked只包含三個值’S’,’C’,’Q’，我們可以使用下面的程式碼將其轉換為dummies:

embark_dummies  = pd.get_dummies(train_data['Embarked'])
train_data = train_data.join(embark_dummies)
train_data.drop(['Embarked'], axis=1,inplace=True)

embark_dummies = train_data[['S', 'C', 'Q']]
embark_dummies.head()

S	C	Q
0	1	0
1	0	1
2	1	0
3	1	0
4	1	0

2. Factorizing

dummy不好處理Cabin（船艙號）這種標稱屬性，因為他出現的變數比較多。所以Pandas有一個方法叫做factorize()，它可以建立一些數字，來表示類別變數，對每一個類別對映一個ID，這種對映最後只生成一個特徵，不像dummy那樣生成多個特徵。

# Replace missing values with "U0"
train_data['Cabin'][train_data.Cabin.isnull()] = 'U0'
# create feature for the alphabetical part of the cabin number
train_data['CabinLetter'] = train_data['Cabin'].map( lambda x : re.compile("([a-zA-Z]+)").search(x).group())
# convert the distinct cabin letters with incremental integer values
train_data['CabinLetter'] = pd.factorize(train_data['CabinLetter'])[0]

1
2
3
4
5
相關推薦

Kaggle —— 泰坦尼克號Titanic

1. 資料總覽 Titanic 生存模型預測，其中包含了兩組資料：train.csv 和 test.csv，分別為訓練集合和測試集合。 import re import numpy as np import pandas as pd import matpl

Kaggle--泰坦尼克號失蹤者生死情況預測原始碼（附Titanic資料集）

資料視覺化分析import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np titanic=pd.read_csv('train.csv') #pri

kaggle泰坦尼克號python和r

之前用了一陣子spss modeler，自己整了r，後來發現國內高手都用python，發現了網上兩篇類似的python和r寫的文章，這裡加上原文連結，可以一起學習： 1：python版本連結：http://blog.csdn.net/longxinchen_ml/artic

kaggle——泰坦尼克號生死預測

把很久以前做的泰坦尼克號的程式碼貼出來。 # -*- coding: utf-8 -*- """ Created on Fri Mar 30 14:23:12 2017 @author: Yichengfan """ import pandas as pd

kaggle 泰坦尼克號生存預測——六種演算法模型實現與比較

Hi，大家好，這是我第一篇部落格。作為非專業程式小白，部落格內容必然有不少錯誤之處，還望各位大神多多批評指正。在開始正式內容想先介紹下自己和一些異想天開的想法。我是一名研究生，研究的方向是蛋白質結構與功能方向。在研究過程中發現生物系統是如此複雜，猶如一張網，資訊流動，

Kaggle: 泰坦尼克號生存預測

0.前言本文對Kaggle泰坦尼克比賽的訓練集和測試集進行分析,並對乘客的生存結果進行了預測.作為資料探勘的入門專案,本人將思路記錄下來,以供參考.如有不足之處,歡迎指正. 1.匯入資料 import pandas as pd import n

Kaggle競賽 —— 泰坦尼克號（Titanic）

Titanic大概是kaggle上最受歡迎的專案了，有7000多支隊伍參加，多年來誕生了無數關於該比賽的經驗分享。正是由於前人們的無私奉獻，我才能無痛完成本篇。事實上kaggle上的很多kernel都聚焦於某個特定的層面（比如提取某個不為人知的特徵、使用超複雜的演算法、專做E

ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kaggle資料集預測泰坦尼克號生存人員

ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kaggle資料集預測泰坦尼克號生存人員實驗資料設計思路實現程式碼(部分程式碼) /** js程式碼實現SVM演算法 */ //ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kagg

機器學習（十七）kaggle競賽之泰坦尼克號專案實戰-2

導航想寫這篇部落格的由衷是做完幾個專案，有時對於圖的畫法和模型融合演算法原理理解還很膚淺，特此加深一下印象。內容概覽圖 pandas、matplotlib、seaborn 餅圖直方圖

機器學習（八）kaggle競賽之泰坦尼克號專案實戰-1

引言機器學習演算法都是為專案為資料服務的，某一個演算法都有它自己的適用範圍，以及優勢與劣勢，研究演算法由於平日的日常操練，那麼用它去做專案就如同上戰場殺敵一樣，去發揮它的價值，kaggle就是這樣一個刷怪升級

人工智障也刷題！Kaggle 入門之實戰泰坦尼克號

背景關於 Kaggle www.kaggle.com/ 這是一個為你提供完美資料，為你提供實際應用場景，可以與小夥伴在資料探勘領域 high 的不要不要的的地方啊！！！ Kaggle 是一個用來學習、分享和競賽的線上資料實驗平臺，有點類似 KDD—CUP（國際知識發現和資料探勘競賽），企

機器學習kaggle實戰-泰坦尼克號問題知識梳理

工作流程：在資料科學競賽的解決問題的七個步驟： 1.問題或問題的定義。（理解題目）2.獲得培訓和測試資料。（獲取資料）3.爭論,準備清理資料。（初步清洗資料）4.分析、識別模式,並探索資料。（特徵工程）5.模型,預測和解決問題。（機器學習演算法介入）6.視覺化報告,並提出解決問題的步驟和最終的解決方案。

【SciKit-Learn學習筆記】4：決策樹擬合泰坦尼克號資料集並提交到Kaggle

學習《scikit-learn機器學習》時的一些實踐。決策樹擬合泰坦尼克號資料集這裡用繪製引數-score曲線的方式去直觀看出模型引數對模型得分的影響，作者使用了GridSearchCV來自動做k-fold交叉驗證，並且能在多組模型引數中找到最優的一組和最優值（用平均s

【Kaggle筆記】預測泰坦尼克號乘客生還情況（決策樹）

資料集程式碼 # -*- coding: utf-8 -*- """ 泰坦尼克號乘客生還情況預測模型決策樹 """ # 匯入pandas用於資料分析。 import panda

kaggle初探--泰坦尼克號生存預測

繼續學習資料探勘，嘗試了kaggle上的泰坦尼克號生存預測。 Titanic for Machine Learning 匯入和讀取 # data processing import numpy as np import pandas as pd impor

Kaggle專案案例分析泰坦尼克號生存預測

一、資料來源及說明 1.1 資料來源來自Kaggle的非常經典資料專案 Titanic：Machine Learning1.2 資料說明資料包含train.csv 和test.csv 兩個檔案資料集，一個訓練用，一個測試用。train文件資料是用來分析和建模，包含泰

Kaggle入門——泰坦尼克號生還者預測

前言　　這個是Kaggle比賽中泰坦尼克號生存率的分析。強烈建議在做這個比賽的時候，再看一遍電源《泰坦尼克號》，可能會給你一些啟發，比如婦女兒童先上船等。所以是否獲救其實並非隨機，而是基於一些背景有先後順序的。 1，背景介紹　　1912年4月15日，載著1316號乘客和891名船員的豪華巨輪泰坦尼克號在首

機器學習之路: python 決策樹分類預測泰坦尼克號乘客是否幸存

現象 info n) 指標 ssi 直觀 learn 保持 afr 使用python3 學習了決策樹分類器的api 涉及到特征的提取，數據類型保留，分類類型抽取出來新的類型需要網上下載數據集，我把他們下載到了本地，可以到我的git下載代碼和數據集: https

【金米米】現實版“泰坦尼克號”上演！這一刻竟是永別！

與他進行現實潛水可能重復保持個人也不能北京時間7月5日傍晚6點45分左右，在泰國南部普吉府，兩艘共載有127名中國遊客的遊船在返航普吉島途中，突遇特大暴風雨，分別在珊瑚島和梅通島發生傾覆。截止至9日上午10時已有42人遇難，41名中國遊客，其中有13名中國

泰坦尼克號之災分析

hist analysis 希望 rand 建模 mach 特征工程 queen only 大神經驗： 1、應用機器學習，千萬不要一上來就試圖做到完美，先擼一個baseline的model出來，再進行後續的分析步驟，一步步提高，所謂後續步驟可能包括『分析model現在的狀態

Kaggle —— 泰坦尼克號Titanic

1. 資料總覽

2. 缺失值處理的方法

3. 分析資料關係

(1) 性別與是否生存的關係 Sex

(2) 船艙等級和生存與否的關係 Pclass

(3) 年齡與存活與否的關係 Age

(4) 稱呼與存活與否的關係 Name

(5) 有無兄弟姐妹和存活與否的關係 SibSp

(6) 有無父母子女和存活與否的關係 Parch

(8) 票價分佈和存活與否的關係 Fare

(9) 船艙型別和存活與否的關係 Cabin

(10) 港口和存活與否的關係 Embarked

(11) 其他可能和存活與否有關係的特徵

4. 變數轉換

定性(Qualitative)轉換：

1. Dummy Variables

2. Factorizing

相關推薦