Kaggle案例（一）Titanic: Machine Learning from Disaste

阿新 • • 發佈：2019-05-10

分享 strong list 數據集 rom 個數 legend 技術分享 isnull

1. 案例簡介

Titanic 案例是Kaggle 入門案例，鏈接地址https://www.kaggle.com/c/titanic 。以下是摘自官網上的描述信息：
技術分享圖片

2. 分析數據

2.1 讀取數據

加載訓練數據

data_train = pd.read_csv("./input/train.csv")

預覽數據

data_train.head()

技術分享圖片
訓練集數據說明：

查看數據集信息

data_train.info()

技術分享圖片

查看有缺失值的列

ata_train.columns[data_train.isnull().any()].tolist()

技術分享圖片

計算缺失數

age_null_count = data_train.Age.isnull().sum()
cabin_null_count = data_train.Cabin.isnull().sum()
embarked_null_count = data_train.Embarked.isnull().sum()
print(‘Age列缺失：%s‘ %age_null_count)
print(‘Cabin列缺失：%s‘ %cabin_null_count)
print(‘Embarked列缺失：%s‘ %embarked_null_count)

技術分享圖片

2.2 處理數據

Age列缺失值
使用Age列中位數填充缺失值

data_train.Age.fillna(data_train.Age.median())

Cabin列缺失值
Cabin列數據缺失條目較多，計算Survived列與Cabin列數據關系

Survived_cabin = data_train.Survived[pd.notnull(data_train.Cabin)].value_counts()
print(Survived_cabin)

技術分享圖片

Survived_nocabin = data_train.Survived[pd.isnull(data_train.Cabin)].value_counts()
print(Survived_nocabin)

技術分享圖片

可以發現有Cabin信息的乘客獲救幾率要大。將Cabin列數據作為一個分類標簽處理

Embarked列缺失值
使用Embarked列眾數填充缺失值

data_train.Embarked.fillna(data_train.Embarked.mode())

2.3 數據展現

獲救人數情況

# 繪制獲救人數情況
data_train.Survived.value_counts().plot(kind=‘bar‘)
plt.title("獲救情況")
plt.xticks([0,1], ["未獲救","獲救"], rotation=0)
plt.ylabel("人數")

技術分享圖片
各等級的乘客年齡分布

data_train.Age[data_train.Pclass == 1].plot(kind=‘kde‘)   
data_train.Age[data_train.Pclass == 2].plot(kind=‘kde‘)
data_train.Age[data_train.Pclass == 3].plot(kind=‘kde‘)
plt.xlabel("年齡")
plt.ylabel("密度") 
plt.title("各等級的乘客年齡分布")
plt.legend((‘一等艙‘, ‘二等艙‘,‘三等艙‘),loc=‘best‘)

技術分享圖片

各乘客等級的獲救情況

Survived_0 = data_train.Pclass[data_train.Survived == 0].value_counts()
Survived_1 = data_train.Pclass[data_train.Survived == 1].value_counts()
df=pd.DataFrame({‘獲救‘:Survived_1, ‘未獲救‘:Survived_0})
df.plot(kind=‘bar‘, stacked=True)
plt.title("船艙等級的獲救情況")
plt.xlabel("船艙等級") 
plt.ylabel("人數") 
plt.xticks(rotation=0)

技術分享圖片

繪制登船口岸上船人數

data_train.Embarked.value_counts().plot(kind=‘bar‘)
plt.title("各登船口岸上船人數")
plt.ylabel("人數")
plt.xticks(rotation=0)

技術分享圖片

各登錄港口的獲救情況

Survived_0 = data_train.Embarked[data_train.Survived == 0].value_counts()
Survived_1 = data_train.Embarked[data_train.Survived == 1].value_counts()
df=pd.DataFrame({‘獲救‘:Survived_1, ‘未獲救‘:Survived_0})
df.plot(kind=‘bar‘, stacked=True)
plt.title("登陸港口乘客的獲救情況")
plt.xlabel("登陸港口") 
plt.ylabel("人數") 
plt.xticks(rotation=0)

技術分享圖片

各性別的獲救情況

Survived_m = data_train.Survived[data_train.Sex == ‘male‘].value_counts()
Survived_f = data_train.Survived[data_train.Sex == ‘female‘].value_counts()
df=pd.DataFrame({‘男性‘:Survived_m, ‘女性‘:Survived_f})
df.plot(kind=‘bar‘, stacked=True)
plt.title("男女性別獲救情況")
plt.xlabel("性別") 
plt.ylabel("人數")
plt.xticks([0,1], ["未獲救","獲救"], rotation=0)

技術分享圖片

SibSp字段獲救情況

SibSp_0 = data_train.SibSp[data_train.Survived == 0].value_counts()
SibSp_1 = data_train.SibSp[data_train.Survived == 1].value_counts()
SibSp_df=pd.DataFrame({‘未獲救‘:SibSp_0, ‘獲救‘:SibSp_1})
SibSp_df.plot(kind=‘bar‘,stacked=True)
plt.title("堂兄弟/妹個數獲救情況")
plt.xlabel("堂兄弟/妹個數") 
plt.ylabel("人數")
plt.xticks(rotation=0)

技術分享圖片

Parch字段獲救情況

Parch_0 = data_train.Parch[data_train.Survived == 0].value_counts()
Parch_1 = data_train.Parch[data_train.Survived == 1].value_counts()
Parch_df=pd.DataFrame({‘未獲救‘:Parch_0, ‘獲救‘:Parch_1})
Parch_df.plot(kind=‘bar‘,stacked=True)
plt.title("父母與小孩個數獲救情況")
plt.xlabel("父母與小孩個數") 
plt.ylabel("人數")
plt.xticks(rotation=0)

技術分享圖片

Kaggle案例（一）Titanic: Machine Learning from Disaste

分享 strong list 數據集 rom 個數 legend 技術分享 isnull 1. 案例簡介 Titanic 案例是Kaggle 入門案例，鏈接地址https://www.kaggle.com/c/titanic 。以下是摘自官網上的描述信息： 2. 分析數據

Kaggle比賽（一）Titanic: Machine Learning from Disaster

泰坦尼克號倖存預測是本小白接觸的第一個Kaggle入門比賽，主要參考了以下兩篇教程： https://www.cnblogs.com/star-zhao/p/9801196.html https://zhuanlan.zhihu.com/p/30538352 本模型在Leaderboard上的最高得分為0

kaggle系列（一、Titanic入門比賽）

填充缺失值的三種方法 Completing a numerical continuous feature Now we should start estimating and completing features with missing or null values. We will firs

webpack開發案例（一）

sele tle 參數說明 logs css 直接 [] ima -128 案例一（基本打包）基本前置條件步驟一： <!DOCTYPE html> <html> <head> <meta charset="ut

shell腳本案例（一）批量創建用戶

shell 批量創建用戶 for linux 案例需求用shell腳本批量建立Linux用戶實現要求：創建用戶student1到student50,指定組為student組！而且每個用戶需要設定一個不同的密碼！實現腳本 #!/bin/bash grep ‘student‘ /etc/grou

unity Socket TCP連線案例（一）

非常清晰的demo 服務端 using System; using System.Collections; using System.Collections.Generic; using System.Net; using System.Net.Sockets; using Syste

unity Socket TCP連接案例（一）

mon star connect color 服務器 void ipaddress field .get 非常清晰的demo 服務端 using System; using System.Collections; using System.Collectio

Docker學習（一）Docker Machine基本使用--命令集

1、參考命令幫助或官方文件 docker-machine help [COMMAND] https://docs.docker.com/machine/reference/ 2、version/help --檢視版本和幫助 create/rm --建立/刪除一個Doc

kaggle筆記02： Titanic: Machine Learning from Disaster(二)

5. 模型建立。如何選擇模型？ sklearn官網上演算法粗略選擇圖：根據上圖，考慮SVC和ensemble clasifiers。本例建議從決策樹、bagging、隨機森林和boosting開始，因為好理解好除錯，然後是SVC。資料量小所以交叉

SpringBoot的IOC模組註解及簡單案例（一）

本文將會講到SpringBoot的IOC模組下的註解進行總結，主要目的是為了方便之後查詢註解和快速應用。將會以：元件註冊，生命週期，屬性賦值，自動裝配來進行區分。示例程式碼的註解很重要一、元件註冊 1、@Configuration：標註在類上。主要是告訴 Sprin

HTML+CSS簡單的登陸+註冊介面仿照案例（一）

是新手在練習html+css，所以裡面的很多程式碼會比較冗雜，不是很簡潔，會慢慢提高水平的。1.整體介面分為三大部分：導航、主要內容、尾部資訊內容；主要內容細分為：左側欄（頁面資訊部分）、右側欄（登陸板塊）2.導航：裡面有四個li標籤,每個li標籤裡面都有一個a標籤，讓其右浮

Python初學者好玩案例（一）：最短的抓取網頁圖片程式碼，只有10行

這幾天閒來無事，又研究了一下Python的基礎內容，首先研究的是如何抓取網頁資料。發現大神們通常在初級教程裡就要寫很多程式碼，真讓我們這些初學者無所適從。加上Python的各種版本不同，也會讓初學者頭腦，在此提醒初學者，看資料一定要注意軟體版本號。還是按照我的原則，凡

dataTables分頁展示資料注意事項(案例)（一）

dataTables可以高效的提供大量資料的表格展示：程式碼如：前臺： table = $('#example').DataTable( { "ajax" : "/c", "orde

【Clion-Ubuntu-dlib】執行一個dlib案例（一）（如何在clion編譯器中配置CMakeLists）

目錄第一步：新建一個dlib專案第二步：執行一個案例hello world 第三步：配置CMakeList cmake_minimum_required(VERSION 2.8) project(cpp_eval) set(

說說EMC解決方案中的那些產品和案例（一）

認識我們由於工作和興趣關係，我們作為一個團隊，平時一直密切關注著儲存業界的相關產品和最新資訊，也會把一些好的諮詢和經驗整理成文分享出來。去年我們釋出的兩個系列，【網路基本功-細說網路那些事兒】和【一站式學習Wireshark】，獲得了很多人的好評。我們希望在不同的線上和社

Hadoop學習筆記—20.網站日誌分析專案案例（一）專案介紹

網站日誌分析專案案例（一）專案介紹：當前頁面一、專案背景與資料情況1.1 專案來源　　本次要實踐的資料日誌來源於國內某技術學習論壇，該論壇由某培訓機構主辦，匯聚了眾多技術學習者，每天都有人發帖、回帖，如圖1所示。圖1 專案來源網站-技術學習論壇　　本次實踐的目的就在於通過對該

Jmeter效能測試案例（一）

一、測試需求：測試20個使用者訪問網站在負載達到30QPS時的平均響應時間二、QPS：Query Per Second 每秒查詢率。（一臺查詢伺服器每秒能夠處理的查詢次數，作為域名伺服器的效能經常用每秒查詢率來衡量）三、測試步驟 1、新增執行緒組（執行

python進階—numpy案例（一）

首先總結一下numpy如何讀取txt，excel，csv等格式的文件。 import numpy as np arr2 = np.arange(12).reshape(3,4) # 儲存資料到txt文件(fmt:資料格式,delimiter：分隔符) np.savetx

資料庫查詢案例（一）單表查詢 45 題

use `部門僱員`; DROP TABLE dept; CREATE TABLE `dept` ( `deptno` bigint(2) NOT NULL PRIMARY KEY, `dname` varchar(20) default NULL, `loc` VARCHAR(20) defa

增量更新環節案例（一）

測試服（不限制ip）驗證完成，到正式服（限制ip）開白名單驗證，然後在線上灰度，正式對外，灰度是要看情況的。測試要求：要求是appversion1.0.2 resversion 1031 -> 升級後appversion不變，resversion 1032 當

Kaggle案例（一）Titanic: Machine Learning from Disaste

2. 分析數據

2.1 讀取數據

2.2 處理數據

2.3 數據展現

相關推薦