泰塔尼克號乘客生存預測(python)
阿新 • • 發佈:2018-12-17
介紹:
本文使用簡單的線性模型預測泰坦尼克號乘客生存情況,利用kaggle上的Titanic資料集,最後採用五折交叉驗證方法評價模型
思路:
-
讀取資料:用pandas讀取titanic的訓練資料
-
資料清洗:fillna函式填補空值
-
特徵提取:選擇年齡、性別、客艙等級、登船港口為關鍵特徵
-
選擇模型:選擇線性模型進行模型構建
-
模型評價:使用五折交叉驗證法進行模型評價
# 匯入資料 import pandas as pd titanic_train = pd.read_csv('c:/train.csv') # 用Age列的中位數填補缺失值 titanic_train['Age'] = titanic_train['Age'].fillna(titanic_train['Age'].median()) # 將Sex列中female轉換成1,male轉換成0,便於資料處理 titanic_train.loc[titanic_train['Sex']=='female','Sex']=1 titanic_train.loc[titanic_train['Sex']=='male','Sex']=0 # 用Embarked列中最多的s填補空值,並將倉口代號轉換成數字 titanic_train['Embarked'] = titanic_train['Embarked'].fillna('s') titanic_train.loc[titanic_train['Embarked']=='S','Embarked'] = 0 titanic_train.loc[titanic_train['Embarked']=='Q','Embarked'] = 1 titanic_train.loc[titanic_train['Embarked']=='C','Embarked'] = 2 #
未完待續。。。。。