Kaggle比賽（一）Titanic: Machine Learning from Disaster

泰坦尼克號倖存預測是本小白接觸的第一個Kaggle入門比賽，主要參考了以下兩篇教程：

https://www.cnblogs.com/star-zhao/p/9801196.html
https://zhuanlan.zhihu.com/p/30538352

本模型在Leaderboard上的最高得分為0.79904，排名前13%。

由於這個比賽做得比較早了，當時很多分析的細節都忘了，而且由於是第一次做，整體還是非常簡陋的。今天心血來潮，就當做個簡單的記錄（流水賬）。

匯入相關包：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import re
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.ensemble import ExtraTreesClassifier, RandomForestClassifier, GradientBoostingClassifier, VotingClassifier

讀取訓練、測試集，合併在一起處理：

train_raw = pd.read_csv('datasets/train.csv')
test_raw = pd.read_csv('datasets/test.csv')
train_test = train_raw.append(test_raw, ignore_index=True, sort=False)

姓名中的稱謂可以在一定程度上體現出人的性別、年齡、身份、社會地位等，因而是一個不可忽略的重要特徵。我們首先用正則表示式將Name欄位中的稱謂資訊提取出來，然後做歸類：

Mr、Don代表男性
Miss、Ms、Mlle代表未婚女子
Mrs、Mme、Lady、Dona代表已婚女士

Countess、Jonkheer均為貴族身份
Capt、Col、Dr、Major、Sir這些少數稱謂歸為其他一類

train_test['Title'] = train_test['Name'].apply(lambda x: re.search('(\w+)\.', x).group(1))
train_test['Title'].replace(['Don'], 'Mr', inplace=True)
train_test['Title'].replace(['Mlle','Ms'], 'Miss', inplace=True)
train_test['Title'].replace(['Mme', 'Lady', 'Dona'], 'Mrs', inplace=True)
train_test['Title'].replace(['Countess', 'Jonkheer'], 'Noble', inplace=True)
train_test['Title'].replace(['Capt', 'Col', 'Dr', 'Major', 'Sir'], 'Other', inplace=True)

對稱謂類別進行獨熱編碼（One-Hot encoding）：

title_onehot = pd.get_dummies(train_test['Title'], prefix='Title')
train_test = pd.concat([train_test, title_onehot], axis=1)

對性別進行獨熱處理：

sex_onehot = pd.get_dummies(train_test['Sex'], prefix='Sex')
train_test = pd.concat([train_test, sex_onehot], axis=1)

將SibSp和Parch兩個特徵組合在一起，構造出表示家庭大小的特徵，因為分析表明有親人同行的乘客比獨自一人具有更高的存活率。

train_test['FamilySize'] = train_test['SibSp'] + train_test['Parch'] + 1

用眾數對Embarked填補缺失值：

train_test['Embarked'].fillna(train_test['Embarked'].mode()[0], inplace=True)
embarked_onehot = pd.get_dummies(train_test['Embarked'], prefix='Embarked')
train_test = pd.concat([train_test, embarked_onehot], axis=1)

由於Cabin缺失值太多，姑且將有無Cabin作為特徵：

train_test['Cabin'].fillna('NO', inplace=True)
train_test['Cabin'] = np.where(train_test['Cabin'] == 'NO', 'NO', 'YES')
cabin_onehot = pd.get_dummies(train_test['Cabin'], prefix='Cabin')
train_test = pd.concat([train_test, cabin_onehot], axis=1)

用同等船艙的票價均值填補Fare的缺失值：

Ktrain_test['Fare'].fillna(train_test.groupby('Pclass')['Fare'].transform('mean'), inplace=True)

由於有團體票，我們將票價均攤到每個人身上：

shares = train_test.groupby('Ticket')['Fare'].transform('count')
train_test['Fare'] = train_test['Fare'] / shares

票價分級：

train_test.loc[train_test['Fare'] < 5, 'Fare'] = 0
train_test.loc[(train_test['Fare'] >= 5) & (train_test['Fare'] < 10), 'Fare'] = 1
train_test.loc[(train_test['Fare'] >= 10) & (train_test['Fare'] < 15), 'Fare'] = 2
train_test.loc[(train_test['Fare'] >= 15) & (train_test['Fare'] < 30), 'Fare'] = 3
train_test.loc[(train_test['Fare'] >= 30) & (train_test['Fare'] < 60), 'Fare'] = 4
train_test.loc[(train_test['Fare'] >= 60) & (train_test['Fare'] < 100), 'Fare'] = 5
train_test.loc[train_test['Fare'] >= 100, 'Fare'] = 6

利用shares構造一個新的特徵，將買團體票的乘客分為一類，單獨買票的分為一類：

train_test['GroupTicket'] = np.where(shares == 1, 'NO', 'YES')
group_ticket_onehot = pd.get_dummies(train_test['GroupTicket'], prefix='GroupTicket')
train_test = pd.concat([train_test, group_ticket_onehot], axis=1)

對於缺失較多的Age項，直接用平均數或者中位數來填充不太合適。這裡我們用機器學習演算法，利用其他特徵來推測年齡。

missing_age_df = pd.DataFrame(train_test[['Age', 'Parch', 'Sex', 'SibSp', 'FamilySize', 'Title', 'Fare', 'Pclass', 'Embarked']])
missing_age_df = pd.get_dummies(missing_age_df,columns=['Title', 'FamilySize', 'Sex', 'Pclass' ,'Embarked'])
missing_age_train = missing_age_df[missing_age_df['Age'].notnull()]
missing_age_test = missing_age_df[missing_age_df['Age'].isnull()]

def fill_missing_age(missing_age_train, missing_age_test):
        missing_age_X_train = missing_age_train.drop(['Age'], axis=1)
        missing_age_Y_train = missing_age_train['Age']
        missing_age_X_test = missing_age_test.drop(['Age'], axis=1)
        # 模型1
        gbm_reg = GradientBoostingRegressor(n_estimators=100, max_depth=3, learning_rate=0.01, max_features=3, random_state=42)
        gbm_reg.fit(missing_age_X_train, missing_age_Y_train)
        missing_age_test['Age_GB'] = gbm_reg.predict(missing_age_X_test)
        # 模型2
        lrf_reg = LinearRegression(fit_intercept=True, normalize=True)
        lrf_reg.fit(missing_age_X_train, missing_age_Y_train)
        missing_age_test['Age_LRF'] = lrf_reg.predict(missing_age_X_test)
        # 將兩個模型預測後的均值作為最終預測結果
        missing_age_test['Age'] = np.mean([missing_age_test['Age_GB'], missing_age_test['Age_LRF']])
        return missing_age_test
    
train_test.loc[(train_test.Age.isnull()), 'Age'] = fill_missing_age(missing_age_train, missing_age_test)

劃分年齡段：

train_test.loc[train_test['Age'] < 9, 'Age'] = 0
train_test.loc[(train_test['Age'] >= 9) & (train_test['Age'] < 18), 'Age'] = 1
train_test.loc[(train_test['Age'] >= 18) & (train_test['Age'] < 27), 'Age'] = 2
train_test.loc[(train_test['Age'] >= 27) & (train_test['Age'] < 36), 'Age'] = 3
train_test.loc[(train_test['Age'] >= 36) & (train_test['Age'] < 45), 'Age'] = 4
train_test.loc[(train_test['Age'] >= 45) & (train_test['Age'] < 54), 'Age'] = 5
train_test.loc[(train_test['Age'] >= 54) & (train_test['Age'] < 63), 'Age'] = 6
train_test.loc[(train_test['Age'] >= 63) & (train_test['Age'] < 72), 'Age'] = 7
train_test.loc[(train_test['Age'] >= 72) & (train_test['Age'] < 81), 'Age'] = 8
train_test.loc[train_test['Age'] >= 81, 'Age'] = 9

儲存PassengerId：

passengerId_test = train_test['PassengerId'][891:]

丟棄多餘的特徵：

train_test.drop(['PassengerId', 'Name', 'SibSp', 'Parch', 'Title', 'Sex', 'Embarked', 'Cabin', 'Ticket', 'GroupTicket'], axis=1, inplace=True)

劃分訓練集和測試集：

train = train_test[:891]
test = train_test[891:]
X_train = train.drop(['Survived'], axis=1)
y_train = train['Survived']
X_test = test.drop(['Survived'], axis=1)

分別用隨機森林、極端隨機樹和梯度提升樹進行訓練，然後利用VotingClassifer建立最終預測模型。

rf = RandomForestClassifier(n_estimators=500, max_depth=5, min_samples_split=13)
et = ExtraTreesClassifier(n_estimators=500, max_depth=7, min_samples_split=8)
gbm = GradientBoostingClassifier(n_estimators=500, learning_rate=0.0135)
voting = VotingClassifier(estimators=[('rf', rf), ('et', et), ('gbm', gbm)], voting='soft')
voting.fit(X_train, y_train)

預測並生成提交檔案：

y_predict = voting.predict(X_test)
submission = pd.DataFrame({'PassengerId': passengerId_test, 'Survived': y_predict.astype(np.int32)})
submission.to_csv('submission.csv', index=False) 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    Kaggle比賽（一）Titanic: Machine Learning from Disaster
      泰坦尼克號倖存預測是本小白接觸的第一個Kaggle入門比賽，主要參考了以下兩篇教程：

https://www.cnblogs.com/star-zhao/p/9801196.html
https://zhuanlan.zhihu.com/p/30538352

本模型在Leaderboard上的最高得分為0 

  
 

    

    
    Kaggle案例（一）Titanic: Machine Learning from Disaste
      分享   strong   list   數據集   rom   個數   legend   技術分享   isnull   1. 案例簡介
Titanic 案例是Kaggle 入門案例，鏈接地址https://www.kaggle.com/c/titanic 。以下是摘自官網上的描述信息：
2. 分析數據
 

  
 

    

    
    kaggle筆記02： Titanic: Machine Learning from Disaster(二)
      
							
							
							
5. 模型建立。


如何選擇模型？
sklearn官網上演算法粗略選擇圖：



根據上圖，考慮SVC和ensemble clasifiers。本例建議從決策樹、bagging、隨機森林和boosting開始，因為好理解好除錯，然後是SVC。資料量小所以交叉 

  
 

    

    
    Titanic: Machine Learning from Disaster
      some   see   nic   eth   neu   was   github   des   apply   Competition Description
The sinking of the RMS Titanic is one of the most infamous shipwrecks i 

  
 

    

    
    kaggle系列（一、Titanic入門比賽）
      

填充缺失值的三種方法
Completing a numerical continuous feature
Now we should start estimating and completing features with missing or null values. We will firs 

  
 

    

    
    Docker學習（一）Docker Machine基本使用--命令集
      
                1、參考命令幫助或官方文件

docker-machine help [COMMAND]

https://docs.docker.com/machine/reference/

2、version/help --檢視版本和幫助

create/rm --建立/刪除一個Doc 

  
 

    

    
    Kaggle比賽（二）House Prices: Advanced Regression Techniques
      房價預測是我入門Kaggle的第二個比賽，參考學習了他人的一篇優秀教程：https://www.kaggle.com/serigne/stacked-regressions-top-4-on-leaderboard
通過Serigne的這篇notebook，我學習到了關於資料分析、特徵工程、整合學習等等很多有 

  
 

    

    
    kaggle _Titanic: Machine Learning from Disaster
      運行   清理   畫圖   man   enc   acc   inf   -h   ref   A Data Science Framework: To Achieve 99% Accuracy
https://www.kaggle.com/ldfreeman3/a-data-science-framew 

  
 

    

    
    Machine Learning筆記整理 ------ （一）基本概念
      機器學習的定義：假設用P來評估計算機程式在某任務類T上的效能，若一個程式通過利用經驗E，使其在T中任務獲得了效能改善，我們則說關於任務類T和P，該程式對經驗E進行了學習（Mitchell, 1997）。 
機器學習的研究內容：關於在計算機上從資料中產生模型的演算法，即學習演算法（learning algori 

  
 

    

    
    Machine Learning之Python篇（一）
      
							
							
							Machine Learning之Python篇
概述

教程

《Python機器學習》中文版

東南大學某研究生的github，包含大量ML演算法示例。

上個哥們的DL示例

Python資料分析之武林祕籍。這裡包括了大量ML或DL的python工具包。
 

  
 

    

    
    Machine Learning第九講【推薦系統】--（一）基於內容的推薦系統
       
 
 符號介紹： 
  
  
 對於每一個使用者j，假設我們已經通過學習找到引數，則使用者j對電影i的評分預測值為：。 
   
 對於上面的例子： 
   
                  

  
 

    

    
    Machine Learning第九講【異常檢測】--（一）密度估計
       
 
 一、Problem Motivation（問題引入） 
 異常檢測一般應用在非監督學習的問題上，如圖，我們可以通過已知的資料集，訓練模型 
 根據此模型進行異常檢測： 
  
 在使用這些資料訓練的過程中，我們假設這些資料是正常的。 
 我們可以把異常檢測應用在網站欺詐預測上，比如可以根據使用者平時 

  
 

    

    
    Machine Learning第八講[非監督學習] -- （一）聚類
       
 
 一、Unsupervised Learning: Introduction（非監督學習簡介） 
 之前介紹的線性迴歸、logistic迴歸以及神經網路等都是監督學習的例子，通過給出一系統樣本，通過這些樣本去訓練模型進行預測，在這些樣本中，是包含y標籤的，即實際值。 
 在非監督學習中，我們給一系列樣 

  
 

    

    
    Machine Learning第二講[多變數線性迴歸] --（一）多變數線性迴歸
      
							
							
							內容來自Andrew老師課程Machine Learning的第二章內容的Multivariate Linear Regression部分。

一、Multiple Features（多特徵）

1、名詞 
 
（1）mm：樣本的數量，上例中m=4 
（2）nn 

  
 

    

    
    Spark MLlib模型（一） 支持向量機【Support Vector Machine】
      ssi   p s   ext   edi   sgd   訓練集   turn   cati   eight   目錄
　　支持向量機原理
　　支持向量機代碼(Spark Python)

 




支持向量機原理




 
　　待續...
 返回目錄
 




支持向量機代碼(Spark Pytho 

  
 

    

    
    Built a Random Quote Machine（一）
      http   sent   floor   clas   動手   經驗   顏色   一次   漸變   FCC學習了幾天，把以前自學的基礎知識又基本復習了一遍，除了JSON部分需要再動手寫一寫，其他的都沒有什麽大問題，但是基本的理論還是要加強，目前的狀態是：知其然，不知其所以然。
對這個實例自己實現了一下 

  
 

    

    
    論文閱讀筆記（一）LeNet--Gradient-Based Learning Applied to Document Recognition
      輸入   共享   rbf   map   內部   field   dex   title   手動   作者：Yann LeCun，Leon Botton， Yoshua Bengio，and Patrick Haffner這篇論文內容較多，這裏只對部分內容進行記錄：以下是對論文原文的翻譯：在傳統的模式識 

  
 

    

    
    （一）因式分解機（Factorization Machine，FM）原理及實踐
       
  
  
 因子分解機（Factorization Machine），是由Konstanz大學（德國康斯坦茨大學）Steffen Rendle（現任職於Google）於2010年最早提出的，旨在解決大規模稀疏資料下的特徵組合問題。原論文見此。 
 不久後，FM的升級版模型場感知分解機（Field-awa 

  
 

    

    
    機器學習專案開發過程（End-to-End Machine Learning Project）
       
 
  
  
 引言：之前對於機器學習的認識停留在演算法的分析上，這篇文章主要從專案開發的角度分析機器學習的應用。這篇文章主要解釋實際專案過程中的大致方針，每一步涉及的技術不會介紹很細緻。機器學習專案開發步驟如下：  1. Look at the big picture.  2. Get the dat 

  
 

    

    
    支援向量機（support vector machine）（一）：線性可分SVM
      
                    總結一下，不然過段時間就全忘了，加油~

    1、問題描述

    假設，存在兩類資料A，B，如圖1所示，A中資料對應於圖中的實心點，B中資料對應圖中的空心點，現在我們需要得到一條直線，能夠將二者進行區分，這樣的線存在無數條，如圖1中的黑色直線所示，這些線都能夠