(決策樹)泰坦尼克號生還者簡單預測

阿新 • • 發佈：2018-11-02

import pandas as pd
titanic=pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')

X=titanic[['pclass','age','sex']]
y=titanic['survived']


X['age'].fillna(X['age'].mean(),inplace=True)

from sklearn.cross_validation import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.25,random_state=33)

from sklearn.feature_extraction import DictVectorizer
vec=DictVectorizer(sparse=False)

X_train=vec.fit_transform(X_train.to_dict(orient='record'))
#print vec.feature_names_

X_test=vec.transform(X_test.to_dict(orient='record'))

from sklearn.tree import DecisionTreeClassifier
dtc=DecisionTreeClassifier()

dtc.fit(X_train,y_train)

y_predict=dtc.predict(X_test)

from sklearn.metrics import classification_report

print dtc.score(X_test,y_test)
print classification_report(y_predict,y_test,target_names=['died','survived'])


#視覺化決策樹，還差一步
from sklearn.tree import export_graphviz
with open("tree.dot", 'w') as f:
  f = export_graphviz(dtc.fit(X_train,y_train), out_file = f)

(決策樹)泰坦尼克號生還者簡單預測

import pandas as pd titanic=pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt') X=titanic[['pclass','age','sex']] y=

如何用程式設計得出泰坦尼克號生還者的年齡段？

【CSDN編者按】大家熟知的電影《泰坦尼克號》，是一部經典的奧斯卡電影，也是一部以真實故事改編而拍的電影。真實故事中，1912年4月14日，這艘當時世界上體積最龐大、內部設施最豪華的客運輪船泰坦尼克號，與一座冰山相撞，2224名船員及乘客中，逾1500人喪生，其中僅33

Kaggle入門——泰坦尼克號生還者預測

前言　　這個是Kaggle比賽中泰坦尼克號生存率的分析。強烈建議在做這個比賽的時候，再看一遍電源《泰坦尼克號》，可能會給你一些啟發，比如婦女兒童先上船等。所以是否獲救其實並非隨機，而是基於一些背景有先後順序的。 1，背景介紹　　1912年4月15日，載著1316號乘客和891名船員的豪華巨輪泰坦尼克號在首

隨機森林演算法實現泰坦尼克號生存人數預測

from sklearn.feature_extraction import DictVectorizer from sklearn.ensemble import RandomForestClassifier import pandas as pd 網址可以直接複製 dat

機器學習之路: python 決策樹分類預測泰坦尼克號乘客是否幸存

現象 info n) 指標 ssi 直觀 learn 保持 afr 使用python3 學習了決策樹分類器的api 涉及到特征的提取，數據類型保留，分類類型抽取出來新的類型需要網上下載數據集，我把他們下載到了本地，可以到我的git下載代碼和數據集: https

機器學習--決策樹及泰坦尼克號生存預測

決策樹是一個類似於流程圖的樹結構，分支節點表示對一個特徵進行測試，根據測試結果進行分類，樹葉節點代表一個類別。要判斷從哪個特徵進行分裂，就要對資訊進行量化，量化的方式有： ID3: 資訊增益條件熵：其中pi=P(X=xi)，X,Y代表了兩個事件，而它們之間有

【SciKit-Learn學習筆記】4：決策樹擬合泰坦尼克號資料集並提交到Kaggle

學習《scikit-learn機器學習》時的一些實踐。決策樹擬合泰坦尼克號資料集這裡用繪製引數-score曲線的方式去直觀看出模型引數對模型得分的影響，作者使用了GridSearchCV來自動做k-fold交叉驗證，並且能在多組模型引數中找到最優的一組和最優值（用平均s

【Kaggle筆記】預測泰坦尼克號乘客生還情況（決策樹）

資料集程式碼 # -*- coding: utf-8 -*- """ 泰坦尼克號乘客生還情況預測模型決策樹 """ # 匯入pandas用於資料分析。 import panda

決策樹－泰坦尼克號生還預測

row.names pclass survived \ 0 1 1st 1 1 2 1st 0 2 3 1st 0 3 4 1st 0 4

大資料入門——使用決策樹模型預測泰坦尼克號乘客的生還情況

#資料查驗 import pandas as pd titanic=pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataS

【決策樹】泰坦尼克號倖存者預測專案

專案目標泰坦尼克號的沉沒是歷史上最著名的還難事件之一，在船上的2224名乘客和機組人員中，共造成1502人死亡。本次專案的目標是運用機器學習工具來預測哪些乘客能夠倖免於難。專案過程匯入並探索資料處理缺失值，刪除與預測無關的特徵將分類變數轉換為數值型變數例項化模型並進行交叉驗證模型預

【金米米】現實版“泰坦尼克號”上演！這一刻竟是永別！

與他進行現實潛水可能重復保持個人也不能北京時間7月5日傍晚6點45分左右，在泰國南部普吉府，兩艘共載有127名中國遊客的遊船在返航普吉島途中，突遇特大暴風雨，分別在珊瑚島和梅通島發生傾覆。截止至9日上午10時已有42人遇難，41名中國遊客，其中有13名中國

泰坦尼克號之災分析

hist analysis 希望 rand 建模 mach 特征工程 queen only 大神經驗： 1、應用機器學習，千萬不要一上來就試圖做到完美，先擼一個baseline的model出來，再進行後續的分析步驟，一步步提高，所謂後續步驟可能包括『分析model現在的狀態

泰坦尼克號生存預測（python）

scores k近鄰 ace gbdt dom png 記錄 inline sse 1 數據探索對數據進行一個整體的理解 1.1 查看數據都有一些什麽特征 import pandas as pd import seaborn as sns %matplotlib inl

泰坦尼克號生存概率分析

本專案在Kaggle中是資料分析入門專案，如果你想了解資料分析，我們就從這裡開始吧！資料集可以到Kaggle入門專案中直接找到，下載即可！ 1.提出問題什麼樣的人在泰坦尼克號中更容易存活？ 2.採集資料、理解資料匯入資料分析工具庫Numpy、Pandas 用pan

ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kaggle資料集預測泰坦尼克號生存人員

ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kaggle資料集預測泰坦尼克號生存人員實驗資料設計思路實現程式碼(部分程式碼) /** js程式碼實現SVM演算法 */ //ML之SVM：基於Js程式碼利用SVM演算法的實現根據Kagg

機器學習（十七）kaggle競賽之泰坦尼克號專案實戰-2

導航想寫這篇部落格的由衷是做完幾個專案，有時對於圖的畫法和模型融合演算法原理理解還很膚淺，特此加深一下印象。內容概覽圖 pandas、matplotlib、seaborn 餅圖直方圖

機器學習（八）kaggle競賽之泰坦尼克號專案實戰-1

引言機器學習演算法都是為專案為資料服務的，某一個演算法都有它自己的適用範圍，以及優勢與劣勢，研究演算法由於平日的日常操練，那麼用它去做專案就如同上戰場殺敵一樣，去發揮它的價值，kaggle就是這樣一個刷怪升級

通過使用各種演算法（線性迴歸，邏輯迴歸，隨機森林，繼承演算法）預測泰坦尼克號上的某個人是否獲救

Python原始碼: #!/usr/bin/env python # encoding: utf-8 """ @Company：華中科技大學電氣學院聚變與等離子研究所 @version: V1.0 @author: Victor @contact: [email protected]

機器學習之泰坦尼克號遇難預測

思路：一、資料預處理 1、資料讀取 2、可以用data.head（）來顯示資料的前幾行，date.info（）來顯示資料的資訊 3、缺失值的處理 4、挑選特徵 5、分離特徵和標籤二、train 1、選取模型（可以先簡單後複雜，如果兩個模型效果差不多，簡單的節約時間

(決策樹)泰坦尼克號生還者簡單預測

相關推薦