決策樹-泰坦尼克號生還預測
0 1 1st 1
1 2 1st 0
2 3 1st 0
3 4 1st 0
4 5 1st 1
name age embarked \
0 Allen, Miss Elisabeth Walton 29.0000 Southampton
1 Allison, Miss Helen Loraine 2.0000 Southampton
2 Allison, Mr Hudson Joshua Creighton 30.0000 Southampton
3 Allison, Mrs Hudson J.C. (Bessie Waldo Daniels) 25.0000 Southampton
4 Allison, Master Hudson Trevor 0.9167 Southampton
home.dest room ticket boat sex
0 St Louis, MO B-5 24160 L221 2 female
1 Montreal, PQ / Chesterville, ON C26 NaN NaN female
2 Montreal, PQ / Chesterville, ON C26 NaN (135) male
3 Montreal, PQ / Chesterville, ON C26 NaN NaN female
4 Montreal, PQ / Chesterville, ON C22 NaN 11 male
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1313 entries, 0 to 1312
Data columns (total 11 columns):
row.names 1313 non-null int64
pclass 1313 non-null object
survived 1313 non-null int64
name 1313 non-null object
age 633 non-null float64
embarked 821 non-null object
home.dest 754 non-null object
room 77 non-null object
ticket 69 non-null object
boat 347 non-null object
sex 1313 non-null object
dtypes: float64(1), int64(2), object(8)
memory usage: 112.9+ KB
None
bf processing
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1313 entries, 0 to 1312
Data columns (total 3 columns):
pclass 1313 non-null object
age 633 non-null float64
sex 1313 non-null object
dtypes: float64(1), object(2)
memory usage: 30.8+ KB
None
/Users/mac/workspace/conda/anaconda/lib/python2.7/site-packages/pandas/core/generic.py:3660: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame
See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
self._update_inplace(new_data)
af processing
<bound method DataFrame.info of pclass age sex
0 1st 29.000000 female
1 1st 2.000000 female
2 1st 30.000000 male
3 1st 25.000000 female
4 1st 0.916700 male
5 1st 47.000000 male
6 1st 63.000000 female
7 1st 39.000000 male
8 1st 58.000000 female
9 1st 71.000000 male
10 1st 47.000000 male
11 1st 19.000000 female
12 1st 31.194181 female
13 1st 31.194181 male
14 1st 31.194181 male
15 1st 50.000000 female
16 1st 24.000000 male
17 1st 36.000000 male
18 1st 37.000000 male
19 1st 47.000000 female
20 1st 26.000000 male
21 1st 25.000000 male
22 1st 25.000000 male
23 1st 19.000000 female
24 1st 28.000000 male
25 1st 45.000000 male
26 1st 39.000000 male
27 1st 30.000000 female
28 1st 58.000000 female
29 1st 31.194181 male
... ... ... ...
1283 3rd 31.194181 female
1284 3rd 31.194181 male
1285 3rd 31.194181 male
1286 3rd 31.194181 male
1287 3rd 31.194181 male
1288 3rd 31.194181 male
1289 3rd 31.194181 male
1290 3rd 31.194181 male
1291 3rd 31.194181 male
1292 3rd 31.194181 male
1293 3rd 31.194181 female
1294 3rd 31.194181 male
1295 3rd 31.194181 male
1296 3rd 31.194181 male
1297 3rd 31.194181 male
1298 3rd 31.194181 male
1299 3rd 31.194181 male
1300 3rd 31.194181 male
1301 3rd 31.194181 male
1302 3rd 31.194181 male
1303 3rd 31.194181 male
1304 3rd 31.194181 female
1305 3rd 31.194181 male
1306 3rd 31.194181 female
1307 3rd 31.194181 female
1308 3rd 31.194181 male
1309 3rd 31.194181 male
1310 3rd 31.194181 male
1311 3rd 31.194181 female
1312 3rd 31.194181 male
[1313 rows x 3 columns]>
['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', 'sex=female', 'sex=male']
The Accuracy is 0.781155015198
precision recall f1-score support
died 0.78 0.91 0.84 202
survived 0.80 0.58 0.67 127
avg / total 0.78 0.78 0.77 329
相關推薦
決策樹-泰坦尼克號生還預測
row.names pclass survived \ 0 1 1st 1 1 2 1st 0 2 3 1st 0 3 4 1st 0 4
機器學習--決策樹及泰坦尼克號生存預測
決策樹是一個類似於流程圖的樹結構,分支節點表示對一個特徵進行測試,根據測試結果進行分類,樹葉節點代表一個類別。 要判斷從哪個特徵進行分裂,就要對資訊進行量化,量化的方式有: ID3: 資訊增益 條件熵: 其中pi=P(X=xi),X,Y代表了兩個事件,而它們之間有
【決策樹】泰坦尼克號倖存者預測專案
專案目標 泰坦尼克號的沉沒是歷史上最著名的還難事件之一,在船上的2224名乘客和機組人員中,共造成1502人死亡。本次專案的目標是運用機器學習工具來預測哪些乘客能夠倖免於難。 專案過程 匯入並探索資料 處理缺失值,刪除與預測無關的特徵 將分類變數轉換為數值型變數 例項化模型並進行交叉驗證 模型預
泰坦尼克號生存預測(python)
scores k近鄰 ace gbdt dom png 記錄 inline sse 1 數據探索 對數據進行一個整體的理解 1.1 查看數據都有一些什麽特征 import pandas as pd import seaborn as sns %matplotlib inl
機器學習之泰坦尼克號遇難預測
思路: 一、資料預處理 1、資料讀取 2、可以用data.head()來顯示資料的前幾行,date.info()來顯示資料的資訊 3、缺失值的處理 4、挑選特徵 5、分離特徵和標籤 二、train 1、選取模型(可以先簡單後複雜,如果兩個模型效果差不多,簡單的節約時間
tensorflow實現泰坦尼克號生存率預測(邏輯迴歸)
目錄 1 邏輯迴歸介紹 其實我們可以把邏輯迴歸當成只有一層的神經網路。關於邏輯迴歸的具體知識可以參考我的上一邊部落格,地址:https://mp.csdn.net/postedit/82929291。使用交叉熵損失函式
二分類問題(泰坦尼克號獲救預測)
# -*- coding: utf-8 -*- # @Time : 2018/12/13 10:46 # @Author : WenZhao # @Email : [email protected] # @File : tt.py # @Software: PyCha
python 分析泰坦尼克號生還率
泰坦尼克號資料集,是kaggle(Titanic: Machine Learning from Disaster)上入門機器學習(ML)的一個好的可選資料集,當然,也是不錯的練習資料分析的資料集。對 python ,在資料分析方面,作為一柄利器,涵蓋了「資料獲取→資料處理→資
kaggle初探--泰坦尼克號生存預測
繼續學習資料探勘,嘗試了kaggle上的泰坦尼克號生存預測。 Titanic for Machine Learning 匯入和讀取 # data processing import numpy as np import pandas as pd impor
Kaggle專案案例分析 泰坦尼克號生存預測
一、資料來源及說明 1.1 資料來源 來自Kaggle的非常經典資料專案 Titanic:Machine Learning1.2 資料說明 資料包含train.csv 和test.csv 兩個檔案資料集,一個訓練用,一個測試用。train文件資料是用來分析和建模,包含泰
kaggle——泰坦尼克號生死預測
把很久以前做的泰坦尼克號的程式碼貼出來。 # -*- coding: utf-8 -*- """ Created on Fri Mar 30 14:23:12 2017 @author: Yichengfan """ import pandas as pd
泰坦尼克號生存預測(二)-- 特徵分析
5. 特徵再分析 對處理過的資料再分析 train[['Survived','Pclass','Sex','Age_level','Fare_log','Embarked','Familysize','isAlone','Has_Cabin','Title']].grou
kaggle 泰坦尼克號生存預測——六種演算法模型實現與比較
Hi,大家好,這是我第一篇部落格。 作為非專業程式小白,部落格內容必然有不少錯誤之處,還望各位大神多多批評指正。 在開始正式內容想先介紹下自己和一些異想天開的想法。 我是一名研究生,研究的方向是蛋白質結構與功能方向。在研究過程中發現生物系統是如此複雜,猶如一張網,資訊流動,
Kaggle: 泰坦尼克號生存預測
0.前言 本文對Kaggle泰坦尼克比賽的訓練集和測試集進行分析,並對乘客的生存結果進行了預測.作為資料探勘的入門專案,本人將思路記錄下來,以供參考.如有不足之處,歡迎指正. 1.匯入資料 import pandas as pd import n
泰坦尼克號生存預測 (Logistic and KNN)
從Kaggle官網下載資料:train 、test。 賽事描述: 泰坦尼克號的沉沒是歷史上最臭名昭著的沉船之一。1912年4月15日,泰坦尼克號在處女航時與冰山相撞沉沒,2224名乘客和船員中有1502人遇難。這一聳人聽聞的悲劇震驚了國際社會,並導致更好的
機器學習專案實戰----泰坦尼克號獲救預測(一)
一、任務基礎 泰坦尼克號沉沒是歷史上最著名的沉船事故之一。1912年4月15日,在她的處女航中,泰坦尼克號在與冰山相撞後沉沒,在2224名乘客和機組人員中造成1502人死亡。這場聳人聽聞的悲劇震驚了國際社會,併為船舶制定了更好的安全規定。造成海難失事的原因之一是乘客和機組人員沒有足夠的救生艇。儘管倖存下沉有
機器學習專案實戰----泰坦尼克號獲救預測(二)
四、特徵重要性衡量 通過上面可以發現準確率有小幅提升,但是似乎得到的結果還是不太理想。我們可以發現模型似乎優化的差不多了,使用的特徵似乎也已經使用完了。準確率已經達到了瓶頸,但是如果我們還想提高精度的話,還是要回到最原始的資料集裡面。對分類器的結果最大的影響還是輸入的資料本身。接下來採用的方法一般是從原始的
Kaggle入門——泰坦尼克號生還者預測
前言 這個是Kaggle比賽中泰坦尼克號生存率的分析。強烈建議在做這個比賽的時候,再看一遍電源《泰坦尼克號》,可能會給你一些啟發,比如婦女兒童先上船等。所以是否獲救其實並非隨機,而是基於一些背景有先後順序的。 1,背景介紹 1912年4月15日,載著1316號乘客和891名船員的豪華巨輪泰坦尼克號在首
kaggle練習項目—泰坦尼克乘客生還預測
sans 練習 missing 中文 ces 大寫 param show ont 一、問題復述 泰坦尼克號是一艘英國皇家郵輪,在當時是全世界最大的海上船舶。1912年4月,該郵輪在首航中碰撞上冰山後沈沒。造成船上2224名人員中1514人罹難。 現在根據乘客的船艙等
機器學習之路: python 決策樹分類 預測泰坦尼克號乘客是否幸存
現象 info n) 指標 ssi 直觀 learn 保持 afr 使用python3 學習了決策樹分類器的api 涉及到 特征的提取,數據類型保留,分類類型抽取出來新的類型 需要網上下載數據集,我把他們下載到了本地, 可以到我的git下載代碼和數據集: https