python機器學習-泰坦尼克號決策樹

阿新 • • 發佈：2021-10-21

案例：泰坦尼克號乘客生存預測

泰坦尼克號資料

在泰坦尼克號和titanic2資料幀描述泰坦尼克號上的個別乘客的生存狀態。這裡使用的資料集是由各種研究人員開始的。其中包括許多研究人員建立的旅客名單，由Michael A. Findlay編輯。我們提取的資料集中的特徵是票的類別，存活，乘坐班，年齡，登陸，home.dest，房間，票，船和性別。

1、乘坐班是指乘客班（1，2，3），是社會經濟階層的代表。

2、其中age資料存在缺失。

分析

選擇我們認為重要的幾個特徵 ['pclass', 'age', 'sex']
填充缺失值
特徵中出現類別符號，需要進行one-hot編碼處理(DictVectorizer)
- x.to_dict(orient="records") 需要將陣列特徵轉換成字典資料
資料集劃分
決策樹分類預測

#泰坦尼克號決策樹
def titanic():
    #1.獲取資料
    data_titanic=pd.read_csv("titanic.csv")
    #2.獲取目標值與特徵值
    x=data_titanic[["pclass","age","sex"]]
    y=data_titanic["survived"]
    #3.資料處理
    #1).缺失值處理
    x["age"].fillna(x["age"].mean(),inplace=True)#填補處理dropna()刪除缺失值所在的行
    #2).轉換為字典 

    x=x.to_dict(orient="records")
    #4.劃分資料集
    x_train,x_test,y_train,y_test=train_test_split(x,y,random_state=22)
    #5.字典特徵抽取
    transfer=DictVectorizer()
    x_train=transfer.fit_transform(x_train)
    x_test=transfer.transform(x_test)
    #6.決策樹預估器
    estimator=DecisionTreeClassifier(criterion=" 
entropy")#criterion預設為gini係數，此處選擇的為資訊增益的熵
    #max_depth:樹深的大小,random_state：隨機數種子
    estimator.fit(x_train,y_train)
    #7.模型評估
    y_predict=estimator.predict(x_test)
    print("y_predict:\n",y_predict)
    print("直接對比真實值和預測值:\n",y_test==y_predict)
    score=estimator.score(x_test,y_test)
    print("準確率為：\n",score)
    #8.決策樹視覺化
    export_graphviz(estimator,out_file="titanic_tree.dot",feature_names=transfer.get_feature_names())
    #使用隨機森林
    estimator=RandomForestClassifier()

python機器學習-泰坦尼克號決策樹

案例：泰坦尼克號乘客生存預測泰坦尼克號資料在泰坦尼克號和titanic2資料幀描述泰坦尼克號上的個別乘客的生存狀態。這裡使用的資料集是由各種研究人員開始的。其中包括許多研究人員建立的旅客名單，由Michael A

泰坦尼克號決策樹預測筆記

1 import matplotlib.pyplot as plt 2 import random 3 import pylab as mpl 4 import pandas as pd 5 import numpy as np

泰坦尼克號預測生存可能性

import pandas as pd data = pd.read_csv(\"train.csv\") #確定每一列，或者叫每一個series下，是否有空資料

基於TensorFlow 2與PaddlePaddle 2預測泰坦尼克號旅客生存概率的比較

AI框架經過大浪淘沙之後，目前真正能夠完整用於生產、科研、學術的只剩下了谷歌、臉書、百度三家的框架，本文通過一個泰坦尼克號旅客生存概率預測的經典問題來比較分析一下TensorFlow2與Paddle2。

決策樹——泰坦尼克號

具體步驟： ①匯入相關擴充套件包 from sklearn.model_selection import train_test_split# 劃分資料集

虛幻4打造《泰坦尼克號：榮耀》新試玩Demo放出

虛幻4引擎打造《泰坦尼克號：榮耀》（Titanic Honor & Glory）開發團隊日前推出了全新的PC試玩版本。這個“MegaDemo”是該作品最大規模的演示版本，以前所未有的視覺和歷史細節展示了泰坦尼克號超過25%的內容。

【專案實戰】泰坦尼克號的倖存者預測

前言這是學習視訊中留下來的一個作業，我決定根據大佬的步驟來一步一步完成整個專案，專案的下載地址如下：https://www.kaggle.com/c/titanic/data

基於PYTHON SKLEARN應用邏輯迴歸對泰坦尼克乘客存活做預測（一）

Python 的sklearn庫包含許多可用於機器學習的工具，本文以經典的泰坦尼克號問題為例，來說明在Python中使用sklearn做機器學習的一般流程。由於本人對機器學習瞭解還不深，對於本文內容如有任何建議或意見，歡迎提出

W09 - 999、泰坦尼克乘客倖存情況分析

初學耗時：999h 注：CSDN手機端暫不支援章節內鏈跳轉，但外鏈可用，更好體驗還請上電腦端。

實驗六：泰坦尼克生存預測之缺失值處理

技術標籤：大資料導論實驗機器學習資料探勘一、任務描述背景故事：泰坦尼克號（RMS Titanic），又譯作鐵達尼號，是英國白星航運公司下轄的一艘奧林匹克級遊輪，排水量46000噸，於1909年3月31日在北愛爾蘭貝爾

忠實玩家的底力！《四海兄弟》開發了15年MOD泰坦尼克新演示

還記得經典遊戲《四海兄弟：失落的天堂》麼？本作於2002年發售，深受好評，7月15日今天，一款MOD泰坦尼克號帶來了最新演示，令人驚奇的是，這個MOD早在2006年起開始開發，時至今日已經長達15年之久。

《四海兄弟》大型MOD泰坦尼克1章上線開發長達15年

還記得經典遊戲《四海兄弟：失落的天堂》麼？本作於2002年發售，深受好評，日前一款MOD泰坦尼克號第一章上線，然而令人驚奇的是，這個MOD早在2006年起開始開發，時至今日已經長達15年之久。

【學術】將吳恩達的第一個深度神經網路應用於泰坦尼克生存資料集

這篇文章包括了神經網路在kaggle泰坦尼克生存資料集上的應用程式。它幫助讀者加深他們對神經網路的理解，而不是簡單地執行吳恩達程式碼。泰坦尼克生存資料集就是可以隨意使用的一個例子。

基礎|認識機器學習中的邏輯迴歸、決策樹、神經網路演算法

作者：石文華編輯：田　旭邏輯迴歸 1 邏輯迴歸。它始於輸出結果為有實際意義的連續值的線性迴歸，但是線性迴歸對於分類的問題沒有辦法準確而又具備魯棒性地分割，因此我們設計出了邏輯迴歸這樣一個演算法，它的輸

python機器學習實現決策樹

本文例項為大家分享了python機器學習實現決策樹的具體程式碼，供大家參考，具體內容如下

python機器學習庫xgboost的使用

1.資料讀取利用原生xgboost庫讀取libsvm資料 import xgboost as xgb data = xgb.DMatrix(libsvm檔案)

使用python機器學習和深度學習的5個很棒的計算機視覺專案創意

專案構想(Project Ideas) Computer Vision is a field of artificial intelligence that deals with images and pictures to solve real-life visual problems. The ability of the computer to r

Python機器學習預測分析核心演算法1

最近在學習Michael Bowles著的《Python 機器學習預測分析核心演算法》，記錄一下學習過程。

python機器學習 | 入門介紹

最近在接觸機器學習這一塊的內容，不知道能學到哪個程度。先簡單地介紹它到底是什麼？

Python機器學習演算法：線性迴歸

作者|Vagif Aliyev 編譯|VK 來源|Towards Data Science 線性迴歸可能是最常見的演算法之一，線性迴歸是機器學習實踐者必須知道的。這通常是初學者第一次接觸的機器學習演算法，瞭解它的操作方式對於更好地理解它至關

python機器學習-泰坦尼克號決策樹

案例：泰坦尼克號乘客生存預測

分析

相關推薦