決策樹——泰坦尼克號

阿新 • • 發佈：2021-10-20

具體步驟：

①匯入相關擴充套件包

from sklearn.model_selection import train_test_split  # 劃分資料集
from sklearn.feature_extraction import DictVectorizer  #字典特徵值提取
from sklearn.tree import DecisionTreeClassifier  # 決策樹
from sklearn.tree import export_graphviz  # 決策樹視覺化
import pandas as pd

②獲取資料

titanic=pd.read_csv("./train.csv 
")

③篩選特徵值和目標值

x=titanic[["Pclass","Age","Sex"]]        #特徵值
y=titanic["Survived"]                   #目標值

特徵值：

目標值：

④轉化為字典

x=x.to_dict(orient="records")

轉化結果：

⑤字典特徵值抽取

transfer=DictVectorizer()
x_train=transfer.fit_transform(x_train)
x_test=transfer.transform(x_test)

⑥決策樹預估器(estimator)

estimator = DecisionTreeClassifier(criterion=" 
entropy")  # criterion預設為'gini'係數，也可選擇資訊增益熵'entropy'
estimator.fit(x_train, y_train)  # 呼叫fit()方法進行訓練,()內為訓練集的特徵值與目標值

⑦模型評估

方法一：直接對比真實值和預測值

 y_predict = estimator.predict(x_test)  # 傳入測試集特徵值，預測所給測試集的目標值
 print("y_predict:\n", y_predict)
 print("直接對比真實值和預測值：\n", y_test == y_predict)

方法二：計算準確率

score = estimator.score(x_test, y_test)  # 
 傳入測試集的特徵值和目標值

⑧決策樹視覺化

export_graphviz(estimator, out_file="titanic_tree.dot", feature_names=transfer.get_feature_names())

主要程式碼：

def titanic_demo():
    # 1.獲取資料
    titanic=pd.read_csv("./train.csv")

    # 2.篩選特徵值和目標值
    x=titanic[["Pclass","Age","Sex"]]        #特徵值
    y=titanic["Survived"]                   #目標值
    # print(x.head())
    # print(y.head())

    # 3.資料處理（缺失值處理，特徵值——>字典型別）
        #缺失值處理
    x["Age"].fillna(x["Age"].mean(),inplace=True)
    # print(x)
        #轉換為字典
    x=x.to_dict(orient="records")
    # print(x)

    # 4.劃分資料集
    x_train,x_test,y_train,y_test=train_test_split(x,y,random_state=22)

    # 5.字典特徵抽取
    transfer=DictVectorizer()
    x_train=transfer.fit_transform(x_train)
    x_test=transfer.transform(x_test)

    # 6.決策樹預估器(estimator)
    estimator = DecisionTreeClassifier(criterion="entropy")  # criterion預設為'gini'係數，也可選擇資訊增益熵'entropy'
    estimator.fit(x_train, y_train)  # 呼叫fit()方法進行訓練,()內為訓練集的特徵值與目標值

    # 7.模型評估
    # 方法一：直接對比真實值和預測值
    y_predict = estimator.predict(x_test)  # 傳入測試集特徵值，預測所給測試集的目標值
    print("y_predict:\n", y_predict)
    print("直接對比真實值和預測值：\n", y_test == y_predict)

    # 方法二：計算準確率
    score = estimator.score(x_test, y_test)  # 傳入測試集的特徵值和目標值
    print("準確率為：\n", score)

    # 8.決策樹視覺化
    export_graphviz(estimator, out_file="titanic_tree.dot", feature_names=transfer.get_feature_names())


    return None

執行結果：

視覺化結果（因圖規模過大導致截圖展示不完整）：

決策樹——泰坦尼克號

具體步驟： ①匯入相關擴充套件包 from sklearn.model_selection import train_test_split# 劃分資料集

泰坦尼克號決策樹預測筆記

1 import matplotlib.pyplot as plt 2 import random 3 import pylab as mpl 4 import pandas as pd 5 import numpy as np

python機器學習-泰坦尼克號決策樹

案例：泰坦尼克號乘客生存預測泰坦尼克號資料在泰坦尼克號和titanic2資料幀描述泰坦尼克號上的個別乘客的生存狀態。這裡使用的資料集是由各種研究人員開始的。其中包括許多研究人員建立的旅客名單，由Michael A

泰坦尼克號預測生存可能性

import pandas as pd data = pd.read_csv(\"train.csv\") #確定每一列，或者叫每一個series下，是否有空資料

基於TensorFlow 2與PaddlePaddle 2預測泰坦尼克號旅客生存概率的比較

AI框架經過大浪淘沙之後，目前真正能夠完整用於生產、科研、學術的只剩下了谷歌、臉書、百度三家的框架，本文通過一個泰坦尼克號旅客生存概率預測的經典問題來比較分析一下TensorFlow2與Paddle2。

虛幻4打造《泰坦尼克號：榮耀》新試玩Demo放出

虛幻4引擎打造《泰坦尼克號：榮耀》（Titanic Honor & Glory）開發團隊日前推出了全新的PC試玩版本。這個“MegaDemo”是該作品最大規模的演示版本，以前所未有的視覺和歷史細節展示了泰坦尼克號超過25%的內容。

【專案實戰】泰坦尼克號的倖存者預測

前言這是學習視訊中留下來的一個作業，我決定根據大佬的步驟來一步一步完成整個專案，專案的下載地址如下：https://www.kaggle.com/c/titanic/data

W09 - 999、泰坦尼克乘客倖存情況分析

初學耗時：999h 注：CSDN手機端暫不支援章節內鏈跳轉，但外鏈可用，更好體驗還請上電腦端。

實驗六：泰坦尼克生存預測之缺失值處理

技術標籤：大資料導論實驗機器學習資料探勘一、任務描述背景故事：泰坦尼克號（RMS Titanic），又譯作鐵達尼號，是英國白星航運公司下轄的一艘奧林匹克級遊輪，排水量46000噸，於1909年3月31日在北愛爾蘭貝爾

基於PYTHON SKLEARN應用邏輯迴歸對泰坦尼克乘客存活做預測（一）

Python 的sklearn庫包含許多可用於機器學習的工具，本文以經典的泰坦尼克號問題為例，來說明在Python中使用sklearn做機器學習的一般流程。由於本人對機器學習瞭解還不深，對於本文內容如有任何建議或意見，歡迎提出

忠實玩家的底力！《四海兄弟》開發了15年MOD泰坦尼克新演示

還記得經典遊戲《四海兄弟：失落的天堂》麼？本作於2002年發售，深受好評，7月15日今天，一款MOD泰坦尼克號帶來了最新演示，令人驚奇的是，這個MOD早在2006年起開始開發，時至今日已經長達15年之久。

《四海兄弟》大型MOD泰坦尼克1章上線開發長達15年

還記得經典遊戲《四海兄弟：失落的天堂》麼？本作於2002年發售，深受好評，日前一款MOD泰坦尼克號第一章上線，然而令人驚奇的是，這個MOD早在2006年起開始開發，時至今日已經長達15年之久。

【學術】將吳恩達的第一個深度神經網路應用於泰坦尼克生存資料集

這篇文章包括了神經網路在kaggle泰坦尼克生存資料集上的應用程式。它幫助讀者加深他們對神經網路的理解，而不是簡單地執行吳恩達程式碼。泰坦尼克生存資料集就是可以隨意使用的一個例子。

《英雄聯盟手遊》3.2 版本將至：艾克 / 泰坦 / 派克上線，還有“重開”對局選項及隊友掛機補償

感謝網友花靈龍的線索投遞！

決策樹-基尼指數

基尼指數（Gini不純度）表示在樣本集合中一個隨機選中的樣本被分錯的概率。

python機器學習實現決策樹

本文例項為大家分享了python機器學習實現決策樹的具體程式碼，供大家參考，具體內容如下

決策樹剪枝演算法的python實現方法詳解

本文例項講述了決策樹剪枝演算法的python實現方法。分享給大家供大家參考，具體如下：

python使用sklearn實現決策樹的方法示例

1. 基本環境安裝 anaconda 環境，由於國內登陸不了他的官網 https://www.continuum.io/downloads,不過可以使用國內的映象站點： https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/

Python3 ID3決策樹判斷申請貸款是否成功的實現程式碼

1. 定義生成樹 # -*- coding: utf-8 -*- #生成樹的函式 from numpy import * import numpy as np import pandas as pd

mooc機器學習第六天-K近鄰，決策樹，樸素貝葉斯分類器簡單嘗試

1.下面的程式碼是上一篇理論中的小例子 from sklearn.neighbors import KNeighborsClassifier # K近鄰分類器

決策樹——泰坦尼克號

具體步驟：

相關推薦