利用Python sklearn庫裡的決策樹模型生成決策樹圖片以及測試分類的準確度

阿新 • • 發佈：2018-11-28

本案例利用sklearn自帶的資料集，選取房子經緯度作為特徵引數來對標籤進行分類。

也用切分的資料訓練模型來進行特徵引數的選擇得到最好的測試準確度。

Python原始碼：

#!/usr/bin/env python
# encoding: utf-8
"""
@Company：華中科技大學電氣學院聚變與等離子研究所
@version: V1.0
@author: Victor
@contact: [email protected] or [email protected] 2018--2020
@software: PyCharm
@file: House.py
@time: 2018/11/17 19:36
@Desc：
"""

import matplotlib.pyplot as plt

import pandas as pd

from sklearn.datasets.california_housing import fetch_california_housing
housing = fetch_california_housing() ###呼叫sklearn自帶的數集
#print(housing.DESCR)
print(housing.data.shape)
print(housing.data[1])

#####取要使用的特徵做決策樹
from sklearn import tree
dtr = tree.DecisionTreeRegressor(max_depth=2)
dtr.fit(housing.data[:,[6,7]],housing.target)###取房子所在的經度和緯度
###輸出構造決策樹模型的一些基本引數，有些事預設的
print(dtr)

#要視覺化顯示 首先需要安裝 graphviz   http://www.graphviz.org/Download..php
dot_data =tree.export_graphviz(
        dtr,
        out_file = None,
        feature_names = housing.feature_names[6:8],
        filled = True,
        impurity = False,
        rounded = True
    )

#pip install pydotplus
import pydotplus
graph = pydotplus.graph_from_dot_data(dot_data)
graph.get_nodes()[7].set_fillcolor("#FFF2DD")
graph.write_png("out.png")  #當前資料夾生成out.png


'''自動選擇最合適的特徵引數'''
####用切分的資料訓練來進行特徵引數的選擇
from sklearn.model_selection import train_test_split
data_train, data_test, target_train, target_test = \
    train_test_split(housing.data, housing.target, test_size = 0.1, random_state = 42)##，取其中10%做測試集，random_state指定每次隨機結果都是一致的
dtr = tree.DecisionTreeRegressor(random_state = 42)##構造樹模型
dtr.fit(data_train, target_train)

print("==============================")
print("測試分類的準確度:",dtr.score(data_test, target_test))##測試檢驗分類的準確度


'''隨機森林'''
from sklearn.ensemble import RandomForestRegressor
rfr = RandomForestRegressor( random_state = 42)
rfr.fit(data_train, target_train)
print(rfr.score(data_test, target_test))

結果展示：

利用Python sklearn庫裡的決策樹模型生成決策樹圖片以及測試分類的準確度

本案例利用sklearn自帶的資料集，選取房子經緯度作為特徵引數來對標籤進行分類。也用切分的資料訓練模型來進行特徵引數的選擇得到最好的測試準確度。 Python原始碼： #!/usr/bin/env python # encoding: utf-8 """ @Company：華中科技大

實戰：利用Python sklearn庫裡的邏輯迴歸模型訓練資料---建立模型

本案例主要是通過對不均衡的28萬組資料建立模型，分析預測欺詐使用者，採用sigmod函式作為損失函式，採用交叉驗證的方法和l1正交法則，比對了不同懲罰函式下的模型的召回率，也通過預測值和實際值做出混淆矩陣更加直觀看到各種預測結果。也比較了sigmod函式下的不同閾值下的模型預測的精度和召

Python sklearn庫中決策樹tree.DecisionTreeClassifier()函式引數介紹

max_leaf_nodes:int,None 可選（預設為None）在最優方法中使用max_leaf_nodes構建一個樹。最好的節點是在雜質相對減少。如果是None則對葉節點的數目沒有限制。如果不是None則不考慮max_depth.class_weight:dict,list of dicts,

sklearn庫學習之線性模型

線性模型利用輸入特徵的線性函式進行預測，學習線性模型的演算法的區別： (1)係數和截距的特定組合對訓練資料擬合好壞的度量方法，不同的演算法使用不同的方法度量“對訓練集擬合好壞”–稱為損失函式 (2)是否使用正則化，使用哪種正則化方法線性模型的主要引數是正則化引數，如果假定只有幾個特徵是

利用Python requests庫從網上下載txt檔案時多出一個CR的處理

問題描述讀1 的Reading word lists小節時，發現需要從thinkpython2/code/words.txt上下載words.txt檔案。我不想利用複製-貼上的方法構造該檔案，想到之前學過的爬蟲技術，於是寫下如下程式碼： import requests r =

利用Python requests庫實現cas認證

1.準備工作-背景知識 1.1 requests庫簡介： python有很多可以用來測試介面的模組，個人覺得，requests庫是最好用的，在Robot Framwork裡，它的測試庫requestsLibrary，也是基於requests寫的。 1.1.1 安裝：作為第三方模組，使用前，需要安裝，最簡單

Python sklearn 庫中嶺迴歸的簡略使用方法

import numpy as np # 快速操作結構陣列的工具 import matplotlib.pyplot as plt # 視覺化繪製 from sklearn.linear_model import RidgeCV # Ridge嶺迴歸,RidgeCV帶有廣義交叉驗證的嶺迴歸 fro

利用python sklearn 將類別資料轉換成one-hot資料

做資料預處理的時候，經常會遇到需要將類別特徵轉換成有意義的數值的情況，通過這樣使類別資料能夠用於後續的分類預測任務。目前應用得最多的就是將其轉換成one-hot編碼。以下是通過sklearn的方法很方便地實現。首先讀取資料： housing = pd.read_csv(

Python sklearn庫實現PCA（以鳶尾花分類為例）

PCA簡介主成分分析（Principal Component Analysis，PCA）是最常用的一種降維方法，通常用於高維資料集的探索與視覺化，還可以用作資料壓縮和預處理等。矩陣的主成分就是其協

Python: sklearn庫中資料預處理函式fit_transform()和transform()的區別

敲《Python機器學習及實踐》上的code的時候，對於資料預處理中涉及到的fit_transform()函式和transform()函式之間的區別很模糊，查閱了很多資料，這裡整理一下：涉及到這兩個函式

python機器學習（1）python.sklearn庫

1.安裝numpy、scipy、matplotlib、sklearn庫安裝方法：（1）.whl檔案下載地址：http://www.lfd.uci.edu/~gohlke/pythonlibs （2）在下載路徑下開啟dos命令列依次執行 PS:35指python版本3.5、

python sklearn庫實現簡單邏輯迴歸

import xlrd import matplotlib.pyplot as plt import numpy as np from sklearn import model_selection from sklearn.linear_model import Logist

利用python開源庫製作並驗證torrent種子檔案

下面的文章來源於參考文獻[1], 這裡將我的實踐過程記錄如下,方便後來人參考,我的作業系統是Ubuntu 14.04 64bit 一.安裝開源BT種子製作軟體包 cd /home/taoyx/下載/ wget http://jaist.dl.sourceforge.net

利用python requests庫模擬登陸知乎

當初搜模擬登陸的時候在知乎上也找到一些內容。以下是程式碼 import requests import time import json import os import re import sys import subprocess from bs4 import Be

Python Word2Vec使用訓練好的模型生成詞向量

https 一起失效 com mode 密碼 pytho ID list # 文本文件必須是utf-8無bom格式 from gensim.models.deprecated.word2vec import Word2Vec model = Word2Vec.lo

利用Python子程序 subprocess模組和ffmpeg轉化視訊為圖片

動機剛剛有個需求：將一個檔案下的視訊的所有幀轉化為對應圖片．經過查詢通過ffmpeg相關指令能實現將一個視訊轉化為對應圖片，但在多個檔案下操作幾千個視訊，涉及到檔案操作指令．在終端上寫一兩個命令無法完成操作．寫一個shell指令碼肯定能完成這個任務，但是sh

利用Python將已有TXT文件生成中文詞雲

Python學習心得之一近期剛上手學習Python，在學習完一些基礎教程後，開始動手做一些小專案。之後也會不定期更新一些學習心得…… 準備階段本人的開發環境採用Python2.7+cmd命令視窗的形式，安裝方法可以參考網上一些教程。操作

利用POI操作不同版本號word文檔中的圖片以及創建word文檔

exceptio paragraph 沒有 fileinput rest 輸出 throw com dsm 我們都知道要想利用java對office操作最經常使用的技術就應該是POI了，在這裏本人就不多說到底POI是什麽和怎麽用了。先說本人遇到的問題，不同於利用POI去

java將文件夾md5為名的圖片與數據庫查詢對應md5後導入相應圖片到某分類下

getc selectall height user save etc jpg span filter public class FolderUtil { 　　/** * @param path * @return * 得到目錄下的文件

Python資料分析與機器學習-使用sklearn構造決策樹模型

# datasets包括內建的資料集 california_housing房價的資料集 from sklearn.datasets.california_housing import fetch_california_housing import pandas as pd

利用Python sklearn庫裡的決策樹模型生成決策樹圖片以及測試分類的準確度

相關推薦