MySQL的學習（一）-DQL語言的學習

阿新 • • 發佈：2020-12-16

技術標籤：機器學習決策樹 python 機器學習

決策樹

認識決策樹
決策樹分類原理詳解
決策樹API
決策樹預測鳶尾花資料集
決策樹視覺化
- 儲存樹的結構到dot檔案
- 網站顯示結構
決策樹總結

認識決策樹

決策樹思想的來源非常樸素，程式設計中的條件分支結構就是if-else結構，最早的決策樹就是利用這類結構分割資料的一種分類學習方法
怎麼理解這句話？通過一個對話例子
比如：你母親要給你介紹男朋友，是這麼來對話的：

女兒：多大年紀了？
母親：26。
女兒：長的帥不帥？
母親：挺帥的。
女兒：收入高不？
母親：不算很高，中等情況。
女兒：是公務員不？

母親：是，在稅務局上班呢。
女兒：那好，我去見見。

想一想這個女生為什麼把年齡放在最上面判斷！！！！！！！！！！！！！！

**決策樹的思想：**如何高效的進行決策？——特徵的先後順序

那麼如何確定特效的先後順序呢？

決策樹分類原理詳解

原理

資訊煽、資訊增益等
需要用到資訊理論的知識！！！

資訊理論基礎

資訊
- 消除隨機不確定性的的東西
- 例如：小明的年齡
  - ”我今年18歲“ —— 資訊
  - ”我明年19歲“ —— 不是資訊
資訊的衡量 —— 資訊量 —— 資訊熵

資訊適的定義

H的專業術語稱之為資訊炯，單位為位元（bit）。
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片儲存下來直接上傳(img-asCysUwX-1608431730837)(C:\Users\ASUS\AppData\Roaming\Typora\typora-user-images\image-20201219232312280.png)]

決策樹的劃分依據之— —— 資訊增益

定義與公式

特徵A對訓練資料集D的資訊增益g(D,A),定義為集合D的資訊煽H(D)與特徵A給定條件下D的資訊條件煽H(D|A)之差

公式為：g(D,A) = H(D) - H(D|A)

資訊熵計算：

條件熵的計算：

注：

Ck 表示某個樣本類別的樣本數
資訊增益表示得知特徵X的資訊而息的不確定性減少的程度使得類Y的資訊熵減少程度

當然決策樹的原理不止資訊增益這一種，還有其他方法。但是原理都類似，我們就不去舉例計算。

ID3
- 資訊增益最大的準則
C4.5

資訊增益比最大的準則

CART

分類樹：基尼係數最小的準則在sklearn中可以選擇劃分的預設原則

優勢：劃分更加細緻(從後面例子的樹顯示來理解)

決策樹API

class sklearn.tree.DecisionTreeClassifier(criterion='gini', max_depth=None,random_state=None)
- 決策樹分類器
- criterion:決策樹的劃分依據，預設是gini係數，也可以選擇資訊增益的熵entropy。
- max_depth:樹的深度大小，不設定的話資料量過大，使得決策樹劃分太細，泛化能力差，可能訓練資料效果好，測試資料就不好了
- random_state:隨機數種子

決策樹預測鳶尾花資料集

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
if __name__ == '__main__':
    #  獲取資料
    iris = load_iris()

    # 劃分資料集
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=4)

    # 決策樹 演算法預估器
    estimator = DecisionTreeClassifier(criterion='entropy')
    estimator.fit(x_train, y_train)

    # 模型評估
    # 方法一：直接對比真實值和預測值
    y_predict = estimator.predict(x_test)
    print('y_predict：\n', y_predict)
    print('直接對比真實值和預測值:\n', y_test == y_predict)

    # 方法二：計算準確率
    score = estimator.score(x_test, y_test)
    print('準確率:\n', score)

決策樹視覺化

儲存樹的結構到dot檔案

sklearn.tree.export_graphviz()該函式能夠匯出DOT格式
- tree.export_graphviz(estimator,out_file='tree.dot',feature_names=[])

dot 檔案當中內容如下：

digraph Tree {
node [shape=box] ;
0 [label="petal width (cm) <= 0.8\nentropy = 1.576\nsamples = 112\nvalue = [32, 42, 38]"] ;
1 [label="entropy = 0.0\nsamples = 32\nvalue = [32, 0, 0]"] ;
0 -> 1 [labeldistance=2.5, labelangle=45, headlabel="True"] ;
2 [label="petal width (cm) <= 1.75\nentropy = 0.998\nsamples = 80\nvalue = [0, 42, 38]"] ;
0 -> 2 [labeldistance=2.5, labelangle=-45, headlabel="False"] ;
3 [label="petal length (cm) <= 4.95\nentropy = 0.433\nsamples = 45\nvalue = [0, 41, 4]"] ;
2 -> 3 ;
4 [label="petal width (cm) <= 1.65\nentropy = 0.165\nsamples = 41\nvalue = [0, 40, 1]"] ;
3 -> 4 ;
5 [label="entropy = 0.0\nsamples = 40\nvalue = [0, 40, 0]"] ;
4 -> 5 ;
6 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 0, 1]"] ;
4 -> 6 ;
7 [label="petal width (cm) <= 1.65\nentropy = 0.811\nsamples = 4\nvalue = [0, 1, 3]"] ;
3 -> 7 ;
8 [label="entropy = 0.0\nsamples = 3\nvalue = [0, 0, 3]"] ;
7 -> 8 ;
9 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ;
7 -> 9 ;
10 [label="petal length (cm) <= 4.85\nentropy = 0.187\nsamples = 35\nvalue = [0, 1, 34]"] ;
2 -> 10 ;
11 [label="sepal length (cm) <= 5.95\nentropy = 0.918\nsamples = 3\nvalue = [0, 1, 2]"] ;
10 -> 11 ;
12 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ;
11 -> 12 ;
13 [label="entropy = 0.0\nsamples = 2\nvalue = [0, 0, 2]"] ;
11 -> 13 ;
14 [label="entropy = 0.0\nsamples = 32\nvalue = [0, 0, 32]"] ;
10 -> 14 ;
}

網站顯示結構

http://webgraphviz.com/

決策樹總結

優點：
- 簡單的理解和解釋，樹木視覺化。
缺點：
- 決策樹學習者可以建立不能很好地推廣資料的過於複雜的樹，這被稱為過擬合
改進：
- 減枝cart演算法(決策樹API當中已經實現，隨機森林引數調優有相關介紹)。
- 隨機森林

注：企業重要決策，由於決策樹很好的分析能力，在決策過程應用較多，可以選擇特徵

MySQL的學習（一）-DQL語言的學習

DQL(Data Query Language)(查詢語言) #進階1：基礎查詢語法： select 查詢列表 from 表名；特點： 1、查詢列表可以是：表中的欄位、常量值、表示式、函式 2、查詢的結果是一個虛擬的表格

Spring Boot 學習（一） redis粗略學習

<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-redis</artifactId>

MySQL學習（一）大綱

1.邏輯架構參考部落格：https://blog.csdn.net/fuzhongmin05/article/details/70904190 最上層為客戶端層，並非mysql獨有，諸如：連線處理、授權認證、安全等功能均在這一層處理。

TS語言學習（一）

ts基礎型別 1.布林型別 2.數字型別 3.字串型別 4.陣列型別（兩種方式表示 1、Array<元素型別>2、元素型別[] ）

MySQL學習（一）資料庫事務與隔離級別

學習MySQL之前，我們先了解下什麼是事務？資料庫事務通常包含了一個序列的對資料庫的讀/寫操作。這些操作要麼全部執行，要麼全部不執行，是⼀個不可分割的獨⽴的⼯作單元。

OpenGL學習（十）-- 著色語言 GLSL 語法介紹

我的 OpenGL 專題學習目錄，希望和大家一起學習交流進步！ OpenGL學習（一）-- 術語瞭解

OpenGL學習（一）-- 術語瞭解

我的 OpenGL 專題學習目錄，希望和大家一起學習交流進步！ OpenGL學習（一）-- 術語瞭解

微服務設計學習（一）關於微服務和如何建模服務

前言隨著網際網路在21世紀初被大規模接入，網際網路由基於流量點選贏利的單方面資訊釋出的Web 1.0業務模式，轉變為由使用者主導而生成內容的Web 2.0業務模式。因此，網際網路應用系統所需處理的訪問量和資料量均疾

關於Shiro框架的學習（一）

前言由於最近在做一個專案，剛完成到登入註冊，不想和以前的專案搬同樣的磚了，想完成點不那麼low的功能，像單點登入、許可權控制等，於是就想起了Shiro框架。

WPF 學習（一）

一、WPF介紹 WPF全稱 Windows Presentation Foundation,幹啥用的？主要是用來製作Windows桌面客戶端軟體的。

演算法學習（一）氣泡排序

一、引言　　演算法知識是計算機和軟體工程的基礎，雖然日常開發中很少會讓我們自己寫演算法，但是對於不是科班出身的我來說，技術就是我的精神食糧，所以這一分類開始記錄學習演算法的過程~~~

Vue.js學習（一）—— axios學習

一、axios簡介　　axios 是一個基於Promise 用於瀏覽器和 nodejs 的 HTTP 客戶端，它本身具有以下特徵：

nginx 學習（一）

本文轉載原文地址：https://www.cnblogs.com/wcwnina/p/8728391.html Nginx的產生沒有聽過Nginx？那麼一定聽過它的\"同行\"Apache吧！Nginx同Apache一樣都是一種WEB伺服器。基於REST架構風格，以統一資源描述符(Un

NoSQL資料庫-MongoDB 學習（一）

基本介紹 MongoDB 是為了快速開發網際網路 Web 應用而設計的資料庫系統 MongoDB 的設計目標是極簡、靈活、作為 Web 應用棧的一部分

keras學習（一）

最近在學習keras，主要還是跟著網上大佬們的教程走的，程式碼也是跟著寫的，沒啥自己創新，算是記錄一下吧！第一次學習就是進行一個簡單的擬合，擬合一個一元一次方程吧（數學語言來說）：y = 0.5x + 2。先放上程

favicon.ico學習（一）什麼是 favicon.ico，為何我的瀏覽器會向其祕密傳送請求？

favicon.ico是什麼？所謂favicon，即Favorites Icon的縮寫，是指顯示在瀏覽器收藏夾、位址列和標籤標題前面的個性化圖示。以圖示的方式區別不同的網站。

angular學習（一）

第一天學習angular，首先看了基本的搭建過程和基本概念。環境搭建：首先安裝nodejs和npm，然後安裝angularcli，要使用npm命令安裝 CLI，請開啟終端/控制檯視窗，輸入如下命令：

Kernel Linux學習（一）——環境搭建

Kernel Linux學習——環境搭建 2020-08-0220:14:19 hawkJW 　　　　因為最近資訊保安競賽中經常出現Kernel Linux相關方面的習題，因此正好通過疫情這段時間學習一下Kernel Linux相關的知識。

pwn——IO_FILE學習（一）

IO_FILE學習（一） 2020-08-2214:01:55 hawk 　　因為參加的2020年全國大學生資訊保安競賽創新實踐賽時，因為自己十分的菜，pwn題僅僅痛苦的做出了幾道。之後學校大佬分享了一下他們的wp，仔細檢視部分題目的wp，解

mmdetection3d學習（一）：初步認識

mmdetection3d mmdetection3d 是 mmdetection 的 3D 版本，近期剛開源。原始碼地址 https://github.com/open-mmlab/mmdetection3d

MySQL的學習（一）-DQL語言的學習

決策樹

認識決策樹

決策樹分類原理詳解

原理

資訊理論基礎

資訊適的定義

決策樹的劃分依據之— —— 資訊增益

決策樹API

決策樹預測鳶尾花資料集

決策樹視覺化

儲存樹的結構到dot檔案

網站顯示結構

決策樹總結

相關推薦