學習日誌-2021.10.11

阿新 • • 發佈：2021-10-11

學習日誌-2021.10.11

複習一下機器學習書本第四章內容

決策樹

基本演算法

這是一個遞迴的過程，有三種情況會導致遞迴返回：
- 當前節點包含的樣本全屬於同一類別，無需劃分
- 當前屬性集為空，或是所有樣本在所有屬性上取值相同，無法劃分
- 當前結點包含的樣本集合為空，不能劃分
輸入:訓練集 $D = \{(x_1 , y_1),(x_2 , y_2),...,(x_m , y_m)\}$

屬性集 $A = \{a_1 , a_2 , ... , a_d\}$

過程：函式 TreeGenerate( $D$ , $A$ )
- 生成結點 node ：
- if $D$ 中樣本全屬於同一類別 $C$
  
  then
  - 將 node 標記為 $C$ 類葉結點；return
- end if
- if $A = Φ$ OR $D$ 中樣本在 $A$ 上取值相同 then
  - 將 node 標記為葉結點，其類別標記為 $D$ 中樣本數最多的類；return
- end if
- 從 $A$ 中選擇最優劃分屬性 $a_*$ ;
- for $a_*$ 的每一個值 $a_*^v$ do
  - 為 node 生成一個分支；令 $D_v$ 表示 $D$ 中在 $a_*$ 上取值為 $a_*^v$ 的樣本子集；
  - if $D_v$ 為空 then
    - 將分支節點標記為葉結點，其類別標記為 $D$
      
      中樣本最多的類；return
  - else
    - 以 TreeGenerate( $D$ , $A$ \ $\{a_*\}$ )為分支點
  - end if
- end for
輸出：以 node 為根節點的一棵決策樹
劃分選擇
- 資訊增益
  
  資訊熵：$Ent(D) = - \sum_{k = 1}^{| \gamma |} p_k \log_2 p_k$
  - $p_k$ 為當前樣本集合 $D$ 中第 $k$ 類樣本所佔的比例 $(k = 1,2,...,|\gamma|)$
  $Ent(D)$ 的值越小，則 $D$ 的純度越高
  
  資訊增益： $Gain (D,a) = Ent(D) - \sum_{v=1}^{V} \frac{|D_v|}{|D|} Ent(D^v)$
  
  假定離散值 $a$ 有可能的取值為 $\{ a^1,a^2,...,a^V \}$ ，使用 $a$ 來對樣本集進行劃分，則會產生V個分支結點。
  - $D^v$ 表示第 $v$ 個分支包含了 $D$ 中所有在屬性 $a$ 上取值為 $a^v$ 的樣本
  - $ \frac{|D_v|}{|D|} $ 表示分支結點的權重
  一般而言，資訊增益越大，意味著使用屬性 $a$ 來進行劃分所獲得的“純度提升”越大。
- 增益率
  \[Grain_ratio (D,a) = \frac{Gain(D,a)}{IV(a)} \]
  其中
  \[IV(a) = - \sum_{v=1}^{V} \frac{|D_v|}{|D|} \log_2 \frac{|D_v|}{|D|} \]
  - $IV(a)$ 成為屬性 $a$ 的“固有值”。屬性 $a$ 的可能取值數目越多，則 $IV(a)$ 的值通常越大。
- 基尼指數
  - 基尼值
    \[Gini(D) = \sum_{k=1}^{|\gamma|} \sum_{k'≠k} p_k p_{k'}=1-\sum_{k=1}^{|\gamma|}p^2_k \]
    直觀來說，$Gini(D)$ 反映了從資料集 $D$ 中隨機抽取兩個樣本，其類別標記不一致的概率。即，$Gini(D)$ 越小，則資料集 $D$ 的純度越高。
  - 基尼指數
    \[Gini \_ index (D,a) = \sum_{v=1}^{V} \frac{|D^v|}{|D|} Gini(D) \]
    在選擇基尼指數最小的屬性作為最優化分。
剪枝處理

防止決策樹學習演算法“過擬合”

基本策略分為預剪枝和後剪枝
- 預剪枝：指在決策樹生成過程中，對每個結點在劃分前先進行評估，若當前結點的劃分不能帶來決策樹泛化效能的提升，則停止劃分並將當前節點標記為葉結點。
- 後剪枝：先從訓練集生成一顆完整的決策樹，然後自底向上地對非葉結點進行考察，若將該結點對應的子樹替換為葉結點能帶來決策樹泛化能力的提升，則將該子樹替換為葉結點。
連續與缺失值
- 連續值處理
  - 上述決策樹處理過程是基於離散屬性的，在現實問題中常遇到連續值，對此需要將連續屬性離散化
  - 最簡單的方法是採用二分法對連續屬性進行處理
- 缺失值處理
  - 現實中偵測到的樣本資料資訊可能存在不完整的情況，為了能夠儘量使得樣本資訊能夠儘量被使用，需要對缺失值進行處理

學習日誌-2021.10.11

學習日誌-2021.10.11 複習一下機器學習書本第四章內容決策樹基本演算法這是一個遞迴的過程，有三種情況會導致遞迴返回：

學習日誌-2021.10.02

學習日誌-2021.10.02 文獻閱讀：博弈論與多智慧體強化學習重點討論強化學習技術在多智慧體系統中的應用。

學習日誌-2021.10.04

學習日誌-2021.10.04 博弈論與多智慧體強化學習（續）文獻閱讀：學習自動機強化方案

學習日誌-2021.10.09

學習日誌-2021.10.09 今日主要內容：成功執行兩個sarsa演算法相關的專案(用於路徑規劃)：

學習日誌-2021.10.24

學習日誌-2021.10.24 碩士論文第二部分復現複雜網路上的合作行為演化研究 ——基於 Q-learning 演算法

圖學習學術速遞[2021/10/11]

Graph相關(圖學習|圖神經網路|圖優化等)(12篇) [ 1 ] Hybrid Graph Embedding Techniques in Estimated Time of Arrival Task標題：估計到達時間任務中的混合圖嵌入技術連結：https://arxiv.org/abs/2110.04228

2021.10.11-2021.10.13學習成果（IPV6過渡技術，4種隧道）

雙棧：IPV4和IPV6並存。PDU：協議資料單元。隧道技術：用一種報文頭保護另一隻報頭。

學習日誌-2021.11.08

學習日誌-2021.11.08 其他Q-Learning SA-Q-learning 為了平衡Q-learning的探索與利用，基於Metropolis準則提出的演算法

2021-10-11 oracle初體驗

1. 建資料庫create tablespace oral datafile \'D:\\Jiangting_XE\\Jiangting_XE\\15_dbData\\oracle\' size 64m;

2021/10/11 q 標籤，blockquote 標籤，cite 標籤

10.1q 標籤　　 q 標籤用於定義較短的引用，瀏覽器通常會在引用內容的兩側新增“引號”。傳送門

2021.10.11 提高組模擬

總的來說考得一般般……100+10+85+10，就那樣。 T1 a 題意：給定一個長度為 \$N(N\\le 10^7)\$ 的僅包含小寫字母的字串。請你求出其字典序最大的子序列。

java學習筆記 2021.10.24

2021.10.24 JVM 垃圾回收概述概述垃圾回收不只是java的特有，其他的也有體現，但現在已經成了java的招牌能力，極大的提高了開發的效率。

學習日記2021/10/24

Python學習記錄：第[2]周 Python基本圖形繪製引入庫：①form<turtle> import <penup> ；②form<turtle>import *（函式名易重複）；③import <turtle> as t（庫別名）；

學習筆記 2021.10.22

2021.10.22 JVM 常量池具體存在的位置在哪裡? 是怎麼通過常量池來減少記憶體消耗的？

學習筆記 2021.10.25

2021.10.25 JVM 垃圾回收相關概念 system.gc的理解當然回收的區域也包括方法區。免責宣告的意思是不保證什麼時候執行，即該方法的作用是提醒虛擬機器希望執行垃圾回收行為。

學習筆記 2021.10.26

2021.10.20and21 JVM 執行時資料區虛擬區棧各種變數型別的一個簡單的比較。類變數即是在用static修飾的變數。

學習筆記 2021.10.30續

2021.10.31 併發執行緒池執行緒池必考：三大方法、七大引數、四種拒絕策略池化技術

學習筆記 2021.12.11

2021.12.11 觸發器在實際開發中，我們經常會遇到這樣的情況：有 2 個或者多個相互關聯的表，如商品資訊和庫存資訊分別存放在 2 個不同的資料表中，我們在新增一條新商品記錄的時候，為了保證資料的完整性，必須同時

11.09學習日誌

11.09學習日誌 HTML基礎知識總結一、HTML的定義 HTML，超文字標記語言，寫給瀏覽器的語言，目前網路上應用最廣泛的語言。HTML也在不斷的更新，最新版本已經出現了HTML5。在HTML5中出現了許多新特性，也遺棄了一些舊

11.06學習日誌

11.06學習日誌 html及html5的知識點記錄 1、Doctype作用？標準模式與相容模式各有什麼區別（1）、<!DOCTYPE>宣告位於位於HTML文件中的第一行，處於<html>標籤之前。告知瀏覽器的解析器用什麼文件標準解

學習日誌-2021.10.11

學習日誌-2021.10.11

決策樹

相關推薦