AI 版“創造 101”來了：不僅出單曲還拍電視劇，真人偶像迎來失業危機？

阿新 • • 發佈：2021-06-21

實驗四決策樹演算法及應用

作業資訊

部落格班級	部落格班級連結
作業要求	作業要求連結
作業目標	掌握決策樹演算法
學號	3180701134

實驗目的

理解決策樹演算法原理，掌握決策樹演算法框架；
理解決策樹學習演算法的特徵選擇、樹的生成和樹的剪枝；
能根據不同的資料型別，選擇不同的決策樹演算法；
針對特定應用場景及資料，能應用決策樹演算法解決實際問題。

實驗內容

設計演算法實現熵、經驗條件熵、資訊增益等方法。
實現ID3演算法。
熟悉sklearn庫中的決策樹演算法；
針對iris資料集，應用sklearn的決策樹演算法進行類別預測。
針對iris資料集，利用自編決策樹演算法進行類別預測。

實驗報告要求

對照實驗內容，撰寫實驗過程、演算法及測試結果；
程式碼規範化：命名規則、註釋；
分析核心演算法的複雜度；
查閱文獻，討論ID3、C4.5演算法的應用場景；
查詢文獻，分析決策樹剪枝策略。

實驗過程及結果

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from collections import Counter
import math
from math import log
import pprint

課本例題5.1

def create_data():
    datasets = [['青年', '否', '否', '一般', '否'],
                ['青年', '否', '否', '好', '否'],
                ['青年', '是', '否', '好', '是'],
                ['青年', '是', '是', '一般', '是'],
                ['青年', '否', '否', '一般', '否'],
                ['中年', '否', '否', '一般', '否'],
                ['中年', '否', '否', '好', '否'],
                ['中年', '是', '是', '好', '是'],
                ['中年', '否', '是', '非常好', '是'],
                ['中年', '否', '是', '非常好', '是'],
                ['老年', '否', '是', '非常好', '是'],
                ['老年', '否', '是', '好', '是'],
                ['老年', '是', '否', '好', '是'],
                ['老年', '是', '否', '非常好', '是'],
                ['老年', '否', '否', '一般', '否'],
                ]
    labels = [u'年齡', u'有工作', u'有自己的房子', u'信貸情況', u'類別']
    # 返回資料集和每個維度的名稱
    return datasets, labels

datasets, labels = create_data()

train_data = pd.DataFrame(datasets, columns=labels)

train_data

# 熵
def calc_ent(datasets):
    data_length = len(datasets)
    label_count = {}
    for i in range(data_length):
        label = datasets[i][-1]
        if label not in label_count:
            label_count[label] = 0
        label_count[label] += 1
    ent = -sum([(p / data_length) * log(p / data_length, 2)
                for p in label_count.values()])
    return ent


# def entropy(y):
# """
# Entropy of a label sequence
# """
# hist = np.bincount(y)
# ps = hist / np.sum(hist)
# return -np.sum([p * np.log2(p) for p in ps if p > 0])
# 經驗條件熵
def cond_ent(datasets, axis=0):
    data_length = len(datasets)
    feature_sets = {}
    for i in range(data_length):
        feature = datasets[i][axis]
        if feature not in feature_sets:
            feature_sets[feature] = []
        feature_sets[feature].append(datasets[i])
    cond_ent = sum(
        [(len(p) / data_length) * calc_ent(p) for p in feature_sets.values()])
    return cond_ent


# 資訊增益
def info_gain(ent, cond_ent):
    return ent - cond_ent


def info_gain_train(datasets):
    count = len(datasets[0]) - 1
    ent = calc_ent(datasets)
    # ent = entropy(datasets)
    best_feature = []
    for c in range(count):
        c_info_gain = info_gain(ent, cond_ent(datasets, axis=c))
        best_feature.append((c, c_info_gain))
        print('特徵({}) - info_gain - {:.3f}'.format(labels[c], c_info_gain))
    # 比較大小
    best_ = max(best_feature, key=lambda x: x[-1])
    return '特徵({})的資訊增益最大，選擇為根節點特徵'.format(labels[best_[0]])

info_gain_train(np.array(datasets))

利用ID3演算法生成決策樹，例5.3

# 定義節點類 二叉樹
class Node:
    def __init__(self, root=True, label=None, feature_name=None, feature=None):
        self.root = root
        self.label = label
        self.feature_name = feature_name
        self.feature = feature
        self.tree = {}
        self.result = {
            'label:': self.label,
            'feature': self.feature,
            'tree': self.tree
        }

    def __repr__(self):
        return '{}'.format(self.result)

    def add_node(self, val, node):
        self.tree[val] = node

    def predict(self, features):
        if self.root is True:
            return self.label
        return self.tree[features[self.feature]].predict(features)


class DTree:
    def __init__(self, epsilon=0.1):
        self.epsilon = epsilon
        self._tree = {}

    # 熵
    @staticmethod
    def calc_ent(datasets):
        data_length = len(datasets)
        label_count = {}
        for i in range(data_length):
            label = datasets[i][-1]
            if label not in label_count:
                label_count[label] = 0
            label_count[label] += 1
        ent = -sum([(p / data_length) * log(p / data_length, 2)
                    for p in label_count.values()])
        return ent

    # 經驗條件熵
    def cond_ent(self, datasets, axis=0):
        data_length = len(datasets)
        feature_sets = {}
        for i in range(data_length):
            feature = datasets[i][axis]
            if feature not in feature_sets:
                feature_sets[feature] = []
            feature_sets[feature].append(datasets[i])
        cond_ent = sum([(len(p) / data_length) * self.calc_ent(p)
                        for p in feature_sets.values()])
        return cond_ent

    # 資訊增益
    @staticmethod
    def info_gain(ent, cond_ent):
        return ent - cond_ent

    def info_gain_train(self, datasets):
        count = len(datasets[0]) - 1
        ent = self.calc_ent(datasets)
        best_feature = []
        for c in range(count):
            c_info_gain = self.info_gain(ent, self.cond_ent(datasets, axis=c))
            best_feature.append((c, c_info_gain))
        # 比較大小
        best_ = max(best_feature, key=lambda x: x[-1])
        return best_

    def train(self, train_data):
        """
        input:資料集D(DataFrame格式)，特徵集A，閾值eta
        output:決策樹T
        """
        _, y_train, features = train_data.iloc[:, :
                                                  -1], train_data.iloc[:,
                                                       -1], train_data.columns[:
                                                                               -1]
        # 1,若D中例項屬於同一類Ck，則T為單節點樹，並將類Ck作為結點的類標記，返回T
        if len(y_train.value_counts()) == 1:
            return Node(root=True, label=y_train.iloc[0])
        # 2, 若A為空，則T為單節點樹，將D中例項樹最大的類Ck作為該節點的類標記，返回T
        if len(features) == 0:
            return Node(
                root=True,
                label=y_train.value_counts().sort_values(
                    ascending=False).index[0])
        # 3,計算最大資訊增益 同5.1,Ag為資訊增益最大的特徵
        max_feature, max_info_gain = self.info_gain_train(np.array(train_data))
        max_feature_name = features[max_feature]
        # 4,Ag的資訊增益小於閾值eta,則置T為單節點樹，並將D中是例項數最大的類Ck作為該節點的類標記，返
        if max_info_gain < self.epsilon:
            return Node(
                root=True,
                label=y_train.value_counts().sort_values(
                    ascending=False).index[0])
        # 5,構建Ag子集
        node_tree = Node(
            root=False, feature_name=max_feature_name, feature=max_feature)
        feature_list = train_data[max_feature_name].value_counts().index
        for f in feature_list:
            sub_train_df = train_data.loc[train_data[max_feature_name] ==
                                          f].drop([max_feature_name], axis=1)
            # 6, 遞迴生成樹
            sub_tree = self.train(sub_train_df)
            node_tree.add_node(f, sub_tree)
        # pprint.pprint(node_tree.tree)
        return node_tree

    def fit(self, train_data):
        self._tree = self.train(train_data)
        return self._tree

    def predict(self, X_test):
        return self._tree.predict(X_test)

datasets, labels = create_data()
data_df = pd.DataFrame(datasets, columns=labels)
dt = DTree()
tree = dt.fit(data_df)

tree

dt.predict(['老年', '否', '否', '一般'])

scikit-learn例項

# data
def create_data():
    iris = load_iris()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['label'] = iris.target
    df.columns = [
        'sepal length', 'sepal width', 'petal length', 'petal width', 'label'
    ]
    data = np.array(df.iloc[:100, [0, 1, -1]])
    # print(data)
    return data[:, :2], data[:, -1]
X, y = create_data()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import export_graphviz
import graphviz

clf = DecisionTreeClassifier()
clf.fit(X_train, y_train,)

clf.score(X_test, y_test)

tree_pic = export_graphviz(clf, out_file="mytree.pdf")
with open('mytree.pdf') as f:
    dot_graph = f.read()

graphviz.Source(dot_graph)

習題5-1

from sklearn.tree import DecisionTreeClassifier
from sklearn import preprocessing
import numpy as np
import pandas as pd
from sklearn import tree
import graphviz
features = ["年齡", "有工作", "有自己的房子", "信貸情況"]
X_train = pd.DataFrame([
    ["青年", "否", "否", "一般"],
    ["青年", "否", "否", "好"],
    ["青年", "是", "否", "好"],
    ["青年", "是", "是", "一般"],
    ["青年", "否", "否", "一般"],
    ["中年", "否", "否", "一般"],
    ["中年", "否", "否", "好"],
    ["中年", "是", "是", "好"],
    ["中年", "否", "是", "非常好"],
    ["中年", "否", "是", "非常好"],
    ["老年", "否", "是", "非常好"],
    ["老年", "否", "是", "好"],
    ["老年", "是", "否", "好"],
    ["老年", "是", "否", "非常好"],
    ["老年", "否", "否", "一般"]
])
y_train = pd.DataFrame(["否", "否", "是", "是", "否",
                        "否", "否", "是", "是", "是",
                        "是", "是", "是", "是", "否"])
# 資料預處理
le_x = preprocessing.LabelEncoder()
le_x.fit(np.unique(X_train))
X_train = X_train.apply(le_x.transform)
le_y = preprocessing.LabelEncoder()
le_y.fit(np.unique(y_train))
y_train = y_train.apply(le_y.transform)
# 呼叫sklearn.DT建立訓練模型
model_tree = DecisionTreeClassifier()
model_tree.fit(X_train, y_train)
# 視覺化
dot_data = tree.export_graphviz(model_tree, out_file=None,
                                    feature_names=features,
                                    class_names=[str(k) for k in np.unique(y_train)],
                                    filled=True, rounded=True,
                                    special_characters=True)
graph = graphviz.Source(dot_data)
graph

習題5-2

import numpy as np


class LeastSqRTree:
    def __init__(self, train_X, y, epsilon):
        # 訓練集特徵值
        self.x = train_X
        # 類別
        self.y = y
        # 特徵總數
        self.feature_count = train_X.shape[1]
        # 損失閾值
        self.epsilon = epsilon
        # 迴歸樹
        self.tree = None

    def _fit(self, x, y, feature_count, epsilon):
        # 選擇最優切分點變數j與切分點s
        (j, s, minval, c1, c2) = self._divide(x, y, feature_count)
        # 初始化樹
        tree = {"feature": j, "value": x[s, j], "left": None, "right": None}
        if minval < self.epsilon or len(y[np.where(x[:, j] <= x[s, j])]) <= 1:
            tree["left"] = c1
        else:
            tree["left"] = self._fit(x[np.where(x[:, j] <= x[s, j])],
                                     y[np.where(x[:, j] <= x[s, j])],
                                     self.feature_count, self.epsilon)
        if minval < self.epsilon or len(y[np.where(x[:, j] > s)]) <= 1:
            tree["right"] = c2
        else:
            tree["right"] = self._fit(x[np.where(x[:, j] > x[s, j])],
                                      y[np.where(x[:, j] > x[s, j])],
                                      self.feature_count, self.epsilon)
        return tree

    def fit(self):
        self.tree = self._fit(self.x, self.y, self.feature_count, self.epsilon)

    @staticmethod
    def _divide(x, y, feature_count):
        # 初始化損失誤差
        cost = np.zeros((feature_count, len(x)))
        # 公式5.21
        for i in range(feature_count):
            for k in range(len(x)):
                # k行i列的特徵值
                value = x[k, i]
                y1 = y[np.where(x[:, i] <= value)]
                c1 = np.mean(y1)
                y2 = y[np.where(x[:, i] > value)]
                c2 = np.mean(y2)
                y1[:] = y1[:] - c1
                y2[:] = y2[:] - c2
                cost[i, k] = np.sum(y1 * y1) + np.sum(y2 * y2)
        # 選取最優損失誤差點
        cost_index = np.where(cost == np.min(cost))
        # 選取第幾個特徵值
        j = cost_index[0][0]
        # 選取特徵值的切分點
        s = cost_index[1][0]
        # 求兩個區域的均值c1,c2
        c1 = np.mean(y[np.where(x[:, j] <= x[s, j])])
        c2 = np.mean(y[np.where(x[:, j] > x[s, j])])
        return j, s, cost[cost_index], c1, c2

train_X = np.array([[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]]).T
y = np.array([4.50, 4.75, 4.91, 5.34, 5.80, 7.05, 7.90, 8.23, 8.70, 9.00])
model_tree = LeastSqRTree(train_X, y, .2)
model_tree.fit()
model_tree.tree

實驗小結

通過本次實驗使我進一步掌握了決策樹演算法的原理，並且可以通過python程式設計實現ID3演算法的相關流程。對於sklearn第三庫自帶的決策樹演算法我也在本次實驗中有了基本的瞭解並且學會了如何使用。

AI 版“創造 101”來了：不僅出單曲還拍電視劇，真人偶像迎來失業危機？

6 月 21 日訊息，最近，韓國人工智慧公司 Pulse9 推出了一個完全由 AI 打造的韓國流行音樂女團，Eternity。Pulse9通過該公司研發的“Deep Real”技術打造了 11 位 AI 女團成員，併發布了單曲 MV“I’m Real”。該單

安卓 12 來了：三星 One UI 4 Beta 測試開啟，S21 系列現可報名

10 月 18 日訊息，經歷數次延期之後，基於安卓 12 的三星 One UI 4 Beta 版現已到來，今日 10 點開啟報名，目前首批測試名單已滿。瞭解到，使用三星 Galaxy S21/S21+/S21 Ultra 手機的小夥伴可關注蓋樂世社群，並通過

訓練 CV 模型新思路來了：用 NLP 大火的 Prompt 替代微調，效能全面提升

Prompt tuning，作為 NLP 領域中的一個“新寵”，甚至曾被學者譽為 NLP 預訓練新正規化。那麼，它能否借鑑到 CV 領域併產生同樣的成績呢？現在，來自康奈爾大學和 Meta AI 等機構，通過 Prompt 來調整基於 Transform

洗腦迴圈來了：Android 版 YouTube 將支援單視訊迴圈播放

3月9日訊息據外媒 XDA 報道，Android 版 YouTube 目前還不支援單視訊迴圈播放功能，該功能在國內許多視訊網站中已經支援。

谷歌 Android 12 來了：引入全新設計語言，小米、OPPO、vivo 等可下載測試版

5 月 19 日凌晨訊息，Google I/O 2021 開發者大會（後文簡稱谷歌 I/O）今日開幕，去年因新冠疫情而被取消之後，2021 年穀歌 I/O 大會重新迴歸，並採用全程線上的形式，對所有人免費開放。谷歌宣佈 Android 12 正式到

中國版“哈勃”要來了：空間站尋天望遠鏡計劃於 2024 年發射

6 月 20 日訊息根據央視新聞訊息，6 月 19 日至 21 日，首屆全國行星科學大會在江蘇省蘇州市召開。大會聚焦行星科學研究前沿、行星探測技術與裝備研發、未來行星探測計劃、行星科學人才培養等主題進行研討，共有 10

微軟 Win11 預覽版來了：海量大圖帶你領略新系統

近日，微軟釋出了 Windows 11 的首個預覽版，所有之前已加入到 Insider Preview 的使用者都能收到這個版本。該版本融入了釋出會裡的很多變化，但並未新增 Microsoft Teams 和安卓應用支援。詳細內容，請跟隨筆者一起

Android 12 來了：realme X50 Pro 5G 獲得 realme UI 3.0 測試版更新

1 月 25 日訊息，目前 realme 印度官網放出了 realme X50 Pro 手機基於 Android 12 的 realme UI 3.0 搶先體驗計劃，申請渠道已於 2022 年 1 月 25 日開放。realme X50 Pro 於 2020 年 3 月正式釋出，預裝 Android1