機器學習-周志華-個人練習11.1

阿新 • • 發佈：2019-01-05

11.1 試程式設計實現Relief演算法，並考察其在西瓜資料集3.0上的執行結果。

本題採用Relief演算法處理二分類任務，雖然書上只要求對連續屬性歸一化，但我將離散屬性的值轉化為了1,2,3，如果不對離散屬性歸一化，顯然在查詢近鄰時連續屬性不能有效發揮作用，因此需要將資料的離散屬性和連續屬性都進行歸一化。另外，在計算連續屬性的相關統計量時，本題是二元分類，因此可以對書上公式11.3進行化簡，得到下式，可稍微簡化計算：

顯然，本題主要分為三步：1、資料歸一化；2、求取各點近鄰near-hit和near-miss；3、求得相關統計量。

由輸出結果可見，分類能力最強的屬性是紋理，其次是根蒂，……很明顯，與其他人用未歸一化離散屬性的結果有所差異，這也說明此方法採用距離得到近鄰來計算統計量，在維數較高，資料複雜時的效果可能不是太好。

程式碼如下：

# -*- coding: utf-8 -*-
# 特徵選擇方法：Relief
import numpy as np

label = {0:'色澤', 1:'根蒂', 2:'敲聲', 3:'紋理', 4:'臍部', 5:'觸感', 6:'密度', 7:'含糖率'}
D = np.array([
    [1, 1, 1, 1, 1, 1, 0.697, 0.460, 1],
    [2, 1, 2, 1, 1, 1, 0.774, 0.376, 1],
    [2, 1, 1, 1, 1, 1, 0.634, 0.264, 1],
    [1, 1, 2, 1, 1, 1, 0.608, 0.318, 1],
    [3, 1, 1, 1, 1, 1, 0.556, 0.215, 1],
    [1, 2, 1, 1, 2, 2, 0.403, 0.237, 1],
    [2, 2, 1, 2, 2, 2, 0.481, 0.149, 1],
    [2, 2, 1, 1, 2, 1, 0.437, 0.211, 1],
    [2, 2, 2, 2, 2, 1, 0.666, 0.091, 0],
    [1, 3, 3, 1, 3, 2, 0.243, 0.267, 0],
    [3, 3, 3, 3, 3, 1, 0.245, 0.057, 0],
    [3, 1, 1, 3, 3, 2, 0.343, 0.099, 0],
    [1, 2, 1, 2, 1, 1, 0.639, 0.161, 0],
    [3, 2, 2, 2, 1, 1, 0.657, 0.198, 0],
    [2, 2, 1, 1, 2, 2, 0.360, 0.370, 0],
    [3, 1, 1, 3, 3, 1, 0.593, 0.042, 0],
    [1, 1, 2, 2, 2, 1, 0.719, 0.103, 0]])
m = len(D)

# 資料歸一化
temp = D[:,:-1]
D[:,:-1] = (temp-np.min(temp,axis=0)) / np.ptp(temp, axis=0)

# 按照順序儲存各樣本的nh和nm近鄰
data = D[:,:-1]
nh_set, nm_set = [],[]
for i in range(m):
    data -= data[i,:]
    li = np.argsort(np.linalg.norm(data, axis=1))
    for order in range(1,m):  # li[0]代表其本身的id,因此索引應該從1開始
        if D[li[order],-1] == D[i,-1]:
            nh_set.append(li[order])
            break
    for order in range(1,m):  # li[0]代表其本身的id,因此索引應該從1開始
        if D[li[order],-1] != D[i,-1]:
            nm_set.append(li[order])
            break

# 計算相關統計量
n = len(label)
score = [0]*n
for attr in range(n-2):
    for i in range(m):
        if data[i, attr] != data[nh_set[i], attr]:
            score[attr] -= 1
        if data[i, attr] != data[nm_set[i], attr]:
            score[attr] += 1
for attr in [-2,-1]:
    for i in range(m):
        a = 2*data[i, attr] - data[nh_set[i], attr] - data[nm_set[i], attr]
        b = data[nh_set[i], attr] - data[nm_set[i], attr]
        score[attr] += a*b

# 由大到小輸出各個特徵
output = sorted([(label[i],k) for i,k in enumerate(score)], key=lambda li: -li[1])
print(output)

輸出如下：

[('紋理', 11), ('根蒂', 4), ('含糖率', 1.7657963416588451), ('敲聲', 1), 
 ('臍部', 0), ('密度', -0.60651295746574851), ('觸感', -2), ('色澤', -5)]

機器學習-周志華-個人練習11.1

11.1 試程式設計實現Relief演算法，並考察其在西瓜資料集3.0上的執行結果。本題採用Relief演算法處理二分類任務，雖然書上只要求對連續屬性歸一化，但我將離散屬性的值轉化為了1,2,3，如果不對離散屬性歸一化，顯然在查詢近鄰時連續屬性不能有效發揮作用，因此需要將

機器學習-周志華-個人練習13.4

13.4 從網上下載或自己程式設計實現TSVM演算法，選擇兩個UCI資料集，將其中30%的樣例用作測試樣本，10%的樣例用作有標記樣本，60%的樣例用作無標記樣本，分別訓練出利用無標記樣本的TSVM以及僅利用有標記樣本的SVM，並比較其效能。選擇最常用的ir

機器學習-周志華-個人練習8.3和8.5

8.3從網上下載或自己程式設計實現AdaBoost，以不剪枝決策樹為基學習器，在西瓜資料集3.0a上訓練一個AdaBoost整合，並與圖8.4進行比較。 8.5試程式設計實現Bagging，以決策樹樁為基學習器，在西瓜資料集3.0a上訓練一個Bagging整合，並與圖8.6

機器學習(周志華) 習題7.3 個人筆記

7.3 試程式設計實現拉普拉斯修正的樸素貝葉斯分類器，並以西瓜資料集3.0為訓練集，對p151“測1”樣本進行判別。程式設計得到結果為: [0.024223607117715082, 4.4242506192749345e-05] 因此測試例應預測為好瓜。 # -*-

機器學習-周志華-第一章

緒論 1.1 引言什麼是機器學習？它是一門致力於研究如何通過計算的手段，利用經驗來改善系統自身效能的一門學科。所研究的主要內容是計算機如何通過資料產生模型，即學習演算法。有了學習演算法後，當我們給它提供經驗資料時就能基於這些資料產生模型。在面對新資料時學習演算法會給我們相應的判斷。經驗通常以資料的形

機器學習周志華筆記

已經發布部落格 ************************************************************ 周志華教授機器學習教材總結資料和特徵決定了機器學習的上限，而模型和演算法只是逼近這個上限而已問題總結：生成式模型

學習筆記 | 機器學習-周志華 | 5

第二章模型評估與選擇 2.1 經驗誤差與過擬合 "錯誤率" (error rate) ，即如果在 m 個樣本中有 α 個樣本分類錯誤，則錯誤率 E= α/m; 1 一 α/m 稱為**“精度” (accuracy)** ，即"精度 =1 - 錯誤率" 更一般地，

學習筆記 | 機器學習-周志華 | 4

習題版本空間：存在著一個與訓練集一致的“假設集合”。此時，只有1, 4兩個樣例。求版本空間的步驟： ①寫出假設空間：先列出所有可能的樣本點（即特徵向量）（即每個屬性都取到所有的屬性值） ②對應著給出的已知資料集，將與正樣本不一致的、與負樣本一致的假設刪除。 ③得出與

學習筆記 | 機器學習-周志華 | 3

1.4 歸納偏好版本空間中的多個假設可能會產生不同的輸出：對於同一個樣本，產生不同結果。這時，學習演算法本身的"偏好"就會起到關鍵的作用. 機器學習演算法在學習過程中對某種型別假設的偏好，稱為"歸納偏好" (inductive bias),或簡稱為"偏好"。任何

學習筆記 | 機器學習-周志華 | 2

1.3 假設空間歸納 (induction)與演繹 (deduction)是科學推理的兩大基本手段。歸納：從特殊到一般的"泛化" (generalization)過程，即從具體的事實歸結出一般性規律。演繹：從一般到特殊的"特化" (specializa

學習筆記 | 機器學習-周志華 | 1

第一章緒論機器學習所研究的主要內容，是關於在計算機上從資料中產生模型（model）的演算法，即 “學習演算法”（learning algorithm） . 基本術語假定我們收集了一批關於西瓜的資料，例如(色澤=青綠;根蒂=蜷縮;敲聲=濁響)， (色澤=烏黑;根蒂:稍蜷;

機器學習-周志華-課後習題答案5.5

5.5 試程式設計實現標準BP演算法和累計BP演算法，在西瓜資料集3.0上分別用這兩個演算法訓練一個單隱層網路，並進行比較。通過程式設計實踐發現，在本例下要達到某一限定的均方誤差時，標準BP演算法比累積BP演算法明顯收斂更快，特別在本例中，將ABP演算法誤差設定到0.0

機器學習(周志華) 參考答案第十六章強化學習

機器學習(周志華西瓜書) 參考答案總目錄是時候讓自己的機器更強大一些了，順便完結撒花 1.用於K-搖臂賭博機的UCB方法每次選擇Q(k)+UC(k)的最大的搖臂，其中Q(k)為搖臂k當前的平均獎賞，UC(k)為置信區間。例如Q(k)

機器學習(周志華西瓜書) 參考答案總目錄

機器學習(周志華西瓜書)參考答案總目錄從剛開始學習機器學習到現在也有幾個月了，期間看過PDF，上過MOOC，總感覺知道一點了又不是特別明白，最後趁某東買書大減價弄了幾本相關的書來看看，其中一本就是西瓜書。一口氣看了前10章，感覺每章內容都很少，看完感覺還是和以前一樣。

機器學習--周志華（第1章）

第1章緒論符號學習--->統計機器學習機器學習中代數一般是作為基礎工具來使用總結：出頭露面的是概率和統計，埋頭苦幹的是代數和邏輯。機器學習是關於在計算機上從資料中產生“模型”的演算法，即學習演算法。學得模型對應了關於資料的某種潛在的規律，因此亦稱“假設”。這

機器學習(周志華) 參考答案第三章線性模型 3.3

一：matlab實現 1.資料的Excel處理西瓜資料集3.0 2.程式碼 # -*- coding: utf-8 -*- old_l = 0; n = 0; b = [0;0;1]; %對應書中（3.25）下的B=(w;b)，因為x有兩個屬性：

機器學習(周志華) 參考答案第一章緒論

機器學習(周志華) 參考答案第一章緒論機器學習(周志華西瓜書) 參考答案總目錄 1.表1.1中若只包含編號為1，4的兩個樣例，試給出相應的版本空間。假設空間指的是問題所有假設組成的空間，我們可以把學習過程看作是在假設空間中搜索的過程，

機器學習(周志華) 參考答案第十四章概率圖模型

機器學習(周志華西瓜書) 參考答案總目錄 1.試用盤式記法表示條件隨機場和樸素貝葉斯分類器。條件隨機場: 這樣畫的問題在於無法表示N個y之間的關係，到底怎麼畫我也不知道。樸素貝葉斯分類器:y依賴於所有的變數x 2.證明

機器學習-周志華-課後習題答案-線性模型

3.1試分析在什麼情況下，在以下式子中不比考慮偏置項b。答：線上性迴歸中，所有引數的確定都是為了讓殘差項的均值為0且殘差項的平方和最小。在所有其他引數項確定後，偏置項b（或者說是常數項）的變化體現出來的就是擬合曲線的上下整體浮動，可以看做是其他各個解釋變數留下的bias的線性

機器學習(周志華) 參考答案第四章決策樹 python重寫版與畫樹演算法

機器學習(周志華西瓜書) 參考答案總目錄機器學習(周志華) 參考答案第四章決策樹 3.試程式設計實現基於資訊熵進行劃分選擇的決策樹演算法，併為表4.3中資料生成一棵決策樹。最近在學著用python，所以用py重寫了以前的決策樹程式碼，

機器學習-周志華-個人練習11.1

相關推薦