臺大林軒田《機器學習基石》：作業三python實現

阿新 • • 發佈：2019-01-03

在學習和總結的過程中參考了不少別的博文，且自己的水平有限，如果有錯，希望能指出，共同學習，共同進步

13

13題題目描述

給定target function，我們的工作是在X=[-1,1]x[-1,1]上隨機產生1000個點，利用f(x1,x2)計算它的值，然後在基礎上新增10%的噪聲（二元分類的噪聲就是把10%的樣本的y值取相反數）。如果不做feacher transform 直接利用資料做線性迴歸，利用得到的引數做線性分類器，問此時得到的Ein是多少。執行1000次取平均值。

步驟：
1.隨機產生訓練樣本並新增噪聲
2.利用訓練樣本進行線性迴歸
3.用得到的線性迴歸引數w作為二元分類器的引數，計算sign(w*x)得到預測值，計算他與y的0/1錯誤，得到錯誤率E_in

程式碼如下：

import random
import numpy as np


# target function f(x1, x2) = sign(x1^2 + x2^2 - 0.6)
def target_function(x1, x2):
    if (x1 * x1 + x2 * x2 - 0.6) >= 0:
        return 1
    else:
        return -1


# create train_set
def training_data_with_random_error(num=1000):
    features = np.zeros((num, 3))
    labels = np.zeros((num, 1))

    points_x1 = np.array([round(random.uniform(-1, 1), 2) for i in range(num)])
    points_x2 = np.array([round(random.uniform(-1, 1), 2) for i in range(num)])

    for i in range(num):
        # create random feature
        features[i, 0] = 1
        features[i, 1] = points_x1[i]
        features[i, 2] = points_x2[i]
        labels[i] = target_function(points_x1[i], points_x2[i])
        # choose 10% error labels
        if i <= num * 0.1:
            if labels[i] < 0:
                labels[i] = 1
            else:
                labels[i] = -1
    return features, labels


def error_rate(features, labels, w):
    wrong = 0
    for i in range(len(labels)):
        if np.dot(features[i], w) * labels[i, 0] < 0:
            wrong += 1
    return wrong / (len(labels) * 1.0)


def linear_regression_closed_form(X, Y):
    """
        linear regression:
        model     : g(x) = Wt * X
        strategy  : squared error
        algorithm : close form(matrix)
        result    : w = (Xt.X)^-1.Xt.Y
        林老師上課講的公式
    """
    return np.linalg.inv(np.dot(X.T, X)).dot(X.T).dot(Y)


if __name__ == '__main__':

    # 13
    error_rate_array = []
    for i in range(1000):
        (features, labels) = training_data_with_random_error(1000)
        w13 = linear_regression_closed_form(features, labels)
        error_rate_array.append(error_rate(features, labels, w13))

    # error rate, approximately 0.5
    avr_err = sum(error_rate_array) / (len(error_rate_array) * 1.0)

    print("13--Linear regression for classification without feature transform:Average error--", avr_err)

執行結果是0.5079380000000009

14

14題題目描述

在第13題，直接利用邏輯迴歸做分類是很不理想的，錯誤率為50%,沒有實際意義。但是我們可以先進行特徵轉換，正確率就會高很多。我們要將特徵轉換到如題所示

與13題的不同在於多了一個feature_transform(features)方法，在1000次計算中比較得到最好的w

def feature_transform(features):
    new = np.zeros((len(features), 6))
    new[:, 0:3] = features[:, :] * 1
    new[:, 3] = features[:, 1] * features[:, 2]
    new[:, 4] = features[:, 1] * features[:, 1]
    new[:, 5] = features[:, 2] * features[:, 2]
    return new

main方法變為：

# 14
(features, labels) = training_data_with_random_error(1000)
new_features = feature_transform(features)
w14 = linear_regression_closed_form(new_features, labels)
min_error_in = float("inf")
# print(w14)
# plot_dot_pictures(features, labels, w)
error_rate_array = []
for i in range(1000):
    (features, labels) = training_data_with_random_error(1000)
    new_features = feature_transform(features)
    w = linear_regression_closed_form(new_features, labels)
    error_in = error_rate(new_features, labels, w)
    if error_in <= min_error_in:
        w14 = w
        min_error_in = error_in
    error_rate_array.append(error_in)
print("w14", w14)

執行結果為
w14 [[-0.95043879]
[ 0.02597952]
[ 0.00375311]
[ 0.00370397]
[ 1.54904793]
[ 1.60014614]]

15

15題題目描述

在14題得到的最優w的基礎上，我們利用產生訓練樣本的方法一樣產生1000個測試樣本，計算誤差。重複1000次求平均誤差

在14題的main方法裡新增：

# 15
error_out = []
for i in range(1000):
    (features, labels) = training_data_with_random_error(1000)
    new_features = feature_transform(features)
    error_out.append(error_rate(new_features, labels, w14))
print("15--Average of E_out is: ", sum(error_out) / (len(error_out) * 1.0))

執行結果為0.1176709999999998

18

18題題目描述

下載訓練樣本和測試樣本,進行邏輯迴歸。取迭代步長ita = 0.001,迭代次數T=2000，求E_out

梯度下降時注意公式轉化為程式碼

程式碼如下：

import numpy as np


def data_load(file_path):
    # open file and read lines
    f = open(file_path)
    try:
        lines = f.readlines()
    finally:
        f.close()

    # create features and labels array
    example_num = len(lines)
    feature_dimension = len(lines[0].strip().split())

    features = np.zeros((example_num, feature_dimension))
    features[:, 0] = 1
    labels = np.zeros((example_num, 1))

    for index, line in enumerate(lines):
        # items[0:-1]--features   items[-1]--label
        items = line.strip().split(' ')
        # get features
        features[index, 1:] = [float(str_num) for str_num in items[0:-1]]

        # get label
        labels[index] = float(items[-1])

    return features, labels


# gradient descent
def gradient_descent(X, y, w):
    # -YnWtXn
    tmp = -y * (np.dot(X, w))

    # θ(-YnWtXn) = exp(tmp)/1+exp(tmp)
    # weight_matrix = np.array([math.exp(_)/(1+math.exp(_)) for _ in tmp]).reshape(len(X), 1)
    weight_matrix = np.exp(tmp) / ((1 + np.exp(tmp)) * 1.0)
    gradient = 1 / (len(X) * 1.0) * (sum(weight_matrix * -y * X).reshape(len(w), 1))

    return gradient


# gradient descent
def stochastic_gradient_descent(X, y, w):
    # -YnWtXn
    tmp = -y * (np.dot(X, w))

    # θ(-YnWtXn) = exp(tmp)/1+exp(tmp)
    # weight = math.exp(tmp[0])/((1+math.exp(tmp[0]))*1.0)
    weight = np.exp(tmp) / ((1 + np.exp(tmp)) * 1.0)

    gradient = weight * -y * X
    return gradient.reshape(len(gradient), 1)


# LinearRegression Class
class LinearRegression:

    def __init__(self):
        pass

    # fit model
    def fit(self, X, y, Eta=0.001, max_iteration=2000, sgd=False):
        # ∂E/∂w = 1/N * ∑θ(-YnWtXn)(-YnXn)
        self.__w = np.zeros((len(X[0]), 1))

        # whether use stochastic gradient descent
        if not sgd:
            for i in range(max_iteration):
                self.__w = self.__w - Eta * gradient_descent(X, y, self.__w)
        else:
            index = 0
            for i in range(max_iteration):
                if (index >= len(X)):
                    index = 0
                self.__w = self.__w - Eta * stochastic_gradient_descent(np.array(X[index]), y[index], self.__w)
                index += 1

    # predict
    def predict(self, X):
        binary_result = np.dot(X, self.__w) >= 0
        return np.array([(1 if _ > 0 else -1) for _ in binary_result]).reshape(len(X), 1)

    # get vector w
    def get_w(self):
        return self.__w

    # score(error rate)
    def score(self, X, y):
        predict_y = self.predict(X)
        return sum(predict_y != y) / (len(y) * 1.0)


if __name__ == '__main__':
    # 18
    # training model
    (X, Y) = data_load("hw3_train.dat")
    lr = LinearRegression()
    lr.fit(X, Y, max_iteration=2000)

    # get 0/1 error in test data
    test_X, test_Y = data_load("hw3_test.dat")
    print("E_out: ", lr.score(test_X, test_Y))

執行結果為0.475

19

19題題目描述

把第18題的步長ita=0.001改為0.01，求E_out

只需要更改main函式裡的ita

# 19
# training model
(X, Y) = data_load("hw3_train.dat")
lr_eta = LinearRegression()
lr_eta.fit(X, Y, 0.01, 2000)
# get 0/1 error in test data
test_X, test_Y = data_load("hw3_test.dat")
print("E_out: ", lr_eta.score(test_X, test_Y))

執行結果為0.22

20

20題題目描述

ita取0.001，迭代2000次，利用隨機梯度下降法（Stostic Gradieng Descent）,求迭代2000次後的Eout

我在18題的程式碼中給出了隨機梯度下降的實現，只要在呼叫方法時將sgd設為True即可

# 20
(X, Y) = data_load("hw3_train.dat")
lr_sgd = LinearRegression()
lr_sgd.fit(X, Y, sgd=True, max_iteration=2000)
# get 0/1 error in test data
test_X, test_Y = data_load("hw3_test.dat")
print("E_out: ", lr_sgd.score(test_X, test_Y))

執行結果為0.473

臺大林軒田機器學習課程筆記4----訓練 VS. 測試

引言上一篇講到了在有限的hypotheses下，學習錯誤的發生率，即E_in與E_out不同的概率邊界，本篇將會探討在infinite hypotheses情況下的概率邊界。線的有效數字（Effective Number of Lines）我們先將學習劃分為兩個核心的問題

臺大林軒田機器學習課程筆記3----機器學習的可行性

引例先引入一個矛盾問題：圖3.1 圖案學習問題這是一道推理題，根據第一行和第二行圖形的規律分別輸出-1和+1，然後通過上述規則學習推理出第三行圖形的輸出。每個人通過學習所獲得的答案是會不一致的，例如通過對稱的規律可以得到第三行的圖形f=+1，而如果通過圖案

臺大林軒田機器學習課程筆記2----機器學習的分類

1. 根據輸出集合二分類根據輸出空間，二分類的輸出結果只有兩種，即y={-1,1}，具體的應用包括： *信用卡申請問題：Client Data=>Accept or Deny 郵件分類問題：Email Text=>Rubbish or Not 病人生病問

臺大林軒田機器學習課程筆記----機器學習初探及PLA演算法

機器學習初探 1、什麼是機器學習學習指的是一個人在觀察事物的過程中所提煉出的技能，相比於學習，機器學習指的就是讓計算機在一堆資料中通過觀察獲得某些經驗（即數學模型），從而提升某些方面（例如推薦系統的精度）的效能（可測量的）。 2、機器學習使用的條件需要有規則可以學習有事先準

臺大林軒田·機器學習技法記要

6/1/2016 7:42:34 PM 第一講線性SVM 廣義的SVM，其實就是二次規劃問題把SVM問題對應到二次規劃的係數這就是線性SVM，如果想變成非

林軒田機器學習基石入門（三）

上一節我們主要向大家介紹我們身邊機器學習的例子，這一節我們將探討機器學習由什麼元素組成（機器學習的模型結構）。首先我們先看個信用卡的例子。假設我們想用機器學習來判斷“是否同意貸款給這個客戶？”，我們會將使用者的資訊資料輸給模型（比如年齡，性別，職業，工

林軒田機器學習基石入門（二）

上一節中我們主要講到機器學習的應用場景，而這一節主要向大家介紹我們身邊機器學習的例子，讓大家對機器學習有更多的直觀瞭解。機器學習如今已滲透在我們的日行中，這很讓人驚訝，你每天都能夠接觸到它。對於人們來說“衣食住行”是每天的基礎要求。當你肚子餓想

臺灣大學林軒田機器學習基石課程學習筆記8 -- Noise and Error

上一節課，我們主要介紹了VC Dimension的概念。如果Hypotheses set的VC Dimension是有限的，且有足夠多N的資料，同時能夠找到一個hypothesis使它的Ein≈0Ein≈0，那麼就能說明機器學習是可行的。本節課主要講了資料集

林軒田-機器學習基石-作業3-python原始碼

大家好，以下是林軒田機器學習基石--作業3的Python的參考程式碼，自己碼的。Python方面沒有工程經驗，如有錯誤或者更好的程式碼優化方法，麻煩大家留言提醒一下下，大家互相交流學習，謝謝。 13-15題主要考察在分類問題上的線性迴歸和特徵轉換，所使用的樣

林軒田機器學習基石（Machine Learning Foundation）

第一課機器學習問題什麼是機器學習？什麼是“學習”？學習就是人類通過觀察、積累經驗，掌握某項技能或能力。就好像我們從小學習識別字母、認識漢字，就是學習的過程。而機器學習（Machine Learning），顧名思義，就是讓機器（計算機）也能向人類一樣，通過觀察大量

臺灣大學林軒田機器學習基石課程學習筆記1 -- The Learning Problem

最近在看NTU林軒田的《機器學習基石》課程，個人感覺講的非常好。整個基石課程分成四個部分： When Can Machine Learn? Why Can Machine Learn? How Can Machine Learn? How Can M

臺灣大學林軒田機器學習基石課程學習筆記6 -- Theory of Generalization

上一節課，我們主要探討了當M的數值大小對機器學習的影響。如果M很大，那麼就不能保證機器學習有很好的泛化能力，所以問題轉換為驗證M有限，即最好是按照多項式成長。然後通過引入了成長函式mH(N)mH(N)和dichotomy以及break point的概念，提出

臺大林軒田《機器學習基石》：作業三python實現

在學習和總結的過程中參考了不少別的博文，且自己的水平有限，如果有錯，希望能指出，共同學習，共同進步 13 給定target function，我們的工作是在X=[-1,1]x[-1,1]上隨機產生1000個點，利用f(x1,x2)計算它的值，然後

林軒田--機器學習技法--SVM筆記5--核邏輯迴歸(Kernel+Logistic+Regression)

核邏輯迴歸這一章節主要敘述的內容是如何使用SVM來做像logistics regression那樣的soft binary classification(輸出正類的概率值)，如何在此基礎上加上核方法。 1. 把SVM看成一種regularization

臺灣大學林軒田機器學習技法課程學習筆記1 -- Linear Support Vector Machine

關於臺灣大學林軒田老師的《機器學習基石》課程，我們已經總結了16節課的筆記。這裡附上基石第一節課的部落格地址：本系列同樣分成16節課，將會介紹《機器學習基石》的進階版《機器學習技法》，更深入地探討機器學習一些高階演算法和技巧。 Large-Marg

林軒田--機器學習技法--SVM筆記2--對偶支援向量機（dual+SVM）

對偶支援向量機咦？怎麼還有關於支援向量機的內容，我們不是在上一講已經將支援向量機解決了麼？怎麼又引入了對偶這個概念？ 1.動機我們在上一講已經講過，可以使用二次規劃來解決支援向量機的問題。如果現在想要解決非線性的支援向量機的問題，也很簡單，如下圖所

臺灣大學林軒田機器學習技法課程學習筆記8 -- Adaptive Boosting

上節課我們主要開始介紹Aggregation Models，目的是將不同的hypothesis得到的gtgt集合起來，利用集體智慧得到更好的預測模型G。首先我們介紹了Blending，blending是將已存在的所有gtgt結合起來，可以是uniformly

臺灣大學林軒田機器學習技法課程學習筆記10 -- Random Forest

上節課我們主要介紹了Decision Tree模型。Decision Tree演算法的核心是通過遞迴的方式，將資料集不斷進行切割，得到子分支，最終形成數的結構。C&RT演算法是決策樹比較簡單和常用的一種演算法，其切割的標準是根據純度來進行，每次切割都

《機器學習》程式設計作業的Python實現【ex1_multi.py】

Python程式碼 import numpy as np import matplotlib.pyplot as plt def featureNormalize(X): X_norm = X mu = np.zeros((1, X.shape[1])) sigma

《機器學習》程式設計作業的Python實現【ex1.py】

Python程式碼 from mpl_toolkits.mplot3d import Axes3D import numpy as np import matplotlib.pyplot as plt # ============= warmUpExercise ================

臺大林軒田《機器學習基石》：作業三python實現

13

14

15

18

19

20

相關推薦