吳恩達機器學習作業Python實現(一)：線性迴歸

單變數線性迴歸

在本部分的練習中，您將使用一個變數實現線性迴歸，以預測食品卡車的利潤。假設你是一家餐館的執行長，正在考慮不同的城市開設一個新的分店。該連鎖店已經在各個城市擁有卡車，而且你有來自城市的利潤和人口資料。
您希望使用這些資料來幫助您選擇將哪個城市擴充套件到下一個城市。

%matplotlib inline

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

匯入資料，並檢視

path =  'ex1data1.txt'
# names新增列名，header用指定的行來作為標題，若原無標題且指定標題則設為None 

data = pd.read_csv(path, header=None, names=['Population', 'Profit'])  
data.head()

data.describe()

在開始任何任務之前，通過視覺化來理解資料通常是有用的。
對於這個資料集，您可以使用散點圖來視覺化資料，因為它只有兩個屬性(利潤和人口)。
(你在現實生活中遇到的許多其他問題都是多維度的，不能在二維圖上畫出來。)

data.plot(kind='scatter', x='Population', y='Profit', figsize=(8,5))
plt.show()

現在讓我們使用梯度下降來實現線性迴歸，以最小化成本函式。以下程式碼示例中實現的方程在“練習”資料夾中的“ex1.pdf”中有詳細說明。

首先，我們將建立一個以引數θ為特徵函式的代價函式
$J\left( \theta \right)=\frac{1}{2m}\sum\limits_{i=1}^{m}{{{\left( {{h}_{\theta }}\left( {{x}^{(i)}} \right)-{{y}^{(i)}} \right)}^{2}}}$
其中： ${{h}_{\theta }}\left( x \right)={{\theta }^{T}}X={{\theta }_{0}}{{x}_{0}}+{{\theta }_{1}}{{x}_{1}}+{{\theta }_{2}}{{x}_{2}}+...+{{\theta }_{n}}{{x}_{n}}$

h_{θ} (x) = θ^{T} X = θ_{0} x_{0} + θ_{1} x_{1} + θ_{2} x_{2} + . . . + θ_{n} x_{n}

計算代價函式 $J(\theta)$

def computeCost(X, y, theta):
    inner = np.power(((X * theta.T) -  y), 2)
    return np.sum(inner) / (2 * len(X))

讓我們在訓練集中新增一列，以便我們可以使用向量化的解決方案來計算代價和梯度。

data.insert(0, 'Ones', 1)

現在我們來做一些變數初始化。

取最後一列為 y，其餘為 X

# set X (training data) and y (target variable)
cols = data.shape[1]  # 列數
X = data.iloc[:,0:cols-1]  # 取前cols-1列，即輸入向量
y = data.iloc[:,cols-1:cols] # 取最後一列，即目標向量

觀察下 X (訓練集) and y (目標變數)是否正確.

X.head()  # head()是觀察前5行

y.head()

注意：這裡我使用的是matix而不是array，兩者基本通用。

但是matrix的優勢就是相對簡單的運算子號，比如兩個矩陣相乘，就是用符號*，但是array相乘不能這麼用，得用方法.dot()
array的優勢就是不僅僅表示二維，還能表示3、4、5…維，而且在大部分Python程式裡，array也是更常用的。

兩者區別：

對應元素相乘：matrix可以用np.multiply(X2,X1)，array直接X1*X2
點乘：matrix直接X1*X2，array可以 X1@X2 或 X1.dot(X2) 或 np.dot(X1, X2)

代價函式是應該是numpy矩陣，所以我們需要轉換X和Y，然後才能使用它們。我們還需要初始化theta。

X = np.matrix(X.values)
y = np.matrix(y.values)
theta = np.matrix([0,0])

theta 是一個(1,2)矩陣

np.array([[0,0]]).shape 
# (1, 2)

看下維度，確保計算沒問題

X.shape, theta.shape, y.shape
# ((97, 2), (1, 2), (97, 1))

計算初始代價函式的值 (theta初始值為0).

computeCost(X, y, theta) # 32.072733877455676

##batch gradient decent（批量梯度下降）

$J\left( \theta \right)=\frac{1}{2m}\sum\limits{i=1}^{m}{{{\left( {{h}{\theta }}\left( {{x}^{(i)}} \right)-{{y}^{(i)}} \right)}^{2}}}$

其中：
${{h}_{\theta }}\left( x \right)={{\theta }^{T}}X={{\theta }_{0}}{{x}_{0}}+{{\theta }_{1}}{{x}_{1}}+{{\theta }_{2}}{{x}_{2}}+...+{{\theta }_{n}}{{x}_{n}}$
優化：
${{\theta }_{j}}:={{\theta }_{j}}-\alpha \frac{\partial }{\partial {{\theta }_{j}}}J\left( \theta \right)$

$\theta_j:=\theta_j-\alpha\frac{1}{m}\sum^{m}_{i=1}(h_\theta(x^{(i)}) - y^{(i)})x_j^{(i)}$
使用 vectorization同時更新所有的 θ，可以大大提高效率

X.shape, theta.shape, y.shape, X.shape[0]
# ((97, 2), (1, 2), (97, 1), 97)

def gradientDescent(X, y, theta, alpha, epoch):
    """reuturn theta, cost"""
    
    temp = np.matrix(np.zeros(theta.shape))  # 初始化一個 θ 臨時矩陣(1, 2)
    parameters = int(theta.flatten().shape[1])  # 引數 θ的數量
    cost = np.zeros(epoch)  # 初始化一個ndarray，包含每次epoch的cost
    m = X.shape[0]  # 樣本數量m
    
    for i in range(epoch):
        # 利用向量化一步求解
        temp =theta - (alpha / m) * (X * theta.T - y).T * X
        
# 以下是不用Vectorization求解梯度下降
#         error = (X * theta.T) - y  # (97, 1)
        
#         for j in range(parameters):
#             term = np.multiply(error, X[:,j])  # (97, 1)
#             temp[0,j] = theta[0,j] - ((alpha / m) * np.sum(term))  # (1,1)
            
         theta = temp
         cost[i] = computeCost(X, y, theta)
        
    return theta, cost

初始化一些附加變數 - 學習速率α和要執行的迭代次數。

alpha = 0.01
epoch = 1000

現在讓我們執行梯度下降演算法來將我們的引數θ適合於訓練集。

final_theta, cost = gradientDescent(X, y, theta, alpha, epoch)

最後，我們可以使用我們擬合的引數計算訓練模型的代價函式（誤差）。

computeCost(X, y, final_theta)

現在我們來繪製線性模型以及資料，直觀地看出它的擬合。

np.linspace()在指定的間隔內返回均勻間隔的數字。

x = np.linspace(data.Population.min(), data.Population.max(), 100)  # 橫座標
f = final_theta[0, 0] + (final_theta[0, 1] * x)  # 縱座標，利潤

fig, ax = plt.subplots(figsize=(6,4))
ax.plot(x, f, 'r', label='Prediction')
ax.scatter(data['Population'], data.Profit, label='Traning Data')
ax.legend(loc=2)  # 2表示在左上角
ax.set_xlabel('Population')
ax.set_ylabel('Profit')
ax.set_title('Predicted Profit vs. Population Size')
plt.show()

由於梯度方程式函式也在每個訓練迭代中輸出一個代價的向量，所以我們也可以繪製。請注意，線性迴歸中的代價函式總是降低的 - 這是凸優化問題的一個例子。

fig, ax = plt.subplots(figsize=(8,4))
ax.plot(np.arange(epoch), cost, 'r')  # np.arange()返回等差陣列
ax.set_xlabel('Iterations')
ax.set_ylabel('Cost')
ax.set_title('Error vs. Training Epoch')
plt.show()

##多變數線性迴歸

練習1還包括一個房屋價格資料集，其中有2個變數（房子的大小，臥室的數量）和目標（房子的價格）。我們使用我們已經應用的技術來分析資料集。

path =  'ex1data2.txt'
data2 = pd.read_csv(path, names=['Size', 'Bedrooms', 'Price'])
data2.head()

對於此任務，我們添加了另一個預處理步驟 - 特徵歸一化。這個對於pandas來說很簡單

data2 = (data2 - data2.mean()) / data2.std()
data2.head()

現在我們重複第1部分的預處理步驟，並對新資料集執行線性迴歸程式。

# add ones column
data2.insert(0, 'Ones', 1)

# set X (training data) and y (target variable)
cols = data2.shape[1]
X2 = data2.iloc[:,0:cols-1]
y2 = data2.iloc[:,cols-1:cols]

# convert to matrices and initialize theta
X2 = np.matrix(X2.values)
y2 = np.matrix(y2.values)
theta2 = np.matrix(np.array([0,0,0]))

# perform linear regression on the data set
g2, cost2 = gradientDescent(X2, y2, theta2, alpha, epoch)

# get the cost (error) of the model
computeCost(X2, y2, g2), g2

我們也可以快速檢視這一個的訓練程序。

fig, ax = plt.subplots(figsize=(12,8))
ax.plot(np.arange(epoch), cost2, 'r')
ax.set_xlabel('Iterations')
ax.set_ylabel('Cost')
ax.set_title('Error vs. Training Epoch')
plt.show()

我們也可以使用scikit-learn的線性迴歸函式，而不是從頭開始實現這些演算法。我們將scikit-learn的線性迴歸演算法應用於第1部分的資料，並看看它的表現。

from sklearn import linear_model
model = linear_model.LinearRegression()
model.fit(X, y)

scikit-learn model的預測表現

x = np.array(X[:, 1].A1)
f = model.predict(X).flatten()

fig, ax = plt.subplots(figsize=(8,5))
ax.plot(x, f, 'r', label='Prediction')
ax.scatter(data.Population, data. 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    吳恩達機器學習作業Python實現(一)：線性迴歸
      
							
							
							
單變數線性迴歸
在本部分的練習中，您將使用一個變數實現線性迴歸，以預測食品卡車的利潤。假設你是一家餐館的執行長，正在考慮不同的城市開設一個新的分店。該連鎖店已經在各個城市擁有卡車，而且你有來自城市的利潤和人口資料。
您希望使用這些資料來幫助您選擇將哪個城市擴充 

  
 

    

    
    吳恩達機器學習作業Python實現(六)：SVM支援向量機
      
							
							
							
1 Support Vector Machines
1.1 Example Dataset 1
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot 

  
 

    

    
    吳恩達機器學習作業（五）：支援向量機
       
 
 
 目錄 
 1）資料預處理 
 2）Scikit-learn支援向量機 
 3）決策邊界比較 
 4）非線性SVM 
 5）最優超引數 
 6）垃圾郵件過濾器 
 
 在本練習中，我們將使用支援向量機（SVM）來構建垃圾郵件分類器。 我們將從一些簡單的2D資料集開始使用SVM來檢視它們的工作原理。 

  
 

    

    
    吳恩達機器學習課程筆記章節二單變數線性迴歸
      1、模型描述 
Univariate（One variable）Linear Regression 
m=訓練樣本的數目，x's=輸入的變數/特徵，y's=輸出變數/目標變數 
 
2、代價函式 
基本定義： 
 
3、代價函式（一） 
回顧一下，前面一些定義： 
 
簡化的假設函式，theta0=0，得到假 

  
 

    

    
    吳恩達機器學習 Coursera 筆記(二) - 單變數線性迴歸
      Model and Cost Function 
1 模型概述 - Model Representation 
To establish notation for future use, we’ll use 

 x(i)
 

 the “input” variables (living area in t 

  
 

    

    
    吳恩達機器學習作業程式碼1
      一：當訓練集為1維時 
 
 #進行資料分析所需庫，可以看做是對numpy工具的補充
import pandas as pd
import numpy as np

#應該把Seaborn視為matplotlib的補充,作圖所用工具，在大多數情況下使用seaborn就能做出很具有吸引力的圖，而使用matplo 

  
 

    

    
    演算法工程師修仙之路：吳恩達機器學習作業（一）
       
  
  
 吳恩達機器學習筆記及作業程式碼實現中文版 
 第一個程式設計作業：單變數線性迴歸（python程式碼實現） 
  
 一元線性迴歸 
  
   問題描述 
    
    在本練習的這一部分中，您將使用只有單變數的線性迴歸方法預測餐車的利潤。 
    假設你是一家連鎖餐廳的執行長，正在 

  
 

    

    
    吳恩達機器學習筆記 —— 19 應用舉例：照片OCR（光學字符識別）
      參考   https   ocr   噪聲   也說   字符   www.   定位   cnblogs   http://www.cnblogs.com/xing901022/p/9374258.html
 
本章講述的是一個復雜的機器學習系統，通過它可以看到機器學習的系統是如何組裝起來的；另外也說明了一 

  
 

    

    
    吳恩達機器學習筆記4-單變量線性回歸
      alt   方法   bsp   目標   .com   函數   bubuko   機器學習   絕對值   今天看個5個課時的視頻，對假設函數、代價函數、以及梯度下降有了一個大概的了解。
假設函數：
代價函數：
我們的目標就是求得J的最小值
梯度下降：在一個上坡上找一個點，求得這個點周圍的絕對值最大的導數 

  
 

    

    
    吳恩達機器學習（第七章）---邏輯迴歸
       
 
 一、邏輯迴歸 
 邏輯迴歸通俗的理解就是，對已知類別的資料進行學習之後，對新得到的資料判斷其是屬於哪一類的。 
 eg:對垃圾郵件和非垃圾郵件進行分類，腫瘤是惡性還是良性等等。 
 1.為什麼要用邏輯迴歸： 
 對於腫瘤的例子： 
  
  在外面不考慮最右邊的樣本的時候我們擬合的線性迴歸 

  
 

    

    
    吳恩達機器學習訓練祕籍整理一到十章（一）
       
 
 第一到四章： 
 1.為什麼選用機器學習策略。機器學習是無數重要應用的基礎。 
 2.先修知識與符號標記。有監督學習的經驗。瞭解機器學習。 
 3.驅動機器學習發展的原因。資料的可用性和計算規模。 
 傳統演算法和神經網路演算法在資料集較小的情況下區別不大，但是隨著資料集的增加和網路層數的加深，效果 

  
 

    

    
    Coursera吳恩達機器學習教程筆記（一）
      
                    人工智慧行業如火如荼，想要入門人工智慧，吳恩達老師的機器學習課程絕對是不二之選（當然，這不是我說的，是廣大網友共同認為的）    教程的地址連結：    有的同學可能進不去這個網站，解決辦法參照如下連結：    這個辦法本人親測有效，因為我看的時候也打不開（囧！！）  

  
 

    

    
    吳恩達機器學習筆記 —— 19 應用舉例：照片OCR（光學字元識別）
      
本章講述的是一個複雜的機器學習系統，通過它可以看到機器學習的系統是如何組裝起來的；另外也說明了一個複雜的流水線系統如何定位瓶頸與分配資源。


OCR的問題就是根據圖片識別圖片中的文字：

這種OCR識別的問題可以理解成三個步驟：

文字檢測
字元切分
字元識別


文字檢測
文字的檢測可以用行人的檢測來做 

  
 

    

    
    吳恩達機器學習筆記21-正則化線性回歸(Regularized Linear Regression)
      減少   ear   額外   利用   line   pan   兩種   方程   res   　　對於線性回歸的求解，我們之前推導了兩種學習算法：一種基於梯度下降，一種基於正規方程。　　正則化線性回歸的代價函數為：

　　如果我們要使用梯度下降法令這個代價函數最小化，因為我們未對theta0進行正則化， 

  
 

    

    
    吳恩達機器學習筆記59-向量化：低秩矩陣分解與均值歸一化（Vectorization: Low Rank Matrix Factorization & Mean Normalization）
      接受   span   amp   14.   實現   新的   mean   情況   rank   一、向量化：低秩矩陣分解　　
　　之前我們介紹了協同過濾算法，本節介紹該算法的向量化實現，以及說說有關該算法可以做的其他事情。
　　舉例：1.當給出一件產品時，你能否找到與之相關的其它產品。2.一位用 

  
 

    

    
    機器學習 | 吳恩達機器學習第四周程式設計作業(Python版本)
       
 
 實驗指導書       下載密碼:u8dl 
 本篇部落格主要講解，吳恩達機器學習第四周的程式設計作業，作業內容主要是對手寫數字進行識別，是一個十分類問題，要求使用兩種不同的方法實現：一是用之前講過的邏輯迴歸實現手寫數字識別，二是用本週講的神經網路實現手寫數字 

  
 

    

    
    機器學習 | 吳恩達機器學習第二週程式設計作業(Python版）
       
 
 實驗指導書   下載密碼:hso0 
 本篇部落格主要講解，吳恩達機器學習第二週的程式設計作業，作業內容主要是實現單元/多元線性迴歸演算法。實驗的原始版本是用Matlab實現的，本篇部落格主要用Python來實現。 
   
 目錄 
 1.實驗包含的檔案 
 2.單元 

  
 

    

    
    機器學習 | 吳恩達機器學習第三週程式設計作業(Python版)
       
 
 實驗指導書  下載密碼:fja4 
 本篇部落格主要講解，吳恩達機器學習第三週的程式設計作業，作業內容主要是利用邏輯迴歸演算法(正則化)進行二分類。實驗的原始版本是用Matlab實現的，本篇部落格主要用Python來實現。 
   
 目錄 
 1.實驗包含的檔案 
 2.使用邏 

  
 

    

    
    機器學習 | 吳恩達機器學習第八週程式設計作業(Python版）
       
 
 實驗指導書   下載密碼:higl 
 本篇部落格主要講解，吳恩達機器學習第八週的程式設計作業，主要包含KMeans實驗和PCA實驗兩部分。原始實驗使用Matlab實現，本篇部落格提供Python版本。 
 目錄 
 1.實驗包含的檔案 
 2.KMeans實驗 
 3.K-me 

  
 

    

    
    機器學習 | 吳恩達機器學習第七週程式設計作業(Python版)
       
 
 實驗指導書  下載密碼:a15g 
 本篇部落格主要講解，吳恩達機器學習第七週的程式設計作業，包含兩個實驗，一是線性svm和帶有高斯核函式的svm的基本使用；二是利用svm進行垃圾郵件分類。原始實驗使用Matlab實現，本篇部落格提供Python版本。 
   
 目錄 
 1.