1. 程式人生 > >《機器學習系列教程》:第二章 機器學習基礎

《機器學習系列教程》:第二章 機器學習基礎

第二章 機器學習基礎

機器學習and 資料分析

機器學習and 資料分析

機器學習基本術語

泛化誤差和經驗誤差

過擬合和欠擬合

模型選擇依據

2.2 監督學習、非監督學習、半監督學習、弱監督學習?

根據資料型別的不同,對一個問題的建模有不同的方式。依據不同的學習方式和輸入資料,機器學習主要分為以下四種學習方式。

監督學習

  1. 監督學習是使用已知正確答案的示例來訓練網路。已知資料和其一一對應的標籤,訓練一個智慧演算法,將輸入資料對映到標籤的過程。
  2. 監督式學習的常見應用場景如分類問題和迴歸問題。
  3. 常見演算法有邏輯迴歸(Logistic Regression)和反向傳遞神經網路(Back Propagation Neural Network)

非監督式學習

  1. 在非監督式學習中,資料並不被特別標識,適用於你具有資料集但無標籤的情況。學習模型是為了推斷出資料的一些內在結構。
  2. 常見的應用場景包括關聯規則的學習以及聚類等。
  3. 常見演算法包括Apriori演算法以及k-Means演算法。
  4. 聚類方法

半監督式學習

  1. 在此學習方式下,輸入資料部分被標記,部分沒有被標記,這種學習模型可以用來進行預測。
  2. 應用場景包括分類和迴歸,演算法包括一些對常用監督式學習演算法的延伸,通過對已標記資料建模,在此基礎上,對未標記資料進行預測。
  3. 常見演算法如圖論推理演算法(Graph Inference)或者拉普拉斯支援向量機(Laplacian SVM)等。

弱監督學習

  1. 弱監督學習可以看做是有多個標記的資料集合,次集合可以是空集,單個元素,或包含多種情況(沒有標記,有一個標記,和有多個標記)的多個元素。
  2. 資料集的標籤是不可靠的,這裡的不可靠可以是標記不正確,多種標記,標記不充分,區域性標記等。
  3. 已知資料和其一一對應的弱標籤,訓練一個智慧演算法,將輸入資料對映到一組更強的標籤的過程。標籤的強弱指的是標籤蘊含的資訊量的多少,比如相對於分割的標籤來說,分類的標籤就是弱標籤。
  4. 舉例,告訴一張包含氣球的圖片,需要得出氣球在圖片中的位置及氣球和背景的分割線,這就是已知弱標籤學習強標籤的問題。

在企業資料應用的場景下, 人們最常用的可能就是監督式學習和非監督式學習的模型。 在影象識別等領域,由於存在大量的非標識的資料和少量的可標識資料, 目前半監督式學習是一個很熱的話題。 k-means

學習向量

高斯混合聚類

k近鄰學習器

最近鄰學習器和貝葉斯最優分類器

維數災難

主成分分析

距離度量學習

距離度量學習

2.3 監督學習有哪些步驟

監督式學習: 監督學習是使用已知正確答案的示例來訓練網路。每組訓練資料有一個明確的標識或結果,想象一下,我們可以訓練一個網路,讓其從照片庫中(其中包含氣球的照片)識別出氣球的照片。以下就是我們在這個假設場景中所要採取的步驟。 步驟1:資料集的建立和分類 首先,瀏覽你的照片(資料集),確定所有包含氣球的照片,並對其進行標註。然後,將所有照片分為訓練集和驗證集。目標就是在深度網路中找一函式,這個函式輸入是任意一張照片,當照片中包含氣球時,輸出1,否則輸出0。 步驟2:訓練 選擇合適的模型,模型可通過以下啟用函式對每張照片進行預測。既然我們已經知道哪些是包含氣球的圖片,那麼我們就可以告訴模型它的預測是對還是錯。然後我們會將這些資訊反饋(feed back)給網路。 該演算法使用的這種反饋,就是一個量化“真實答案與模型預測有多少偏差”的函式的結果。這個函式被稱為成本函式(cost function),也稱為目標函式(objective function),效用函式(utility function)或適應度函式(fitness function)。然後,該函式的結果用於修改一個稱為反向傳播(backpropagation)過程中節點之間的連線強度和偏差。 我們會為每個圖片都重複一遍此操作,而在每種情況下,演算法都在儘量最小化成本函式。 其實,我們有多種數學技術可以用來驗證這個模型是正確還是錯誤的,但我們常用的是一個非常常見的方法,我們稱之為梯度下降(gradient descent)。 步驟3:驗證 當處理完訓練集所有照片,接著要去測試該模型。利用驗證集來來驗證訓練有素的模型是否可以準確地挑選出含有氣球在內的照片。 在此過程中,通常會通過調整和模型相關的各種事物(超引數)來重複步驟2和3,諸如裡面有多少個節點,有多少層,哪些數學函式用於決定節點是否亮起,如何在反向傳播階段積極有效地訓練權值等等。 步驟4:測試及應用 當有了一個準確的模型,就可以將該模型部署到你的應用程式中。你可以將模型定義為API呼叫,並且你可以從軟體中呼叫該方法,從而進行推理並給出相應的結果。

2.4 多例項學習?

多示例學習(multiple instance learning) :已知包含多個數據的資料包和資料包的標籤,訓練智慧演算法,將資料包對映到標籤的過程,在有的問題中也同時給出包內每個資料的標籤。 比如說一段視訊由很多張圖組成,假如10000張,那麼我們要判斷視訊裡是否包含某一物體,比如氣球。單張標註每一幀是否有氣球太耗時,通常人們看一遍說這個視訊裡是否有氣球,就得到了多示例學習的資料。10000幀的資料不是每一個都有氣球出現,只要有一幀有氣球,那麼我們就認為這個資料包是有氣球的。只有當所有的視訊幀都沒有氣球,才是沒有氣球的。從這裡面學習哪一段視訊(10000張)是否有氣球出現就是多例項學習的問題。

2.5 分類網路和迴歸的區別?

2.3小節介紹了包含氣球照片的資料集整理。當照片中包含氣球時,輸出1,否則輸出0。此步驟通常稱為分類任務(categorization task)。在這種情況下,我們進行的通常是一個結果為yes or no的訓練。 但事實上,監督學習也可以用於輸出一組值,而不僅僅是0或1。例如,我們可以訓練一個網路,用它來輸出一張圖片上有氣球的概率,那麼在這種情況下,輸出值就是0到1之間的任意值。這些任務我們稱之為迴歸。

2.6 什麼是神經網路?

神經網路就是按照一定規則將多個神經元連線起來的網路。不同的神經網路,具有不同的連線規則。 例如全連線(full connected, FC)神經網路,它的規則包括:

  1. 有三種層:輸入層,輸出層,隱藏層。
  2. 同一層的神經元之間沒有連線。
  3. full connected的含義:第 N 層的每個神經元和第 N-1 層的所有神經元相連,第 N-1 層神經元的輸出就是第 N 層神經元的輸入。
  4. 每個連線都有一個權值。 神經網路架構 下面這張圖就是一個神經網路系統,它由很多層組成。輸入層負責接收資訊,比如一隻貓的圖片。輸出層是計算機對這個輸入資訊的判斷結果,它是不是貓。隱藏層就是對輸入資訊的傳遞和加工處理。

2.7 常用分類演算法的優缺點?

演算法 優點 缺點
Bayes 貝葉斯分類法 1)所需估計的引數少,對於缺失資料不敏感。2)有著堅實的數學基礎,以及穩定的分類效率。 1)假設屬性之間相互獨立,這往往並不成立。(喜歡吃番茄、雞蛋,卻不喜歡吃番茄炒蛋)。2)需要知道先驗概率。3)分類決策存在錯誤率。
Decision Tree決策樹 1)不需要任何領域知識或引數假設。2)適合高維資料。3)簡單易於理解。4)短時間內處理大量資料,得到可行且效果較好的結果。5)能夠同時處理資料型和常規性屬性。 1)對於各類別樣本數量不一致資料,資訊增益偏向於那些具有更多數值的特徵。2)易於過擬合。3)忽略屬性之間的相關性。4)不支援線上學習。
SVM支援向量機 1)可以解決小樣本下機器學習的問題。2)提高泛化效能。3)可以解決高維、非線性問題。超高維文字分類仍受歡迎。4)避免神經網路結構選擇和區域性極小的問題。 1)對缺失資料敏感。2)記憶體消耗大,難以解釋。3)執行和調差略煩人。
KNN K近鄰 1)思想簡單,理論成熟,既可以用來做分類也可以用來做迴歸; 2)可用於非線性分類; 3)訓練時間複雜度為O(n); 4)準確度高,對資料沒有假設,對outlier不敏感; 1)計算量太大2)對於樣本分類不均衡的問題,會產生誤判。3)需要大量的記憶體。4)輸出的可解釋性不強。
Logistic Regression邏輯迴歸 1)速度快。2)簡單易於理解,直接看到各個特徵的權重。3)能容易地更新模型吸收新的資料。4)如果想要一個概率框架,動態調整分類閥值。 特徵處理複雜。需要歸一化和較多的特徵工程。
Neural Network 神經網路 1)分類準確率高。2)並行處理能力強。3)分散式儲存和學習能力強。4)魯棒性較強,不易受噪聲影響。 1)需要大量引數(網路拓撲、閥值、閾值)。2)結果難以解釋。3)訓練時間過長。
Adaboosting 1)adaboost是一種有很高精度的分類器。2)可以使用各種方法構建子分類器,Adaboost演算法提供的是框架。3)當使用簡單分類器時,計算出的結果是可以理解的。而且弱分類器構造極其簡單。4)簡單,不用做特徵篩選。5)不用擔心overfitting。 對outlier比較敏感

2.8 正確率能很好的評估分類演算法嗎?

不同演算法有不同特點,在不同資料集上有不同的表現效果,根據特定的任務選擇不同的演算法。如何評價分類演算法的好壞,要做具體任務具體分析。對於決策樹,主要用正確率去評估,但是其他演算法,只用正確率能很好的評估嗎? 答案是否定的。 正確率確實是一個很直觀很好的評價指標,但是有時候正確率高並不能完全代表一個演算法就好。比如對某個地區進行地震預測,地震分類屬性分為0:不發生地震、1發生地震。我們都知道,不發生的概率是極大的,對於分類器而言,如果分類器不加思考,對每一個測試樣例的類別都劃分為0,達到99%的正確率,但是,問題來了,如果真的發生地震時,這個分類器毫無察覺,那帶來的後果將是巨大的。很顯然,99%正確率的分類器並不是我們想要的。出現這種現象的原因主要是資料分佈不均衡,類別為1的資料太少,錯分了類別1但達到了很高的正確率缺忽視了研究者本身最為關注的情況。

2.9 分類演算法的評估方法?

  1. 幾個常用的術語 這裡首先介紹幾個常見的 模型評價術語,現在假設我們的分類目標只有兩類,計為正例(positive)和負例(negative)分別是:
  1. True positives(TP): 被正確地劃分為正例的個數,即實際為正例且被分類器劃分為正例的例項數(樣本數);
  2. False positives(FP): 被錯誤地劃分為正例的個數,即實際為負例但被分類器劃分為正例的例項數;
  3. False negatives(FN):被錯誤地劃分為負例的個數,即實際為正例但被分類器劃分為負例的例項數;
  4. True negatives(TN): 被正確地劃分為負例的個數,即實際為負例且被分類器劃分為負例的例項數。

上圖是這四個術語的混淆矩陣。 1)P=TP+FN表示實際為正例的樣本個數。 2)True、False描述的是分類器是否判斷正確。 3)Positive、Negative是分類器的分類結果,如果正例計為1、負例計為-1,即positive=1、negative=-1。用1表示True,-1表示False,那麼實際的類標=TF*PN,TF為true或false,PN為positive或negative。 4)例如True positives(TP)的實際類標=1*1=1為正例,False positives(FP)的實際類標=(-1)*1=-1為負例,False negatives(FN)的實際類標=(-1)*(-1)=1為正例,True negatives(TN)的實際類標=1*(-1)=-1為負例。

  1. 評價指標
    1. 正確率(accuracy) 正確率是我們最常見的評價指標,accuracy = (TP+TN)/(P+N),正確率是被分對的樣本數在所有樣本數中的佔比,通常來說,正確率越高,分類器越好。
    2. 錯誤率(error rate) 錯誤率則與正確率相反,描述被分類器錯分的比例,error rate = (FP+FN)/(P+N),對某一個例項來說,分對與分錯是互斥事件,所以accuracy =1 - error rate。
    3. 靈敏度(sensitive) sensitive = TP/P,表示的是所有正例中被分對的比例,衡量了分類器對正例的識別能力。
    4. 特效度(specificity) specificity = TN/N,表示的是所有負例中被分對的比例,衡量了分類器對負例的識別能力。
    5. 精度(precision) 精度是精確性的度量,表示被分為正例的示例中實際為正例的比例,precision=TP/(TP+FP)。
    6. 召回率(recall) 召回率是覆蓋面的度量,度量有多個正例被分為正例,recall=TP/(TP+FN)=TP/P=sensitive,可以看到召回率與靈敏度是一樣的。
    7. 其他評價指標 計算速度:分類器訓練和預測需要的時間; 魯棒性:處理缺失值和異常值的能力; 可擴充套件性:處理大資料集的能力; 可解釋性:分類器的預測標準的可理解性,像決策樹產生的規則就是很容易理解的,而神經網路的一堆引數就不好理解,我們只好把它看成一個黑盒子。
    8. 查準率和查全率反映了分類器分類效能的兩個方面。如果綜合考慮查準率與查全率,可以得到新的評價指標F1測試值,也稱為綜合分類率: 為了綜合多個類別的分類情況,評測系統整體效能,經常採用的還有微平均F1(micro-averaging)和巨集平均F1(macro-averaging )兩種指標。巨集平均F1與微平均F1是以兩種不同的平均方式求的全域性的F1指標。其中巨集平均F1的計算方法先對每個類別單獨計算F1值,再取這些F1值的算術平均值作為全域性指標。而微平均F1的計算方法是先累加計算各個類別的a、b、c、d的值,再由這些值求出F1值。由兩種平均F1的計算方式不難看出,巨集平均F1平等對待每一個類別,所以它的值主要受到稀有類別的影響,而微平均F1平等考慮文件集中的每一個文件,所以它的值受到常見類別的影響比較大。 ROC曲線和PR曲線

References [1] 李航. 統計學習方法[M]. 北京:清華大學出版社,2012.

2.10 什麼樣的分類器是最好的?

對某一個任務,某個具體的分類器不可能同時滿足或提高所有上面介紹的指標。 如果一個分類器能正確分對所有的例項,那麼各項指標都已經達到最優,但這樣的分類器往往不存在。比如之前說的地震預測,既然不能百分百預測地震的發生,但實際情況中能容忍一定程度的誤報。假設在1000次預測中,共有5次預測發生了地震,真實情況中有一次發生了地震,其他4次則為誤報。正確率由原來的999/1000=99.9下降為996/10000=99.6。召回率由0/1=0%上升為1/1=100%。對此解釋為,雖然預測失誤了4次,但真的地震發生前,分類器能預測對,沒有錯過,這樣的分類器實際意義更為重大,正是我們想要的。在這種情況下,在一定正確率前提下,要求分類器的召回率儘量高。

2.11 大資料與深度學習的關係

大資料通常被定義為“超出常用軟體工具捕獲,管理和處理能力”的資料集。 機器學習關心的問題是如何構建計算機程式使用經驗自動改進。 資料探勘是從資料中提取模式的特定演算法的應用。 在資料探勘中,重點在於演算法的應用,而不是演算法本身。

機器學習和資料探勘之間的關係如下: 資料探勘是一個過程,在此過程中機器學習演算法被用作提取資料集中的潛在有價值模式的工具。 大資料與深度學習關係總結如下:

  1. 深度學習是一種模擬大腦的行為。可以從所學習物件的機制以及行為等等很多相關聯的方面進行學習,模仿型別行為以及思維。
  2. 深度學習對於大資料的發展有幫助。深度學習對於大資料技術開發的每一個階段均有幫助,不管是資料的分析還是挖掘還是建模,只有深度學習,這些工作才會有可能一一得到實現。
  3. 深度學習轉變了解決問題的思維。很多時候發現問題到解決問題,走一步看一步不是一個主要的解決問題的方式了,在深度學習的基礎上,要求我們從開始到最後都要基於哦那個一個目標,為了需要優化的那個最終目的去進行處理資料以及將資料放入到資料應用平臺上去。
  4. 大資料的深度學習需要一個框架。在大資料方面的深度學習都是從基礎的角度出發的,深度學習需要一個框架或者一個系統總而言之,將你的大資料通過深度分析變為現實這就是深度學習和大資料的最直接關係。

2.12 理解區域性最優與全域性最優

笑談區域性最優和全域性最優

柏拉圖有一天問老師蘇格拉底什麼是愛情?蘇格拉底叫他到麥田走一次,摘一顆最大的麥穗回來,不許回頭,只可摘一次。柏拉圖空著手出來了,他的理由是,看見不錯的,卻不知道是不是最好的,一次次僥倖,走到盡頭時,才發現還不如前面的,於是放棄。蘇格拉底告訴他:“這就是愛情。”這故事讓我們明白了一個道理,因為生命的一些不確定性,所以全域性最優解是很難尋找到的,或者說根本就不存在,我們應該設定一些限定條件,然後在這個範圍內尋找最優解,也就是區域性最優解——有所斬獲總比空手而歸強,哪怕這種斬獲只是一次有趣的經歷。 柏拉圖有一天又問什麼是婚姻?蘇格拉底叫他到彬樹林走一次,選一棵最好的樹做聖誕樹,也是不許回頭,只許選一次。這次他一身疲憊地拖了一棵看起來直挺、翠綠,卻有點稀疏的杉樹回來,他的理由是,有了上回的教訓,好不容易看見一棵看似不錯的,又發現時間、體力已經快不夠用了,也不管是不是最好的,就拿回來了。蘇格拉底告訴他:“這就是婚姻。

優化問題一般分為區域性最優和全域性最優。

  1. 區域性最優,就是在函式值空間的一個有限區域內尋找最小值;而全域性最優,是在函式值空間整個區域尋找最小值問題。
  2. 函式區域性最小點是那種它的函式值小於或等於附近點的點。但是有可能大於較遠距離的點。
  3. 全域性最小點是那種它的函式值小於或等於所有的可行點。

2.13 理解邏輯迴歸

迴歸劃分: 廣義線性模型家族裡,依據因變數不同,可以有如下劃分:

  1. 如果是連續的,就是多重線性迴歸;
  2. 如果是二項分佈,就是Logistic迴歸;
  3. 如果是Poisson分佈,就是Poisson迴歸;
  4. 如果是負二項分佈,就是負二項迴歸。 Logistic迴歸的因變數可以是二分類的,也可以是多分類的,但是二分類的更為常用,也更加容易解釋。所以實際中最常用的就是二分類的Logistic迴歸。

Logistic迴歸的適用性

  1. 用於概率預測。用於可能性預測時,得到的結果有可比性。比如根據模型進而預測在不同的自變數情況下,發生某病或某種情況的概率有多大;
  2. 用於分類。實際上跟預測有些類似,也是根據模型,判斷某人屬於某病或屬於某種情況的概率有多大,也就是看一下這個人有多大的可能性是屬於某病。進行分類時,僅需要設定一個閾值即可,可能性高於閾值是一類,低於閾值是另一類。
  3. 尋找危險因素。尋找某一疾病的危險因素等。
  4. 僅能用於線性問題。只有當目標和特徵是線性關係時,才能用邏輯迴歸。在應用邏輯迴歸時注意兩點:一是當知道模型是非線性時,不適用邏輯迴歸;二是當使用邏輯迴歸時,應注意選擇和目標為線性關係的特徵。
  5. 各特徵之間不需要滿足條件獨立假設,但各個特徵的貢獻獨立計算。

2.14 邏輯迴歸與樸素貝葉斯有什麼區別?

  1. 邏輯迴歸時生成模型,樸素貝葉斯是判別模型,所以生成和判別的所有區別它們都有。
  2. 樸素貝葉斯屬於貝葉斯,邏輯迴歸是最大似然,兩種概率哲學間的區別。
  3. 樸素貝葉斯需要獨立假設。
  4. 邏輯迴歸需要求特徵引數間是線性的。

2.15 線性迴歸與邏輯迴歸的區別?(貢獻者:黃欽建-華南理工大學)

線性迴歸的樣本的輸出,都是連續值,$ y\in (-\infty ,+\infty ),而邏輯迴歸中y\in (0,1)$,只能取0和1。

對於擬合函式也有本質上的差別:

線性迴歸:f(x)=θTx=θ1x1+θ2x2+...+θnxnf(x)=\theta ^{T}x=\theta _{1}x _{1}+\theta _{2}x _{2}+...+\theta _{n}x _{n}

邏輯迴歸:f(x)=P(y=1x;θ)=g(θTx)f(x)=P(y=1|x;\theta )=g(\theta ^{T}x),其中,g(z)=11+ezg(z)=\frac{1}{1+e^{-z}}

可以看出,線性迴歸的擬合函式,是對f(x)的輸出變數y的擬合,而邏輯迴歸的擬合函式是對為1類的樣本的概率的擬合。

那麼,為什麼要以1類樣本的概率進行擬合呢,為什麼可以這樣擬合呢?

θTx=0\theta ^{T}x=0就相當於是1類和0類的決策邊界:

θTx>0\theta ^{T}x>0,則y>0.5;若$\theta ^{T}x\rightarrow +\infty ,則y \rightarrow 1 $,即y為1類;

θTx&lt;0\theta ^{T}x&lt;0,則y<0.5;若$\theta ^{T}x\rightarrow -\infty ,則y \rightarrow 0 $,即y為0類;

這個時候就能看出區別來了,線上性迴歸中θTx\theta ^{T}x為預測值的擬合函式;而在邏輯迴歸中θTx\theta ^{T}x為決策邊界。

線性迴歸 邏輯迴歸
目的 預測 分類
y(i)y^{(i)} 未知 (0,1)
函式 擬合函式 預測函式
引數計算方式 最小二乘法 極大似然估計

下面具體解釋一下:

  1. 擬合函式和預測函式什麼關係呢?其實就是將擬合函式做了一個邏輯函式的轉換,轉換後使得y(i)(0,1)y^{(i)} \in (0,1);

  2. 最小二乘和最大似然估計可以相互替代嗎?回答當然是不行了。我們來看看兩者依仗的原理:最大似然估計是計算使得資料出現的可能性最大的引數,依仗的自然是Probability。而最小二乘是計算誤差損失。

2.16 為什麼需要代價函式?

  1. 為了得到訓練邏輯迴歸模型的引數,需要一個代價函式,通過訓練代價函式來得到引數。
  2. 用於找到最優解的目的函式。

2.17 代價函式作用原理

在迴歸問題中,通過代價函式來求解最優解,常用的是平方誤差代價函式。有如下假設函式: h(x)=A+Bx h(x) = A + Bx 假設函式中有AABB兩個引數,當引數發生變化時,假設函式狀態也會隨著變化。 如下圖所示

想要你和圖中的離散點,我們需要儘可能找到最優的AABB來使這條直線更能代表所有資料。如何找到最優解呢,這就需要使用代價函式來求解,以平方誤差代價函式為例,假設函式為h(x)=θ0xh(x)=\theta_0x。 平方誤差代價函式的主要思想 平方誤差代價函式的主要思想就是將實際資料給出的值與擬合出的線的對應值做差,求出擬合出的直線與實際的差距。在實際應用中,為了避免因個別極端資料產生的影響,採用類似方差再取二分之一的方式來減小個別數據的影響。因此,引出代價函式: J(θ0,θ1)=1mi=1m(h(x(i))y(i))2 J(\theta_0, \theta_1) = \frac{1}{m}\sum_{i=1}^m(h(x^{(i)})-y^{(i)})^2

最優解即為代價函式的最小值minJ(θ0,θ1)\min J(\theta_0, \theta_1)。如果是1個引數,代價函式一般通過二維曲線便可直觀看出。如果是2個引數,代價函式通過三維影象可看出效果,引數越多,越複雜。 當引數為2個時,代價函式是三維影象。

2.18 為什麼代價函式要非負?

目標函式存在一個下界,在優化過程當中,如果優化演算法能夠使目標函式不斷減小,根據單調有界準則,這個優化演算法就能證明是收斂有效的。 只要設計的目標函式有下界,基本上都可以,代價函式非負更為方便。

2.19 常見代價函式?

  1. 二次代價函式(quadratic cost)J=12nxy(x)aL(x)2 J = \frac{1}{2n}\sum_x\Vert y(x)-a^L(x)\Vert^2

其中,JJ表示代價函式,xx表示樣本,yy示實際值,aa表示輸出值,nn表示樣本的總數。使用一個樣本為例簡單說明,此時二次代價函式為: J=(ya)22 J = \frac{(y-a)^2}{2}

假如使用梯度下降法(Gradient descent)來調整權值引數的大小,權值ww和偏置bb的梯度推導如下: δJδw=(ay)δ(z)x\frac{\delta J}{\delta w}=(a-y)\delta&#x27;(z)x