最優化：一維搜尋的Wolfe條件與Goldstein條件

line search（一維搜尋，或線搜尋）是最優化（Optimization）演算法中的一個基礎步驟/演算法。它可以分為精確的一維搜尋以及不精確的一維搜尋兩大類。
在本文中，我想用“人話”解釋一下不精確的一維搜尋的兩大準則：Armijo-Goldstein準則＆ Wolfe-Powell準則。
之所以這樣說，是因為我讀到的所有最優化的書或資料，從來沒有一個可以用初學者都能理解的方式來解釋這兩個準則，它們要麼是長篇大論、把一堆數學公式丟給你去琢磨；要麼是簡短省略、直接略過了解釋的步驟就一句話跨越千山萬水得出了結論。
每當看到這些書的時候，我腦子裡就一個反應：你們就不能寫人話嗎？

我下面就嘗試用通俗的語言來描述一下這兩個準則。

【1】為什麼要遵循這些準則由於採用了不精確的一維搜尋，所以，為了能讓演算法收斂（即：求得極小值），人們逐漸發現、證明了一些規律，當你遵循這些規律的時候，演算法就很有可能收斂。因此，為了達到讓演算法收斂的目的，我們就要遵循這些準則。如果你不願意遵循這些已經公認有效的準則，而是要按自己的準則來設計演算法，那麼恭喜你，如果你能證明你的做法是有效的，未來若干年後，書本里可能也會出現你的名字。【2】Armijo-Goldstein準則此準則是在196X年的時候由Armijo和Goldstein提出的，當然我沒有具體去搜過這倆人是誰。在有的資料裡，你可能會看到“Armijo rule”（Armijo準則）的說法，可能是同一回事，不過，任何一個對此作出重要貢獻的人都是不可抹殺的，不是麼？

Armijo-Goldstein準則的核心思想有兩個：①目標函式值應該有足夠的下降；②一維搜尋的步長α不應該太小。

這兩個思想的意圖非常明顯。由於最優化問題的目的就是尋找極小值，因此，讓目標函式函式值“下降”是我們努力的方向，所以①正是想要保證這一點。同理，②也類似：如果一維搜尋的步長α太小了，那麼我們的搜尋類似於在原地打轉，可能也是在浪費時間和精力。

文章來源：http://www.codelast.com/
有了這兩個指導思想，我們來看看Armijo-Goldstein準則的數學表示式：

其中， 0<ρ<12
文章來源：http://www.codelast.com/
(1)為什麼要規定 ρ∈(0,12) 這個條件？其實可以證明：如果沒有這個條件的話，將影響演算法的超線性收斂性（定義看這個連結，第4條）。在這個速度至關重要的時代，沒有超線性收斂怎麼活啊！(開個玩笑)
具體的證明過程，大家可以參考袁亞湘寫的《最優化理論與方法》一書，我沒有仔細看，我覺得對初學者，不用去管它。
(2)

第1個不等式的左邊式子的泰勒展開式為：
f(xk+αkdk)=f(xk)+αkgkTdk+o(αk)
去掉高階無窮小，剩下的部分為： f(xk)+αkgkTdk
而第一個不等式右邊與之只差一個係數 ρ
我們已知了 gkTdk<0 （這是 dk 為下降方向的充要條件），並且 ρ∈(0,12) ，因此，1式右邊仍然是一個比 f(xk) 小的數，即：
f(xk)+αkρgkT

最優化：一維搜尋的Wolfe條件與Goldstein條件

最優化：一維搜尋的Wolfe條件與Goldstein條件

最優化-精確一維搜尋

小白最優化學習（四）演算法學習不精確一維搜尋方法

最優化第二講—一維搜尋演算法（二分法、等區間法）

JAVA：一維數組

如何將一維陣列轉換成與考慮南天陣列元素?

一維訊號卷積與影象卷積的區別

一維搜尋方法/黃金分割法（附matlab程式碼）

一維搜尋---黃金分割法

首席架構師白鱔：運維的進階與哲學之道

人工智慧背面：一群年輕人的苦與酷

演算法練習：一維陣列旋轉

【MATLAB】一維搜尋之平分法

Attention+：一種基於關注關係與多使用者行為的圖推薦演算法

【MATLAB】一維搜尋之牛頓法

【工程優化】一維搜尋方法

精彩百例：一維陣列，選擇排序

hive join on 條件與 where 條件區別

Oracle (03)分組子句.where條件與 having條件的區別.子查詢.DDL.DML.資料的增刪改.TCL

一維最優化：二次插值法（Quadratic interpolation method）

最優化：一維搜尋的Wolfe條件與Goldstein條件

相關推薦