[論文]基於強化學習的控制輸入非線性水下機器人自適應神經網路控制
[論文]基於強化學習的控制輸入非線性水下機器人自適應神經網路控制
摘要
本文研究了在水平面內運動的全驅動自主水下機器人的軌跡跟蹤問題。在我們的控制設計中考慮了外部干擾、控制輸入非線性和模型不確定性。基於離散時間域的動力學模型,兩個神經網路(包括一個臨界神經網路和一個作用神經網路)被整合到我們的自適應控制設計中。引入臨界神經網路來評價設計的控制器在當前時間步長內的長期效能,並利用作用神經網路來補償未知動態。為了消除水下機器人控制輸入的非線性,自適應控制中還設計了補償項。通過嚴格的理論分析,證明了該控制律的穩定性和效能。此外,通過大量的數值模擬結果驗證了該控制方法的魯棒性和有效性。
索引術語——自適應控制、自主水下航行器、神經網路、軌跡跟蹤。
介紹
目前,水下機器人,包括自主水下機器人(AUV)、遙控潛水器(ROV)和水下滑翔機,已經廣泛應用於各種水下任務[1]–[5]。AUV也參與了對海洋、海底和湖泊的科學研究。水下機器人執行水下任務時,精確的運動控制至關重要。然而,這是一個挑戰,因為模型的非線性,耦合,時變的水動力系數的動力學,這需要進一步研究。
水下機器人通常以6個自由度在三維空間中運動,其平面運動和潛水運動之間存在耦合動力學。在大多數研究中,水下機器人模型總是解耦的,使得各種控制方法的應用成為可能。已經提出了幾種用於在三維空間中跟蹤水下機器人軌跡的方法,特別是用於規劃運動或潛水。非線性水下機器人模型通常先線性化,然後基於該線性模型設計控制器[8]、[9]。在解耦模型的基礎上,文[6]對水下機器人的潛水控制進行了分析,並採用微分器來提高噪聲衰減效能,從而實現自抗擾控制。通過解耦深度和航向運動,在[10]中設計了模糊深度區域性放電控制器。此外,在文獻[8]中,通過將路徑跟蹤誤差轉化為Serret-Frenet框架,並對誤差動力學進行線性化,提出了一種在垂直面內運動的水下機器人的輸出反饋控制。對於水下機器人的平面運動控制,文獻[7]提出了一種全驅動和欠驅動構型的非線性控制。他們詳細分析了水下機器人側滑角的有效性。此外,在文獻[3]中提出了一種傾斜推力器結構,併為兩個解耦的三自由度子系統分別設計了選擇性切換控制。在[11]中,同時考慮了電流感應船舶模型和一般車輛模型,其中前者模型考慮了主要的電流載荷。然後利用級聯絡統理論和觀測器反推設計了水下機器人的非線性盧恩伯格觀測器和控制器。此外,這些結果表明,基於模型的控制器效能優於傳統的區域性放電控制。在這種情況下,控制器中的模型動態應在出現偏差時進行修正。
文獻[12]-[14]還基於水下機器人動力學模型研究了最優控制。在文獻[12]中,設計了一種最優控制來控制水下機器人在運動學層面上的軌跡,並將代價函式描述為動能代價。然後根據最大值原理設計合適的哈密頓量,最終得到最優解。針對非仿人水下機器人模型,提出了一種非線性次優控制方法,並將狀態相關的黎卡提方程控制器應用於NPS II水下機器人的點對點跟蹤[13]。將不確定性邊界作為代價函式中的一項,通過對原魯棒控制問題的轉化,得到一個最優控制問題;然後,提出了間接魯棒深度控制[14]。
水下機器人的水動力引數通常是通過計算流體力學方法或拖曳實驗辨識獲得的。然而,由於水下任務期間發生的時變環境和狀態變化,獲得的水動力引數不是不變的[15]。因此,在設計合適的控制器時,應考慮外部干擾和模型引數的不確定性[16]–[ 23]。為了解決模型引數的不確定性,在[24]中採用了基於Mamdani模糊規則的PID引數調整,然後將控制設計解耦為航向和深度兩個通道。文獻[25]提出了一種離散時滯控制方法,該方法直接估計水下機器人的動力學,並通過時滯估計來補償模型的不確定性。
水下機器人的速度可以通過多普勒速度記錄(DVL)來測量,通常新資料的更新速度很慢。為了增強使用DVL的水下機器人的未建模動態和外部干擾的魯棒性,在[26]中引入了積分滑模控制。文獻[27]給出了一種補償有界外部干擾和模型不確定性的新方法,給出了誤差符號控制結構的積分,並通過李亞普諾夫穩定性分析建立了半全域性漸近跟蹤效能。文獻[28]將滑模控制和反推相結合,設計了一種具有引數不確定性和外部干擾的水下機器人軌跡跟蹤控制器。
為了解決外部干擾,在[2]中引入了干擾力測量方法來測量作用在水下機器人上的力/力矩;然後,基於動態模型的預測響應,在車輛中採用前饋控制。干擾觀測器是另一種主要方法,用於補償未知的外部干擾[11],[20],[29]–[ 32]。文獻[20]利用非線性觀測器估計了水下機器人的低頻運動和波頻運動,並針對淺水波干擾下的水下機器人運動設計了非線性跟蹤控制。為了控制臨近空間中的車輛,在[32]中應用了一種基於干擾觀測器的滑模跟蹤控制。此外,在[33]中設計了採用擾動觀測器的全驅動水面艦艇的自適應跟蹤控制。
由於神經網路的函式逼近能力,模糊逼近器、神經網路和基於模糊控制的演算法已被廣泛研究,以補償環境干擾和水下機器人的模型不確定性[34]–[41]。在[35]中,神經網路近似被用來補償未知的模型引數和由洋流和海浪引起的外部干擾,並且實現了跟蹤誤差的一致最終有界性。神經網路用於解決水下機器人的模型不確定性,動態表面控制也應用於[36]中的控制設計。在[38]中,水下機器人動力學的非線性不確定性由兩層神經網路近似。為了控制水下機器人的潛水,文獻[42]提出了一種基於穩定神經網路的自適應控制方法。文獻[43]針對多艘無人水面艦艇提出了神經網路自適應控制,由一個區域性觀測器估計不可測狀態。在文獻[44]中,提出了一種徑向基函式神經網路來匯出受外部干擾和未知滯後影響的系統的自適應控制器。在最近的工作[45]中,考慮了受輸入死區影響的非仿純反饋離散時間非線性系統。為了補償死區,通過對原系統進行變換,構造了自適應補償項和n步超前預測器。
水下機器人的實際控制系統通常是通過取樣器以數字方式在嵌入式計算機上實現的。因此,連續時間控制器需要轉換成離散時間版本[46]。通過直接使用離散時間模型,我們在存在外部干擾、模型引數不確定性和控制輸入非線性的情況下開發了軌跡跟蹤控制。應該注意的是,已經有許多方法可以解決輸入非線性問題,例如輸入死區和飽和[47]–[52]。基於反步法和李雅普諾夫分析,設計了一種自適應軌跡跟蹤控制器,以克服[51]中的模型引數不確定性,其中利用飽和函式來解決執行器飽和問題。為了防止違反速度約束,在[48]中為水下機器人提出了一種魯棒自適應控制器,並且在李雅普諾夫綜合中使用了障礙李雅普諾夫函式。在[52]中,針對具有未知輸入死區的純反饋系統,提出了一種新的動態面控制方法。由於使用了差示掃描量熱法,複雜性明顯降低。針對多輸入多輸出非線性系統,考慮未知死區和控制方向,提出了一種新的基於神經網路的自適應控制方法。此外,強化學習已經在許多領域得到了研究和應用,如機器學習和人工智慧[53]–[55]。強化學習在[53]中首次從電腦科學的角度進行了調查。在[54]中,一支足球隊的“守門員”被訓練學習何時持球或傳球。此外,在[55]中,深度Q學習被提出來用連續控制空間成功地解決20多個模擬任務。在本文中,受[45]、[56]和[57]工作的啟發,我們提出了一種強化學習技術,通過使用兩個神經網路來實現水下機器人的最優軌跡跟蹤。未知的非線性和干擾由神經網路近似;同時,跟蹤效能的跟蹤評價用臨界神經網路來近似。此外,還考慮了控制輸入非線性的自適應補償。本文的初步結果已在[58]中給出,並通過不僅考慮致動器死區和飽和,而且考慮名義力/力矩和實際力/力矩之間的非線性關係進行了擴充套件。更多的,一種非線性的補償策略被提出,會在之後講到。
本文的其餘部分組織如下。我們在第二節介紹了水下機器人的非線性模型。第三節設計了自適應神經網路。第四節和第五節分別介紹了模擬研究和結論
方程
運動方程
如第一節所述,水下機器人通常在具有6個自由度的三維空間中運動,導致其規劃和潛水運動中的耦合動力學。為了便於控制設計,模型通常是解耦的,而設計的控制將使用耦合的非線性動力學來驗證。我們考慮具有3個自由度的水下機器人的平面運動,如圖1所示。讓我們將水下機器人的位置座標表示為(x,y),在慣性座標系中偏航表示為(ψ),在水下機器人本體座標中,速度表示為浪湧中的(u),搖擺中的v和偏航中的r。此外,讓我們將水下機器人的慣性矩陣表示為M,將科里奧利加速度和向心加速度以及阻尼矩陣分別表示為C(ν)和D(ν)。另外,我們把重力和浮力產生的力和力矩表示為g(η)。考慮未知外部干擾和模型引數不確定性的存在;然後,水下機器人動力學可以給出如下:
本節略
(本文的控制設計主要針對三自由度模型。基於本文所採用的全驅動模型,我們可以方便地將控制策略擴充套件到6自由度)
結論
本文在離散時間域提出了一種基於神經網路逼近的全驅動水下機器人自適應軌跡跟蹤控制律。基於神經網路的強化學習演算法已被用於解決未知干擾,引數不確定性和控制輸入非線性。該控制器嵌入了兩個神經網路:第一個關鍵神經網路用於評估控制器在當前時間步長內的長期效能,第二個動作神經網路用於補償未知動態。通過嚴格的理論分析和大量的模擬研究,證明了該方法的魯棒性和有效性。未來的研究方向是將所提出的控制應用於實際系統。