1. 程式人生 > 其它 >【論文閱讀】an_optics_controlling_environm

【論文閱讀】an_optics_controlling_environm

強化學習相關的光學環境控制

Introduction部分的觀點

  1. 傳統上,光學和光子學的許多控制問題都是通過隨機平行梯度下降(SPGD)演算法與PID控制器。
  2. SPGD存在問題在於,SPGD是典型的凸優化求解器,但是光學中很多控制問題都是非凸的
  3. 之前對於光學環境控制都是使用Deep-Q learning演算法。

本文的主要內容

  1. 介紹了光脈衝堆疊環境(OPS),使用OPS來評估RL演算法,包括雙延遲深度確定性策略梯度(TD3),soft actor-critic(SAC),近端策略優化(PPO)

如圖所示,是光脈衝疊加原理的說明,OPS系統在時域範圍內遞迴地疊加光脈衝,輸入是週期脈衝序列,其週期為T,\(E_1=E(t)\)

,\(E_2=E(t+T)\),\(E_3=E(t+2T)\)...以此類推。

OPS遞迴地對兩個連續脈衝對的早期脈衝施加時間延遲,例如\(E_{1,2}=E(t+\tau_1)+E(t+T)\),\(E_{3,4}=E(t+2T+\tau_1)+E(t+3t)\)...

對於N階系統,能量提升2N倍,疊加2N個脈衝,需要N個時間延遲\(\tau\)

  1. OPS系統控制的目標是通過調整時間延遲來實現最終輸出脈衝\(E_{out}\)的最大化,對應OPS系統的目標函式:
\[\arg \max _{\tau} P_{N}(\tau)=\arg \max _{\tau_{1}, \tau_{2}, \ldots, \tau_{N}} P_{N}\left(\tau_{1}, \tau_{2}, \ldots, \tau_{N}\right) \]

兩圖分別是一節系統和二階系統對應的曲線,可以看奧OPS系統的控制函式的非線性並且非凸

的,並且系統是噪聲敏感的,噪聲不能忽略。

  1. 我們主要考慮兩種噪聲,一種是裝置振動的快速噪聲,服從均值為0的高斯分佈,另外一種是緩變噪聲\(\mu_t\),來自於緩慢的溫度漂移,可以看成慢時間變化的分段線性函式。

    在迭代過程中,\(\mu_t\)可以看成是常數,但是在不同迭代過程中不同。

強化學習過程

在每個步驟中,接收到OPS當前狀態\(s_t\),選擇動作\(a_t\)移動新的狀態\(s_{t+1}\),反饋獎勵\(r_t\),RL通過{}\(s_t,a_t,s_{t+1},r_t\)}進行訓練,學習策略\(\pi(a,s)\)

其中:

\(s_t\)=\(E_{out}(t)\),即最終疊加脈衝強度,直接反映了控制性能,現實中通過光檢測器進行貪色,並轉化為數字時間序列訊號。

\(a_t\)=\(\boldsymbol{\tau}(t)=\left(\tau_{1}(t), \tau_{2}(t), \ldots, \tau_{N}(t)\right)\),代表N階系統的時間延遲,由於考慮噪聲,因此實際的狀態轉移函式為

\(\tau_{\text {real }}(t)=\tau(t)+e_{t}=a_{t}+e_{t}, e_{t} \sim \mathcal{N}\left(\mu_{t}, \sigma\right)\)

\(\boldsymbol{r}(t)=-\frac{\left(P_{N}(\tau)-P_{\max }\right)^{2}}{\left(P_{\min }-P_{\max }\right)^{2}}\),歸一化的最終脈衝能量作為獎勵值,隨著的模型的發展,獎勵趨於0而不是一直增長。

狀態躍遷由狀態、動作、噪聲共同控制,並且遵循相干脈衝干涉原理。

文中的思考和討論

  • 複雜OPS系統的訓練時間很長,期間需要訊號的探測和模數轉換,並且引入噪聲

  • 提出轉移訓練的策略,在不同的模擬環境之間轉移訓練後的策略,難環境的策略可以很好的應用於簡單環境,反之不行,說明難環境的訓練更有意義