1. 程式人生 > 其它 >基於納什均衡的多智慧體強化學習交通訊號控制

基於納什均衡的多智慧體強化學習交通訊號控制

納什均衡理論基本概念

  1. 基本概念
  • 納什均衡:要其他參與者不改變自己的策略的情況下,沒有任何一個參與者可以通過改變策略獲得更多的收益。任何靜態的博弈至少有一個納什均衡。
  • 多交叉路口交通訊號控制問題
    多交叉路口交通訊號控制就是在城市的多個路口,同時控制不同路口的交通訊號,形成一個聯合控制動作,提升城市整體的通行能力。
  1. 從博弈論到多智慧體強化學習
  • 多交叉路口交通訊號控制問題定義
    在基於納什均衡和 MARL 的多交叉路口交通訊號控制問題中,我們定義:每一個控制交通燈變化(時長)的行為主體是Agenti(i ∈ N );πi為當前 Agent
    (Agenti)所有可接受的交通燈時長控制策略,獎勵 Ri是環境表示 Agenti和其他 Agent(Agent−i)在整個交通環境下的擁堵程度 (可以按照車輛排隊長
    度、通過路口的平均速度具體指標計算),擁堵程度越低,獎勵越大。
  1. 基於納什均衡的優勢行動者評論家演算法
  • 深度強化學習的相關的演算法分為基於價值函式、基於策略、基於結合策略和價值函式三類。
  • 基於結合策略和價值函式的方法的優點:
    (1)避免了策略梯度演算法中獎勵函式是通過與環境的實際互動進行估計不穩定的缺點
    (2)避免了價值函式中不能有效進行連續動作策略的輸出的缺點
  • “演員-評論家”(Actor-Critic)模型就是典型的結合結合策略和價值函式的方法。Actor-Critic 用 Q 學習來估計獎勵函式,取代在每次與環境中互動中估算,
    可以使獎勵估算的過程更加穩定。

-Nash-A2C 演算法(基於納什均衡的優勢行動者評論家演算法)
優勢函式代表著 Qˆ 和 Vˆ 的差值
其中,優勢函式 Advance 為 , 為用於評估獎勵的價值函式。Q 函式用於獎勵預測。
分離引數集合 θ 為價值函式引數集合和策略函式引數集合
其中 θV代表值函式的模型 ˆV θV的引數; θA代表智慧體(參與者)動作選擇策略的模型引數 ˆπθA。演算法目標為:將取樣的樣例的損失和 Nash-Bellman 方程聯絡起來,最小化:

為了簡化上式表達,我們定義:

引入記憶緩衝區(replaybuffer)來儲存三元組 ,分別代表環境的先前狀態 xt−1,在該狀
態下執行的操作 u,環境的下一個狀態 xt,和經過這個狀態的獎勵 yt。我們從replay buffer 中隨機取樣一段記憶資訊,使用隨機梯度下降(SGD)更新引數。該演算法還使用 ϵ-貪婪探索,優化動作策略。
Nash-A2C 演算法結構:

演算法步驟:

  • Nash-A3C 演算法
    Nash-A3C 演算法在多個環境副本上並行地非同步執行多個 Nash-A2C 演算法(網路結構如圖4-3所示),不同的環境採用不同的策略,經歷不同的狀態,有不同的智慧體與環境互動的歷史記錄。
    Nash-A3C 演算法結構:

    演算法步驟:

  1. 模擬實驗
    分別採用固定時長 、Q 學習 、DQN、Nash-Q、Nash-A2C、Nash-A3C 交通訊號控制的演算法在基於真實交通流量的城市多交叉路口模擬平臺 USE 模擬環境中進實驗並收集實驗結果。
  • 模擬環境設定
    配置交叉路口 27 個,連線道路 45 條。每一個交叉路口的初始的進入車流量,離開車流量按照 MTD 的資料進行配置,將交通燈控制介面演算法配置到每一個路口上,通過演算法介面進行
    交通訊號時長控制,並根據當前和歷史流量動態調整交通流量
  • 實驗過程
    在模擬環境中輸入真實的車流量資料。然後通過演算法介面分別配置固定時長 、Q 學習 、DQN、Nash-Q、Nash-A2C、Nash-A3C 交通訊號控制的演算法。每隔 15 分鐘通過交通流量預測
    系統更新一次每個交通路口的車流量,記錄每分鐘每個交通路口的車輛等待時長和車輛平均速度(視為環境反饋獎勵),進行 1000 Episode(回合)訓練。

    分析:第四節提出的Nash-A2C和Nash-A3C演算法的訓練收斂效果優於其他基線方法。
  • 實驗結果:

    測試過程中每個 Episode 中每個路口平均等待時間的結果:


    每個交叉路口的平均等待時間熱點圖:

    每個模型的平均通過速度(km/h):

    每個模型的平均等待時長(s)
  1. 實驗小結
    MARL 演算法中引入納什均衡理論,對於提升 MARL 的交通訊號的控制效果具有正向作用。這也為後續章節演算法使用納什均衡理論建立一定的基礎。