1. 程式人生 > >multi-agent 控制類論文閱讀

multi-agent 控制類論文閱讀

多個體協調控制問題綜述,2012

  1. 綜述

 多個體協調控制的基本問題包括一致性控制、會合控制、聚結控制和編隊控制。

 多個體系統區別於單體系統最本質的要素在於其通過網路進行資訊傳遞與共享, 網路的不確定性對多個體協調控制性能的影響不容忽視, 因此, 該問題成為近幾年協調控制領域研究的前沿和熱點。

 多個體協調控制領域的研究物件也逐漸由前期簡單的一階或高階線性系統過渡為更一般的非線性系統, 並考慮更為實際的系統不確定性等因素,典型系統為Euler-Lagrange 系統。

 一致性控制 是指多個體通過資訊的共享與互動, 實現某種狀態的趨同。

 會合指系統中的所有個體速度逐漸趨於零, 且靜止於某一位置。另一種定義要求MAS 中所有個體同時達到相同位置。

  編隊控制的目標在於通過調整個體的行為使系統實現特定幾何構型的整體性位移。

 按照時延屬性可將系統中存在的時延分為兩種: 通訊時延和自時延。

 網路拓撲切換是指多個體的通訊拓撲因某種原因從一種模式轉換為其他模式。

 區別於同步網路, 非同步網路中多體系統個體所對應的時間參考基準(時鐘) 是不同的。
 .Euler-Lagrange 方程能夠刻畫大量實際的機械系統。

 2. 問題

 非線性系統的一致性控制研究

 非線性多個體含自時延的研究,目前該問題仍是多個體協調控制研究的熱點和難點。

 通訊拓撲同時存在時延和切換的情形。自時延和通訊時延並存。

 非同步網路

 針對含不確定性多個體協調控制的研究尚不多見, 且絕大多數文獻採用了自適應控制技術。(自適應神經網路控制器是一種方法)

 因此網路化Euler-Lagrange 系統協調控制的研究成為近年來一個新的熱點。

 當前最重要的問題是通過大量模型簡化得到的模式化成果多, 而真正與實際結合的較少。

 “近鄰規則” 的猜想與假設, 而Ballerini 等則發現鳥群中存在以拓撲距離進行通訊的機制, 從而對“近鄰規則” 提出了質疑.那麼, 這些分散式的原則是否在自然界中是最有效率的?

基於BP神經網路的自適應控制,1994

訓練BP神經網路的控制器方法主要有general learning 和 special learning,前者離線學習,後者把被控物件當做BP網路的輸出層。
這篇文章是三層網路結構

planning,learning and coordination in multiagent decision processes

介紹了multi-agent、multi-agent plane、問題(獨立的計劃學習,協同決策)以及通常的解決方法(基於通訊、協同策略、迭代學習)
單個智慧體的決策過程,基於馬爾科夫過程和強化學習,還有一些相關的問題
多個智慧體的馬爾科夫決策過程和協同問題,介紹了一些設計的學習協同的規則,也涉及多智慧體的強化學習