1. 程式人生 > >第三期 行為預測——速度懲罰的代價函數

第三期 行為預測——速度懲罰的代價函數

bubuko 之間 com 會有 定義 想要 OS for 連接


在我們想要的時候獲得轉換的關鍵部分,他們要設計合理的成本函數。

我們想懲罰和獎勵正確的事情。我將通過一個例子來說明,您可能會考慮設計成本函數的一種方法。

我們來考慮如何設計車速的成本函數。一方面,我們想快速到達目的地,但另一方面,我們不想違法。

我們必須控制的基本數量是汽車所需的速度。有些速度更有高效,有些甚至是非法的。

讓我們填入這張圖,並嘗試為每個速度分配一些成本

為了簡單起見,讓我們假設所有的成本函數都會有一個0到1之間的輸出。

稍後我們將通過調整權重來調整每個成本函數的重要性

技術分享圖片

假設我們所在的道路限速在這裏。那麽,我們知道如果我們的速度超過限速,

這應該是最大的成本。也許我們想要設置,這是一個理想的零成本速度,稍低於速度限制,以便我們有一些緩沖區。

然後我們可以考慮我們要懲罰多少停車。顯然,停車是壞事,但也許不如打破速度限制那樣糟糕,所以我們會把它放在這裏。

為了簡單起見,我們可以說零和目標速度之間存在線性成本

技術分享圖片

而且由於違法是一件二元的事情,我們只要說任何速度大於或等於速度極限具有最大成本。再次,我們可以隨意將這些點連接起來

技術分享圖片

線性函數和超出限制速度的平面最大成本。現在,在實踐中,我們可能實際上想要參數化一些

這些數量以便我們稍後可以調整它們直到我們得到正確的行為。所以首先,我們可以定義一個名為Stop Cost for的參數

零速度情況和被調用的參數緩沖速度可能是每小時幾英裏。

技術分享圖片

那麽,我們的總體成本函數有三個領域。如果我們低於目標速度,成本函數看起來像這樣。

技術分享圖片

如果我們超過限速,成本只是一個。

技術分享圖片

如果我們之間,成本看起來像這樣。真棒。

技術分享圖片

第三期 行為預測——速度懲罰的代價函數