一個馬爾科夫鏈例項----停車問題
阿新 • • 發佈:2018-10-31
看了 《Foundations of stochastic inventory theory》 中的另一個例子,下面把這個例子描述下。
一個駕駛員到達目的地之前選擇停車位,停車位的狀態: 0 或 1, 表示停車位是否為空,0 表示空著,1 表示不空。空的概率為
, 不空的概率為
。當前停車位舉例重點距離為
,停車成本為
1. 狀態變數
,當前狀態包括與終點的距離 ,以及停車位是否空著 。
2. 決策
表示停車, 表示不停車繼續走。決策集合
3. 狀態轉移方程
這個問題的狀態轉移方程不好表示,但並不影響最優遞推表示式
4. 即時成本(immediate value)
這個問題的即時成本也不好表示,但也不影響最優遞推表示式
5. 最優遞推方程(recursion function)
設
表示當前狀態
最小期望停車成本。對該問題反向遞推
為了分析方便,引入一個輔助函式
(這個函式很巧妙),定義
則可以得到遞推函式:
6. 分析最優解性質
為了分析性質,一般都要先猜測最優解的特點,然後根據這個特點尋找性質並證明。
最優解的特點:存在一個最優距離 ,大於這個值時繼續開車,小於這個值時則儘量停車。
因此需要分析
與
的大小關係,因此構造一個新的函式
可以證明, 為單調減函式,而 為嚴格單調減函式 ( 一個單調減函式與嚴格單調減函式的和為嚴格單調減函式)
並且 , ,因此一定存在一個 , ,
7. 構造馬爾科夫鏈
定義
表示在當前距離為
,採用分位點
的停車策略時的最小期望成本。則該策略下的馬爾科夫連結串列達式如下: