中餐館過程演算法翻譯及程式碼實現
在概率論中,中國餐館過程是一個時間離散的(discrete-time)隨機過程(stochastic process),類似於中國餐館中坐在餐桌旁的顧客。想象一個這樣的情景,一家中國餐廳擁有無限數量的圓形桌子,每個桌子都有無限的容量。此時,顧客1坐在第一張桌子旁。下一個顧客要麼坐在與顧客1相同的桌子旁,要麼坐在下一張桌子旁。這樣的情況會一直持續下去,每個顧客要麼選擇坐在已有其他顧客的桌子旁,要麼選擇一張未被佔用的桌子,其中,選擇已有顧客桌子的概率與該桌子已經存在的顧客數量成比例(即,與含有少量顧客的桌子相比,他們更願意坐在含有更多顧客的桌子旁)。在時間,個顧客已經被劃分為個桌子。此過程的結果具有可交換性,這意味著顧客所就坐的順序不會影響最終分配的可能性。該性質極大地簡化了群體遺傳學,語言學分析和影象識別中的許多問題。
1 定義
在任何正整數時間n,該隨機過程的值是由集合生成的分割槽,其概率分佈通過如下方式確定。在時間時,以概率1獲得普通劃分。在時間,元素可以是:
1. 新增到分割槽Bn的一個塊中,其中每個塊以概率被選擇,其中是塊的大小(即元素的數量)。
2. 作為新的塊新增到分割槽,概率為。
如此生成的隨機分割槽具有一些特殊性質。它是可交換的,即重新改變的順序不會改變中分割槽的分佈,而且在通過從中刪除元素而獲得的分割槽定律的意義上它是一致的。時刻的隨機分割槽與時刻的隨機分割槽的規律相同。
分配給任何特定分割槽的概率(忽略顧客坐在某張桌子周圍的順序)是(從開始增長進行理解)
其中是分割槽的一個塊,是該塊的大小(即元素的數量)。
2 一般化
這種結構可以推廣到具有兩個引數的模型,和,分別稱為折扣和強度(或濃度)引數。 在時間,下一個到達的顧客發現 中的桌子都被佔用了,並決定按以下概率坐到一個空桌子旁(這裡的為狄利克雷過程中的)
或者按以下概率做到人數為的桌子b旁
為了使結構能夠有效的用於概率計算,有必要假設和,;或者假設且。
在該模型下,根據Pochhammer k符號,分配給任何特定所對應分割槽B的概率是
在上面公式中,按照慣例,,並且對於,有
因此,對於的情況,分割槽概率可以用Gamma函式表示為
在只包含一個引數的情況,即,上式可簡化為
或者在時,
如前所述,分配給任何特定分割槽的概率僅取決於塊大小,因此如前所述,隨機分割槽具有可交換性。一致性也仍然存在。
如果,則由此產生的整數n的隨機分割槽的概率分佈是具有引數θ的Ewens分佈,被用於群體遺傳學和生物多樣性的統一中性理論。
2.1 推導
接下來介紹一種推導此分割槽概率的方法。 令為新增數字的隨機塊,對於,有