1. 程式人生 > >【論文系列】論文延伸閱讀——GNG:Growing Neural Gas Network

【論文系列】論文延伸閱讀——GNG:Growing Neural Gas Network

COMPETITIVE HEBBIAN LEARNING AND NEURAL GAS

一些資訊:


一般可以把幾何形體的拓撲結構看作是完全“柔軟”的,因為所有變形(同胚)會保持拓撲結構不變;而把解析幾何結構看作是“硬”的,因為整體的結構都是固定的。

induced Delaunay triangulation" has been shown to optimally preserve topology in a very general sense (Martinetz, 1993).

誘導的德羅拉三角法被證明可以優化地儲存拓撲資訊。

  • 如何讓結構可以直接實現逆向對映,這就引出了拓撲學習

    的定義。目前(1990s)有兩種方法可以重建這種結構:CML+NG

  • NG方法,向量量化程式。
  • NG方法核心:

For each input signal x adapt the k nearest centers whereby k is decreasing from a large initial to a small final value.

對於每個輸入訊號x適應k個最近的中心,其中k從大的初始值減小到小的最終值。

大的初始值k導致大部分中心點位置調整(adapt)(朝向輸入訊號運動)。然後減小調整的範圍k,直到最後只有每個輸入訊號的最近中心點才調整。調整強度是類似衰減時間表的基礎。(強度值隨時間而減小?)為了實現引數衰減,必須預先定義NG方法的自適應步驟的總數。*缺點

  • 拓撲學習的有效步驟之一:NG+CML。  對於給定的資料分佈,現在可以首先執行NG演算法以分配一定數量的中心,然後使用CHL來生成拓撲。然而,也可以同時應用這兩種技術(Martinetz和Schulten,1991)。在這種情況下,需要一種用於去除淘汰的邊緣的方法,因為中心的運動可能使得先前已經生成的邊緣無效。 Martinetz和Schulten為此目的使用邊緣老化方案。應該注意的是,CHL演算法不會以任何方式影響NG方法的結果,因為NG中的自適應僅基於輸入空間中的距離而不是基於網路拓撲。另一方面,NG會影響CHL生成的拓撲,因為它會移動中心。

GNG提出

作者為了解決這一缺點——必須預先定義NG方法的自適應步驟的總數(聚類數)

,提出了GNG。

網路組成:

  • 一組單元(或節點)的集合A。 每個單元c∈A具有相關的參考向量Wc∈Rn。 參考向量可以被視為相應單元在輸入空間中的位置
  • 成對單元中的連線(或邊)的集合N。 這些連線不加權。 它們的唯一目的是拓撲結構的定義。
  • 此外,存在大量(可能無限的)n維輸入訊號,服從某個未知概率密度函式\pmb P(\pmb\xi )

         該方法的主要思想是通過評估在先前的適應步驟期間收集的區域性統計測量值,將新單元連續地新增到最初的小型網路中。 這與“生長細胞結構”模型(Fritzke,1994b)中使用的方法相同,然而,該模型具有固定維度(例如,兩個或三個)的拓撲。並且相比"growing cell structures" model只能選用二維和三維的拓撲維度。GNG的維度由輸入資料的維度決定並且可以vary locally。

  • 演算法詳細步驟

  • 1.第一步:從R^{n}空間內隨機兩個位置\omega _{a}, \ \omega _{b}上的單元a和b開始,
  • 2.根據input signal 所服從的概率密度函式\pmb P(\pmb\xi ),生成一個輸入訊號\pmb\xi
  • 3.尋找最近單元s1 和第二近單元s2
  • 4.將輸入訊號與輸入空間中最近單元之間的平方距離加到一個區域性計數器變數:  \Delta error(s_{1}) = \begin{Vmatrix} \omega _{s1} - \xi \end{Vmatrix}^{2}
  • 5.朝\pmb\xi方向移動s1和s1的直接拓撲相鄰點,各自通過距離的比值\epsilon _{a} \ and \ \epsilon _{b}: \Delta \omega_{s_{1}} = \epsilon _{b} (\xi - \omega_{s_{1}}), \ \ \ \\ \ \ \Delta \omega_{n} = \epsilon _{n} (\xi - \omega_{n}), for\ all\ direct\ neighbors\ n\ of\ s_{1}
  • 6.如果s1和s2相連,(有拓撲聯絡),則設此edge的年齡(age)為0,如果不相連則新增。
  • 7.移走所有age大於\pmb a_\pmb{ max}的edge。如果這導致點沒有發散邊緣,也要將它們移除。
  • 8.如果到目前為止生成的輸入訊號的數量是引數lambda的整數倍,則插入一個新單位:

確定具有最大累積誤差的單元q。

在q和其鄰f的中點插入一個新單元r,r有最大誤差變數 :\omega_{s_{1}} = 0.5(\omega_{q}+ \omega_{f})

插入連線新單元r的單元q和f的edge,並移除q和f之間的原始edge。

通過乘以常數\pmb \alpha來減小qf的誤差變數。使用q的誤差變數的新值初始化r的誤差變數。

  • 9.通過乘以常數\pmb d來減少所有誤差變數。
  • 10.如果尚未達到停止標準(例如,net size或某些效能指標),請轉到步驟1。

方法具體解析:

  1. 朝向輸入訊號的調整步驟(5),導致所有單元向輸入空間> 0的區域產生的訊號 運動。
  2. 步驟(6)在關於輸入訊號的最近和次最近的單元之間插入edge,會生成 關於所有單元的當前位置 的“誘導Delaunay三角化”(見圖1b) 的 單連線。
  3. 步驟(7)去除edge是必要的,以消除那些不再是“誘導的Delaunay三角”一部分的edge,因為這些edge的終點已經移動
  4. edge終點的移動是通過步驟(3)的 最鄰近單元周圍的區域性edge老化 以及 步驟(6)重新設定最近和最近單元之間已存在edge的age來實現的。
  5. 隨著edge的插入和去除,模型試圖構造“誘導的Delaunay三角化”並隨後跟蹤,“誘導的Delaunay三角化”是因為參考向量的自適應而緩慢移動的目標結果。

  6. 在自適應期間累積平方距離(4.)有助於識別位於輸入空間區域中的單元,其中從訊號到單元的對映導致大的誤差。為減少誤差,將在此類區域中插入新單元。

應用

聚類和向量量化網路應該在鄰域資訊(edge處)用於實現相鄰單元之間的內插的情況下表現得特別好。通過使用在早期階段出現的誤差,可以確定在何處插入新單元以在輸入資料空間的特定區域中生成不同密度和不同維度的拓撲查詢表。

另一個潛在的研究方向是與監督學習相結合。這在以前的“生長細胞結構”(Fritzke,1994c)中已經做過。這種應用的一個關鍵特性是選擇一個任意的插入標準。這在原始“生長的神經氣體”中是不存在的,例如,在原始的“生長神經氣體”中。這種新的監督網路模型——增量徑向基函式網路——的最初結果是非常有前途(在當年,現在不知)。

某實驗中作者使用的引數。