1. 程式人生 > >Zero交易機器人白皮書(預覽版)

Zero交易機器人白皮書(預覽版)

“未來的世界首富或許是一個機器人”

Zero交易機器人白皮書

古老的海龜系統是人類第一個較為完備的機械交易系統,它帶來趨勢交易的思想成為了後來眾多交易系統構建的核心。現代化的交易技術源於海龜系統,同時結合了前沿的ResNet網路深度學習技術。運用深度學習ResNet技術的圍棋程式AlphaGo Zero以100比0的成績擊敗了前輩AlphaGo Lee。ResNet與海龜系統的結合有可能戰勝最強的人類金融交易員,成為未來交易世界的核心。

從零開始學習

海龜系統以人類的交易經驗為基礎,只做趨勢交易:在上漲趨勢中做多,在下跌趨勢中做空。根據ATR絕對平均波動值控制頭寸的大小。 而Zero交易機器人從零開始學習,在訓練中Zero神經網路逐漸從隨機交易轉變為趨勢交易。當訓練繼續進行,Zero學會更多交易技巧。Zero也有一個頭寸控制機制,它根據多空狀態指示符的比值控制頭寸大小。

挑戰人類交易員

情緒陷阱使人類交易員在形勢不利時連續做出錯誤的交易決定,從而使資金面臨巨大的風險。海龜系統難以被人類交易員執行的原因,除了人類難以長期堅持規則以外,更大的原因便是情緒化對海龜法則的破壞作用。 而Zero只會交易,沒有情緒波動。Google TPU v3的強大算力給Zero交易機器人的充分訓練提供了可能。只要測試集選擇得當,Zero能保證真實收益與模擬器中的測試收益沒有巨大偏差。

從棋盤到K線

  1. AlphaGoZero通過Softmax函式,在最多361個落子點中尋找最優點。一個落子點對應到Zero機器人就是一根K線。Zero機器人始終假設在當前位置做多,並預測在未來N個K線收盤價退出的收益。
  2. AlphaGoZero的神經網路用tanh函式輸出一個Z變量表示當前的勝率。而Zero交易機器人用softmax函式輸出Z1、Z2兩個變數,分別表示做多、做空的勝率。
  3. Zero機器人以50日收盤價序列為輸入,20層ResNet為神經網路的中間層級。此處引數的選擇僅為實驗結果不做過多分析。

全資料集訓練

經過實驗,全資料集訓練可以讓Zero交易機器人獲得最優的收斂效果,但視訊記憶體消耗巨大。6年的小時K線訓練集大約需要一萬塊TPU v3才能進行全資料集訓練,而6年的日K線資料集則只需要一塊TPU v3。 相反,如果採用最小資料集訓練則視訊記憶體消耗較低,1塊TPU v3即可進行小時K線的訓練。但Zero在最小資料集訓練中無法形成收斂趨勢,陷入永恆的隨機梯度下降中,無法完成收斂。需要更多實驗才能找到平衡視訊記憶體和收斂效果的資料集大小。

結論

本文簡述了一種基本具備可行性的神經網路交易系統,該系統僅為拋磚引玉之用,不是神經網路交易系統的最終形態。如果未來全世界大部分市場都被機器人交易系統控制,那麼最強的那個機器人將成為世界首富。

唐博BorisTown 2018/11/2