強化學習+神經網路來訓練一個股票交易系統
阿新 • • 發佈:2019-02-15
簡介: 本文采用強化學習+神經網路的框架,訓練一個股票交易系統,並在個股上進行了測試。下面為詳細記錄:上面這個圖是一個強化學習的交易模型。這個圖是out sample的交易結果。2012~2015年的資料為訓練資料,2015為out sample測試。紅線為伊利股份的股價,藍線為交易淨值。跑贏基準40個百分點。上面這個圖顯示的是模型在訓練過程中的表現,在125個訓練週期之後,模型能穩定的跑贏基準約40個百分點。然而不幸的是,這種交易效果的模型無法再次訓練出來。有兩種可能:1 神經網路的loss函式是非凸函式,由於初始引數的不同,很難再次優化到這樣的模型引數。 (這意味著股市存在可盈利的模式,只是很難找出來。)2 這樣的收益僅僅是巧合。做了各種嘗試(不同的loss函式,增加神經網路的隱層,對交易頻率的不同懲罰係數)通過20次試驗,在訓練集中得到的模型在測試資料中都沒有穩定的作用。典型的試驗結果:
loss函式的不斷優化,loss減小,訓練時間段的netValue(圖中下半截的藍色線)增加,具有非常強的相關性。而測試時間段的netValue(圖中下半截的黃色線)基本沒有相關性。訓練集得到的模型在測試集上沒有效果,看了股價要從歷史的股價運動中總結規律,並要在未來起作用是很難的。
loss函式的不斷優化,loss減小,訓練時間段的netValue(圖中下半截的藍色線)增加,具有非常強的相關性。而測試時間段的netValue(圖中下半截的黃色線)基本沒有相關性。訓練集得到的模型在測試集上沒有效果,看了股價要從歷史的股價運動中總結規律,並要在未來起作用是很難的。