資料遊戲Round1：預測5月15號招商銀行的股價

阿新 • • 發佈：2019-05-14

　　前陣子報名參加了一個數據比賽，題目是預測5月15號（星期三）招商銀行的股價，截止時間是在5月12號（星期天）。在本次預測中，我用到的是嶺迴歸。

嶺迴歸

　　嶺迴歸是迴歸的一種，它解決迴歸中重大疑難問題：排除多重共線性，進行變數的選擇，在存在共線性問題和病態資料偏多的研究中有較大的實用價值。按照度娘百科的解釋：嶺迴歸是一種專用於共線性資料分析的有偏估計迴歸方法，實質上是一種改良的最小二乘估計法，通過放棄最小二乘法的無偏性，以損失部分資訊、降低精度為代價獲得迴歸係數更為符合實際、更可靠的迴歸方法，對病態資料的擬合要強於最小二乘法。

　　多重共線性指線性迴歸模型中的解釋變數之間由於存在精確相關關係或高度相關關係而使模型估計失真或難以估計準確。

　　由於嶺迴歸涉及的數學知識比較複雜，且文章篇幅有限，這裡不過多展開。

資料獲取

　　本次資料是通過 Tushare 的 get_hist_data()獲取的。Tushare是一個免費、開源的python財經資料介面包。python安裝tushare直接通過
pip install tushare 即可安裝。

import tushare as ts
data = ts.get_hist_data('600848')

　　執行之後可以檢視它的前後幾行資料，按照tushare官方的說明，get_hist_data()只能獲取近3年的日線資料，而他的返回值的說明是這樣的：

〖date：日期；open：開盤價；high：最高價；close：收盤價；low：最低價；volume：成交量；price_change：價格變動；p_change：漲跌幅；ma5：5日均價；ma10：10日均價；ma20:20日均價；v_ma5:5日均量；v_ma10:10日均量；v_ma20:20日均量〗

　　均價的意思大概就是股票n天的成交價格或指數的平均值。均量則跟成交量有關。至於其他的返回值，應該是一下子就能明白的吧。在獲得資料之後，我們檢視一下描述性統計，通過 data.describe() 檢視是否存在什麼異常值或者缺失值。

　　這樣看來似乎除了由於週末以及節假日不開盤導致的當天的資料缺失以外，並沒有其他的缺失和異常。但是這裡我們不考慮節假日的缺失值。

資料預處理

　　由於獲取的資料是按日期降序排序，但本次預測跟時間序列有關，因此我們需要把順序轉一下，讓它按照日期升序排序。

data1 = data[::-1]

　　處理完順序之後，我們要做一下特徵值的選擇。由於 volume 以及均量的值很大，如果不進行處理的話，很可能對整體的預測造成不良影響。由於時間有限，而且考慮到運算的複雜度，這裡我沒有對這些特徵進行處理，而是直接將它們去掉了。至於均價，我是按照自己的理解，和10日均價、20日均價相比，5日均價的範圍沒那麼大，對近期的預測會比另外兩個要好，因此保留5日均價。接著，我用 sklearn.model_selection 的 cross_val_score，分別檢視除〖'open', 'close', 'high', 'low', 'ma5'〗以外的其他剩餘屬性對預測值的影響。發現 ‘p_change’、'price_change' 這兩個屬性對預測結果的影響不大，為了節省記憶體，增加運算速度，提高預測的準確性，也直接把它們去掉了。完了之後，檢視前後三行資料。

data1 = data1[['open','high','low','ma5','close']]
data1.head(3), data1.tail(3)

建模預測

　　由於提交截止日期是週日，預測的是週三，因此需要先對週一週二的資訊進行預測。在這裡我突然想到一個問題，是用前一天的所有資料來訓練模型以預測當天的 close 比較準確，還是用當天除了 close 以外的其他資料來訓練模型以訓練當天的 close 比較準呢？為了驗證這個問題，我分別對這兩種方法做了實驗。

　　為了減少程式碼量，定義了一個函式用以評估模型的錯誤率。

def get_score(X_train, y_train):
    ridge_score = np.sqrt(-cross_val_score(ridge, X_train, y_train, cv=10, scoring='neg_mean_squared_error'))
    return np.mean(ridge_score)

　(1)、用前一天的所有資料來當訓練集

y_train = data1['close'].values[1:]
X_train = data1.values[:-1]
score = get_score(X_train, y_train)

　　輸出結果大約為0.469，這個錯誤率就比較大了，不太合理，更何況還要預測其他特徵值作為測試資料。

(2)、用當天除了 close 以外的其他資料來當訓練集

data2 = data1[:]
y_train = data2.pop('close').values
X_train = data2.values
score = get_score(X_train, y_train)

　　輸出結果大約為0.183，跟第一個相比簡直好多了。所以，就決定是你了！

　　接下來建模並把模型儲存下來：

y_train = data1['close']
X_train = data1[['open', 'high', 'low', 'ma5']]
close_model = ridge.fit(X_train, y_train)
joblib.dump(ridge, 'close_model.m')

　　在預測之前呢，我們先拿訓練集的後8組資料做一下測試，做個圖看看：

scores = []
for x in X_train[-8:]:
    score = close_model.predict(np.array(x).reshape(1, -1))
    scores.append(score)
x = np.arange(8)
fig, axes = plt.subplots(1, 1, figsize=(13, 6))
axes.plot(scores)
axes.plot(y_train[-8:])
plt.xticks(x, data1.index[-8:].values, size=13, rotation=0)

　　看到這樣子我還是相對比較放心的，不過，這個模型的訓練值除了“close”以外的屬性都是已知的，要預測三天後的還得預測前兩天的測試值。

def get_model(s):
    y_train = data1[s].values[1:]
    X_train = data1.values[:-1]
    model = ridge.fit(X_train, y_train)
    return model

def get_results(X_test):
    attrs = ['open', 'high', 'low', 'ma5']
    results = []
    for attr in attrs:
        result = get_model(attr).predict(X_test)
        results.append(result)
    return results

　　接下來預測三天的股價：

X_test = data1[-1:].values
for i in range(3):
    results = get_results(X_test)
    close = close_model.predict(np.array(results).reshape(1, -1))
    print(close)
    results.append(close)
    X_test = np.array(results).reshape(1, -1)
print("5月15日招商銀行關盤時的股價為：" + str(round(close[0], 2)))

[33.46370029]
[33.4532047]
[33.43836721]
5月15日招商銀行關盤時的股價為：33.44

總結

　　雖然預測結果是這樣子，但感覺這樣預測似乎很菜啊。畢竟預測的每個值都會有偏差，多個偏差累加起來就很多了，這讓我有點害怕。不知道存不存在不預測其他值直接預測close的方法，或者說直接預測5月15號的而不用先預測13、14號的方法。雖然我知道有種演算法是時間序列演算法，但不是很懂。希望哪位大神看了能給我一些建議，指點迷津。

　　對於一個自學資料分析的在校學生，苦於沒有專案經驗，正好趕上這次的【資料遊戲】，能利用此次機會操作一波真的很不錯。

資料遊戲Round1：預測5月15號招商銀行的股價

嶺迴歸

資料獲取

資料預處理

建模預測

總結

資料遊戲Round1：預測5月15號招商銀行的股價

數據遊戲Round1：預測5月15號招商銀行的股價

5月15日PM

5月15日上課筆記-js中 location對象的屬性、document對象、js內置對象、Date事件對象、

5月15日

達觀資料王子豪：這5個例子，小學生都能秒懂分類演算法

HDU 1671.Phone List【字典樹】【5月15】

GitHub Python資料科學聚焦：推薦5個開源資料科學專案！

小組作業 5月9號

2017年5月12號課堂筆記

2017年5月22號課堂筆記

【程序員劄記#學習&&塑形# 】2018年5月21號

【程序員劄記#學習&&塑形# 】2018年5月24號

2018年5月27號

9月15號星期六訓練筆記

演算法設計——基姆拉爾森計算公式：計算幾月幾號是星期幾

5月2號

[2018年5月30號]C++ primer 課後練習第十六章模版與泛型程式設計

2015年10月15號到24號.net工程師面試題

2018年5月10號，曾經的熱土，逝去的歲月

資料遊戲Round1：預測5月15號招商銀行的股價

嶺迴歸

資料獲取

資料預處理

建模預測

總結

相關推薦