阿里天池競賽 A股上市公司營收預測使用LSTM模型做時序預測

阿新 • • 發佈：2019-01-26

參賽結束了，最後結果一百多名，先把清洗好的資料和預測演算法檔案記錄下來。

使用的完全程式碼和資料

程式碼註釋如下

# -*- encoding:utf-8 -*-
import pandas as pd
import numpy as np
import sys
from keras.layers.core import Dense, Activation, Dropout
from keras.layers.recurrent import LSTM
from keras.models import Sequential
from sklearn.preprocessing import MinMaxScaler

# 視窗長度
LEN_SEQ = 2
np.random.seed(0)

def load_one(data, x):
    global LEN_SEQ
    #ticker = data.query("TICKER_SYMBOL=="+str(x)) # 個股
    #ticker = data.query("TICKER_SYMBOL==1 or TICKER_SYMBOL==5")
    ticker =data.loc[data['TICKER_SYMBOL']==x]
    #ticker = data.query("[email protected]")
    print('query the data')
    #print(ticker)
    arr = ticker.ix[:,[1,2,3,4]] # 矩陣
   # print(arr)
    # 做時序差分
    train, label = [], []
    b_size = 4
    for i in range(LEN_SEQ,0,-1):
        train.append(arr.shift(i))
        label += [('var%d(t-%d)' % (j+1,i)) for j in range(b_size)]
    for i in range(LEN_SEQ):
        train.append(arr.shift(-i))
        if i ==0:
            label += [('var%d(t)' %(j+1)) for j in range(b_size)]
        else:
            label += [('var%d(t+%d)'%(j+1,i)) for j in range(b_size)]
    Train = pd.concat(train,axis=1)
    Train.dropna(inplace=True)
    #Train.columns = label
    return Train

def build_model():
    model = Sequential()
    model.add(LSTM(20,input_shape=(1,15)))
    model.add(Dense(1))
    model.compile(loss='mae',optimizer='adam')
    return model

def predict_point_by_point(model, data):
    values = data.values
    train_X,train_y = values[:,:-1],values[:,-1]
    #test_X,test_y = values[:,:-1],data[:,-1]
    train_X = train_X.reshape((train_X.shape[0],1,train_X.shape[1]))
    #test_X = test_X.reshape(test_X,shape[0],LEN_SEQ,test_X.shape[1])
    LSTM = model.fit(train_X,train_y,epochs=20,batch_size=3)
    return model

#在金融的這份資料裡，沒有2018年q2的資料，也就是t+1的cogs，operateprofit，nincome都沒有，無法去預測目標，也就是revenue的值。所以我們需要先對每個單列做出預測，這裡我們仍然用lstm對2018q2的這三列預測，再加上向前的三次記錄，共十五列來做預測

def create_trainX_trainy(data, look_back=1):
    trainX, trainy = [], []
    for i in range(len(data)-look_back-1):
        a = data[i:(i+look_back)]
        trainX.append(a)
        trainy.append(data[i + look_back])
    return np.array(trainX), np.array(trainy)

def predict_useone_column(column):
trainX,trainy = create_trainX_trainy(column)
trainX = np.reshape(trainX,(trainX.shape[0],1,trainX.shape[1]))

    model = Sequential()
    model.add(LSTM(20,input_shape=(1,1)))
    model.add(Dense(1))
    model.compile(loss='mae',optimizer='adam')

    model.fit(trainX,trainy,epochs=20,batch_size=1)
    return model

def main():
    dic = {}
    data = pd.read_csv("./datanew.csv", header=0)
    data.drop('END_DATE',1,inplace=True)
    #print(data.head(),data.columns)

    data.fillna(0.00001,inplace=True)

    #print(temp.isnull().count())
    #temp.fillna(0.000001,inplace=True)
    # 做minmax
    #scaler = MinMaxScaler(feature_range=(0,1))
    #data_scaled = pd.DataFrame(scaler.fit_transform(temp),columns=['TICKER_SYMBOL','REVENUE','COGS','OPERATE_PROFIT','N_INCOME'])

    tickers = data['TICKER_SYMBOL'].unique()
    #train, label, b_size = [], [], []

    #按股訓練，先出q2的前三列
    for i in tickers: # 按股迴圈
        print(i)
        train = load_one(data,i)
        if train.index.values ==[]:
            continue
        #print(train)



        #for j in [train.ix[:,12],train.ix[:,13],train.ix[:,14]]:
         #   predict_useone_column(model,column)
          # train.ix[]
        #print(train.values.shape)
       # print(train.head())
        # 做模型
       # print(i)
        model = build_model()
        # 做預測
        #dic[str(i)] = "預測數值"
        #LSTM = predict_point_by_point(model,train)
        #print(data.loc[data['TICKER_SYMBOL']==i]['COGS'].values)
        cogs_model=predict_useone_column((data.loc[data['TICKER_SYMBOL']==i])['COGS'].values)
        operate_model=predict_useone_column((data.loc[data['TICKER_SYMBOL']==i])['OPERATE_PROFIT'].values)
        nincome_model=predict_useone_column((data.loc[data['TICKER_SYMBOL']==i])['N_INCOME'].values)



        pre2018q2 = np.array(list(train.iloc[-1,3:15].values))
        cogs = cogs_model.predict(np.reshape(np.array(pre2018q2[9]),(1,1,1)))
        operate = operate_model.predict(np.reshape(np.array(pre2018q2[10]),(1,1,1)))
        nincome = nincome_model.predict(np.reshape(np.array(pre2018q2[11]),(1,1,1)))
        pre2018q2 = np.append(pre2018q2,[cogs,operate,nincome])
        #print(pre2018q2)
        pre2018q2 = np.reshape(pre2018q2,(1,1,15))


        model_after_train = predict_point_by_point(model,train)
        pre_revenue = model_after_train.predict(pre2018q2)[0][0]
        #print(pre_revenue,len(pre_revenue))
        dic[str(i)] = pre_revenue
        #train = pd.DataFrame()

    result = pd.DataFrame(columns=['ticker_symbol','predict_revenue'])
    result['ticker_symbol'] = dic.keys()
    result['predict_revenue'] = dic.values()
    result.to_csv('./predict.csv')

if __name__ == "__main__":
    sys.exit(main())

阿里天池競賽 A股上市公司營收預測使用LSTM模型做時序預測

參賽結束了，最後結果一百多名，先把清洗好的資料和預測演算法檔案記錄下來。

使用的完全程式碼和資料

程式碼註釋如下

阿里天池競賽 A股上市公司營收預測使用LSTM模型做時序預測

FDDC2018金融演算法挑戰賽01－A股上市公司季度營收預測

競賽資訊|A股上市公司公告資訊抽取

python抓取動態資料 A股上市公司基本資訊

爬取網易財經全部A股上市公司年報

聯商網：2018上半年零售上市公司營收排行榜

A股成“香餑餑”！李彥宏、丁磊、王小川表態回A股上市為哪般？

利用Python視覺化來檢視中國環保股上市公司！排名第一的居然是？

獲取美股上市公司股票資料

阿里天池競賽分享

10行程式碼爬取全國所有A股/港股/新三板上市公司資訊

【附上解釋】爬取A股所有上市公司的資訊並存儲到資料庫或者是csv檔案中

阿里天池大資料競賽——口碑商家客流量預測 A

54家國內主要百貨上市公司上半年營收排行榜

小米推遲上市和A股大跌，背後有什麼共同原因？

【天池競賽系列】阿里移動推薦演算法思路解析

阿里天池大資料競賽

證監會回應“IPO放寬”傳言：嚴把上市公司入口關

python3爬取上市公司基本數據

選出某上市公司過去分紅情況

阿里天池競賽 A股上市公司營收預測 使用LSTM模型做時序預測

參賽結束了，最後結果一百多名，先把清洗好的資料和預測演算法檔案記錄下來。

使用的完全程式碼和資料

程式碼註釋如下

相關推薦

阿里天池競賽 A股上市公司營收預測使用LSTM模型做時序預測