kaggle金融的資料處理方式
阿新 • • 發佈:2019-01-05
kaggle金融資料的解決
如何設定x和y
拿股票來說,對於股票的眾多屬性都可以變成一個向量的形式。這個向量x = ( x1, x2, x3....xn) 注意,x1也是一個向量,這個向量是縱向的,有m個數值代表m個樣本。x每一個數據裡面不同的值,裡面的值就是取值,可以來自於不同時間,或者不同公司。y代表各種觸發狀態。
例如: X: [ Open, Prev Close, Big, Ask, Beta...] y: today's Close
三種經常用的模型
線性模型,決策樹和NNR。
決策樹優勢:非黑盒,輕鬆去除無關的屬性,測試速度快。但是隻能線性分割資料。
三個決策方式,複習一下,ID3,C4.5,CART。整合的方式有:bagging,random forest和boosting。
bagging:
boosting:原始tree,未完美,weight,reweight tree,加權。
random forest:booststrap, 有放回,隨機,樣本集合,迴歸樹;隨機,特徵;最大限度,不剪;分類,投票或者平均。
神經網路,之後介紹。
案例:
房價預測:
https://github.com/gaoyishu/kaggle_practice/ 直接在我的名字的github中有,歡迎大家指出不足。