1. 程式人生 > >【天池競賽系列】資金流入流出預測思路

【天池競賽系列】資金流入流出預測思路

賽題地址:http://tianchi.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.VZW16k&raceId=3

登入即可下載資料

題目一句話:根據13年7月到14年8月的申購贖回資料預測14年9月每一天的申購贖回資料。

演算法問題:此題可以使用線性迴歸和時間序列預測,只要特徵好效果都還可以。我們使用的是R下面的隨機森林+LM  ,決賽只有4次提交機會,第一次我們26名,後面每天都降,這些火箭簡直太可怕了,最後天我們運氣好穩定在了47名。後來問過那些火箭才知道他們使用的是STL時間序列預測,因為這個方法預測的值偏大,剛好答案也是偏大。所以會出現大量火箭。

預處理問題:題目給出的是每天使用者的操作資料,我們需要按日期彙總為申購贖回資料,因為提交結果也是按天的

彙總下來好像是427條,觀察之後可以發現13年到14年前期都不太穩定,所以我們可以取穩定後的資料,3-8或者4-8月都可以。

另外既然取了3-8月的資料,就代表沒有去年國慶前期的資料了,這個問題比較大,因為需要預測14年9月的,9月末的資料跟13年9月的資料趨勢有相關性。但是13年9月的資料變化比較劇烈,由於比賽不準單點,沒法自己去插入14年9月30號這天的資料,怎麼辦呢?我們前期測了下20140930的值,和9月29的值比例大概是11:9-11:8的樣子。所以我們手動在訓練集中插入了一調20130930的申購贖回資料來擬合14年預測結果。不知道這樣還算不算調單點?

特徵問題:官方給出的baseline是使用了星期的7個特徵使用LM建模。我們分析過資料後發現跟星期並沒強烈相關性,反而更上班休假有強烈相關性(第一賽季其實是跟股票有強烈相關,第二賽季資料量大倒沒多大影響了)

所以我們設計瞭如下特徵:

--一週正常第1/5天上班, 週末第1/2天,休假第1/3天,休假前/後正常上班的一天
--上班前一天休假,工作日,休假,月初月中月末(10天週期),每月第一天
--上一個波峰/波谷是幾天前
--上班最後天后要放幾天假(2-3,7 3個01特徵)
--上班第一天前放了幾天假(2-3 2個01特徵)
--兩天的假,三天的假
--週日補班
-- 股票波浪理論,135浪

另外所有特徵均為01特徵,為什麼這樣做大家可以自行思考下。

其中19個特徵在part1的時候純lm可以達到203分

所有特徵在PART2的時候lm+RF可以達到201分


相關推薦

天池競賽系列資金流入流出預測思路

賽題地址:http://tianchi.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.VZW16k&raceId=3 登入即可下載資料 題目一句話:根據13年7月到14年8月的申購贖回資

天池競賽系列阿里移動推薦演算法思路解析

賽題地址:http://tianchi.aliyun.com/competition/information.htm?raceId=1 登入即可下載資料 從4月到7月,學習了很多也收穫了很多 題目就不多說了,一句話表達就是根據過去一個月的行為預測14年12月19

天池競賽系列淘寶穿衣搭配演算法第二賽季12名思路

給的資料集有4部分 達人搭配組合 商品資訊 購買記錄 線上測試集 在第一賽季中的思路和阿里星小江分享的差不多 http://datartist.cn/?p=5 第二賽季自己實力不夠,思路陷入迷信模型中,導致被幹出了前10 那麼我就來講講12名的思路吧 首先根據達人搭配

iOS開發系列九宮格布局

使用 objc with div self. orm i++ back hab /** * 這個盡管非常easy,算是一個小技巧,可是碰到了就記錄下來吧.積跬步,致千裏嘛. */ - (void)scratchableLatex { for (int i=

JVM命令系列jmap

mark bsp null 參考 nfa location bootstra 內容 遠程debug 命令基本概述 Jmap是一個可以輸出所有內存中對象的工具,甚至可以將VM 中的heap,以二進制輸出成文本。打印出某個java進程(使用pid)內存內的,所有‘對象’的情況(

iOS開發系列NSObject方法介紹

ati ber oid ring cto rgb dst -s 推斷 NSObject是OC中的基類,全部類都繼承於此,這裏面也給我們提供了非常多與“類”和“方法”相關的方法,本文將解說幾個非常有用的方法。 正文: Per

大數據系列HDFS文件權限和安全模式、安裝

重新啟動 inux 客戶 元數據 masters cnblogs 格式 新的 檢測 HDFS文件權限 1、與linux文件權限類型 r:read w:write x:execute權限x對於文件忽略,對於文件夾表示是否允許訪問其內容 2、如果linux系統用戶sanglp

大數據系列MapReduce示例好友推薦

trac [0 ont protect run task main orm pat package org.slp; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text;

大數據系列在hadoop2.8.0下配置SecondaryNameNode

hadoop .cn color dfs repl images replicat style 節點 修改namenode上的hdfs-site.xml configuration> <property> <name>dfs.r

SignalR學習系列4. SignalR廣播程序

back aspnet ocs || tutorial strong family load over 創建項目 創建一個空的 Web 項目,並在 Nuget 裏面添加 SignalR,jQuery UI 包,添加以後項目裏包含了 jQuery,jQuery.UI ,和

Owin 學習系列1. 第一個 Owin 程序

進程 task reading 地址 [] 地址欄 urn rtu () IIS 中的 Owin 在 IIS 裏面部署 Owin,既能得到 Owin 管道模型的靈活性和模塊特性,也能很好地利用 IIS 成熟的配置,Owin 程序將會跑在 ASP.NET reques

問題記錄系列the resource is not on the build path of a java project

搭建 關閉 spring源碼 remove 環境 eclips 右鍵 生產 ldp 在eclipse中新建了一個maven項目搭建Spring源碼閱讀環境,創建一個bean生產getter和setter方法的時候報錯“the resource is not on the b

表格建模系列二、添加數據

geography custom img eof pan ipaddress customer fwe ebr 加載如下表並清空相應字段: DimCustomer清除字段: SpanishEducation, FrenchEducation, SpanishOccupati

表格建模系列五、創建分區

ant ntp amt intern cost track end pct 2-0 右鍵單擊FactInternetSales > 分區。 創建如下分區: FactInternetSales2010。SQL: SELECT [dbo].[FactInterne

深度學習系列用PaddlePaddle和Tensorflow實現經典CNN網絡GoogLeNet

mage eat oba card fin filter mod 一個 lec   前面講了LeNet、AlexNet和Vgg,這周來講講GoogLeNet。GoogLeNet是由google的Christian Szegedy等人在2014年的論文《Going Deepe

深度學習系列用PaddlePaddle和Tensorflow實現GoogLeNet InceptionV2/V3/V4

targe 所有 conn ride 出了 prev 縮減 tro 例如   上一篇文章我們引出了GoogLeNet InceptionV1的網絡結構,這篇文章中我們會詳細講到Inception V2/V3/V4的發展歷程以及它們的網絡結構和亮點。 GoogLeNet I

ASP.NET系列詳解Views

rbo mode 轉義 顯示 ora style i++ 直觀 pre 描述 本片文章內容屬於ASP.NET MVC系列視圖篇,主要講解View,大致內容如下: 1.Views文件夾講解 2.View種類 3.Razor語法 4.對視圖的基本操作 一

深度學習系列一起來參加百度 PaddlePaddle AI 大賽吧!

人工 領域 而且 標註數據 sea nload 類型 指定路徑 ear   寫這個系列寫了兩個月了,對paddlepaddle的使用越來越熟悉,不過一直沒找到合適的應用場景。最近百度搞了個AI大賽,據說有四個賽題,現在是第一個----綜藝節目精彩片段預測 ,大家可以去檢測一

ASP.NET 系列淺談緩存技術在ASP.NET中的運用

進行 喜歡 之間 framework cnblogs 磁盤 onf lin bug 本篇文章雖不談架構,但是Cache又是架構中不可或缺的部分,因此,在講解Cache的同時,將會提及到部分架構知識,關於架構部分,讀者可以不用理解,或者直接跳過涉及架構部分的內容, 你只

zabbix教程系列一、初識zabbix

監控 官網 ava ron 應用程序 是什麽 電話 教程 info 一、zabbix是什麽? Zabbix是最終的企業級軟件,專為實時監控從數以萬計的服務器,虛擬機和網絡設備收集的數百萬個指標而設計。 二、zabbix能做什麽? 監控任何事物,為任何類型的IT基