資料之美----雪球網股票組合分析
簡介
因為工作需要,爬了幾個大型的網站,練就一身爬取資料和分析資料的功夫。所以,在無聊的時候寫了個爬取系統。主要功能是爬取雪球組合的資料,並進行分析,得出一些有價值有潛力的股票程式碼。實盤到沒有測試,隨便估計了一下,至少跟盤不會出現虧損。
先普及一下組合的概念:由雪球、微博等平臺的投資主理人管理的股票持倉池。
技術架構
特點:簡單可依賴
- 多伺服器多核心非同步架構實時爬取
- 機器學習、數理統計經典方法分析
- 6000+組合資料分析的結果秒出
以上有點吹。但是爬取的效果還是準確的。
分析方法
主要是基於統計方法。機器學習也會在後面跟上,獲得更多有價值的資訊。
我們分析了6000+組合的資料,對每個組合的具體持倉進行了分析。得出所有組合持倉的並集,這就是持倉最多的熱門股票。當然已經排除停牌股。
同時,計算組合持倉的相同的股票的倉位大小,用總倉位除以持有該股的總組合數,得出平均權重。按大小,排除最佳重倉股。有的人會想,不少主理人喜歡重倉一隻股票。所以,我們會特意標出倉位較重的組合名稱及他們的個數,以供參考。不得不建議,想跟風最佳重倉股,請折半投資。比如平均倉位大小是90%,那麼根據自己的倉位,投資20-45%左右是最佳的方案。
6000+ 組合並不是每一個組合都作為資料的權重出現。對於關停的、殭屍的、長線的組合,對其做分析貌似沒有太多的價值。所以,我們分析以下2類組合:
- 總收益高於280%,月收益高於9%,每日收益震盪在-5% - 20%的組合,一月調倉3次以上
- 總收益為高於45%,月收益高於15%,每日收益震盪在-3% - 20%的組合,一月調倉5次以上
對外介面
之前在做Restful的一些應用,對於相關的技術還算了解。為了能讓別人訪問資料,我們做了介面,將分析、處理、加工完的資料開放。
只需要使用者名稱即可,不需要密碼,因為也沒有打算建立使用者賬戶體系。
展示網站
畢竟不是大多數人都會IT技術,所以沒有辦法。我只好又做了一個網站,專門用於展示分析資料。
不知道這個東西有沒有人會看,但是希望能幫到大家。
團隊簡介
谷震平
目前在某一線網際網路公司,任職資料倉庫工程師,專注是資料採集、ETL。也是本文作者。筆者對這個專案的感情很特別。當初,大學輔脩金融,以為自己畢業後能進投行工作,但是沒人要。後來做了現在的工作。可能就是心裡還有一絲絲抱怨與不甘,才做了現在的事情。希望,能幫助更多的人們,鼓勵更多人追求夢想。
憶夢漣
一位美少女工程師,北郵研究生,專注NLP、機器學習。資料分析、科學計算的能力了得。
結語
寫到這裡,還有很多想說的沒有說完。如果對我們的工作感興趣,歡迎留言繼續交流。
關注微信公眾號,回覆你所持有的股票中文名稱,就會得到從6000多人的持倉資料中分析出來的該股情況!
現在只回復4項資料:
- 日期
- 平均持倉,該股在當天6000多人的平均持有情況,值在0 - 100%之間
- 總體持倉,該股在當天6000多人的全體持有情況,值大於0%
- 所在組合數,該股在當天6000多人的總計買入人數,值大於1
持倉的資料,請自己腦補%(百分號),忘記單位可就不好了。
快快新增關注公眾號—-谷震平的專欄吧,也可掃二維碼下方二維碼:
^-^