1. 程式人生 > >金融科技之量化文字研究框架

金融科技之量化文字研究框架

文本系列主要從新聞,投資者討論,研報三個文字源開展量化投資研究。新聞是一般是事實性描述,投資者討論是情緒性文字,而研報更多的是邏輯性文字。

1. 探索新聞與股價

資料來源:雪球網上的4000條;財經類網站包括新浪財經,鳳凰財經等。

問題的關鍵是爬蟲任務的持續性,每天都要定時爬取事先指定的網站清單。

模型的好處是不需要使用者對新聞進行標註,系統可以自動實現對新聞的自動劃分。個人認為是事件驅動策略與情感分析的融合體。除了下面框架中使用向量空間模型對文件進行表示,還可以使用命名實體(如機構名),名次短語(比如定向增發等事件名)等進行表示。使用這種方式進行表示可以進一步探索這些命名實體,名次短語對股價的影響。 


                                                                            個股新聞與其短期股價波動關係的研究框架

2. 投資者的情緒與股價

使用者的投資意見是一種口語化並且充滿情緒性的短文字。若從大資料的思路研究股票市場,分析使用者的這些UGC是不可忽視的一環。我打算從兩個方面對這些UGC進行處理,一個方面是使用者在討論什麼,另一方面是使用者的看法是什麼。第一問題是主題模型,第二個問題是情感分析。在此基礎上,可以建立如下投資策略

1.投資者的討論量

       投資者的討論與關注本身即代表該標的股票的近期在資本市場上有所動作,另外,反向也可能投資者的廣泛關注引起該股票的股價的波動。

2. 投資者的意見傾向

       基於投資者的意見偏向去預測股價的波動是一種最為常規的做法。

3.分析投資者的意見異質性

          Zhang-2006JF,Edward M. Miller,1977等都證實了公司的information uncertainty可以在一定程度上解釋股價異象。所謂的information uncertainty是指

          By information uncertainty, I mean ambiguity with respect to the implications of new information for a firm’s value, which potentially stems from two sources: the volatility of a firm’s underlying fundamentals and poor information.

         Yuandong Xu , (2016) 進一步證實了“投資者的意見分歧”結合動量策略,是一個非常好的因子。

雪球網:雪球網使用者的討論在性質上偏向於專業分析,邏輯推演等,文字一般比較長。在分部的特點上,個股主頁下的使用者討論顯示有限,僅有4000條左右。另外關於使用者討論會顯示在使用者主頁下面的發表的帖子。如果明確一個給定的使用者,這個資料可以全部獲取。但是由於每一隻個股本身的使用者關注量比較大(比如平安銀行有28萬),因此基於主頁層面的爬取就顯得笨拙。

東方財富網的股吧:性質上非常口語化,情緒化,文字短。資料量上相對較多。

微博:微博的資料實效性最強,資料量大。微博資料具有反爬蟲機制。目前常規的做法是在微博的搜尋頁面上,根據關鍵詞,進行爬取。變換關鍵詞,時間引數等可以獲取10000條左右的微博。另外一種做法,是首先去個股的主頁上獲取其粉絲列表(僅僅顯示有限頁數)或者鎖定好一些有影響力的投資者微博賬號,然後根據這些使用者,可以獲取其主頁之下的微博。這也是一種效率不高的方法。資料要有代表性。即獲取的使用者討論在投資者總體中要無偏。實現無偏的方式:增加資料量;多來源多群體爬取。    

         

3.主題概念的熱度

主題概念是新聞媒體,投資者以及研報都樂於討論的一個方面。因此從這些文字中提取出目前的板塊熱度或許可以為主題投資提供新思路。主題概念投資關鍵是可以分為兩個層次:(1)探尋新的話題(2)找到話題的當前的熱度。

     主題分析,關鍵詞提取演算法等可以為探尋新話題提供技術保障。另外,光大證券之前開發的中文雲系統以及相關的研究也表明這種方法的可行性。



                                                                                               基於主題分析的關鍵詞網路



                                                                                           概念熱度研究框架

資源與連結

Yuandong Xu , (2016) "Aversion of information ambiguity and momentum effect in China’s stock market", China Finance Review International, Vol. 6 Iss: 2, pp.125 - 149

X. FRANK ZHANG∗ ,(2006),”Information Uncertainty and Stock Returns”, THE JOURNAL OF FINANCE • VOL. LXI, NO. 1 • FEBRUARY 2006,pp.105-136

Kim-Georg Aase,(2011),”Text Mining of News Articles for Stock Price Predictions”, master thesis,Norweigian University of Science and Technology.

光大證券中文雲系統 

雪球網 https://xueqiu.com/

相關推薦

金融科技量化文字研究框架

文本系列主要從新聞,投資者討論,研報三個文字源開展量化投資研究。新聞是一般是事實性描述,投資者討論是情緒性文字,而研報更多的是邏輯性文字。 1. 探索新聞與股價 資料來源:雪球網上的4000條;財經

投行巨頭金融科技戰略——摩根士丹利財富管理轉型路篇

深度剖析投行巨頭金融科技戰略——摩根士丹利財富管理轉型之路篇 原創: 金融科技之道 金融科技之道 今天 我在納林湖等著你 呼斯楞 - 極度情深 當前,國內證券基金經營機構(以下簡稱經營機構)處在一個最好的時代,也處在一個最壞的時代。一方面,隨著《關於放開外資保險經紀公司經營範圍的通知》《

印度金融科技研究報告

  轉自:嘉銀新金融研究院   導讀: 印度2017年GDP總量位列全球第六位,經濟增速超過7.2%,是世界增速最快的主要經濟體,也是金磚國家和G20成員國。同時,印度人口總量在世界排名第二,35歲以下適齡勞動人口占比65%,正充分

【99元體驗票,限時5天搶購】2018數字資產投資峰會金融科技區塊鏈支援可持續發展...

每個時代都有無處安放的焦慮。網際網路時代的焦慮,是自己不革命,早晚會被別人革了命。

SVG 研究 text 文字

「文字」雖然字面上的解釋很簡單,但深入研究之後,發現 SVG 對於文字的設定,比我想像的複雜得多,但也因為有了這些我所不知道的設定和屬性,讓原本單純樸實的文字,更添加了幾分華麗的色彩和變化,這篇將介紹文字基本的屬性設定,以及一些進階的文字用法,學完之後,也就更能使用程式來控制

【新年第二篇金融科技】申卡與還款第二篇

世界 bug 例如 強烈 更新 特點 旅行 中間 民生銀行 《申卡與還款》 還款原則1.不能異名還款(不能用張三的儲蓄卡給李四信用卡還款,這種刷卡和消費都是別人幫你還款的銀行會監控到這樣的卡會

【新年第一篇金融科技】征信報告揭秘50問第一篇

能力 卡機 數據源 現實生活 主體 存在 變更 的人 萬塊 《征信報告揭秘50問》 前言:大家對征信這個詞肯定不會陌生,但大家對這個詞的由來可能就不是了解的很清晰。其實這兩個字已經有2000多年的歷史,中國

【新年第三篇金融科技】刷卡與收益第三篇

一次 高頻 基本上 機器 得到 範圍 卡方 百貨 tps **《刷卡與收益》** 刷卡原則 1.我們經常去商場POS機刷卡買東西,刷卡這個動作完成後,錢的流轉是怎麽樣的呢?這裏有幾個角色 (1

塔鏈科技:FinTech X 與FinRise奮睿量化 金融科技的現在與未來

此文為全球CEO發展大會CEOx.World產業鏈發展中心專訪訪塔鏈科技CBO與TokenRise創始人Aron恆宇先生之部分節選。 對於我們TokenRise與塔鏈科技的技術體系中,FinTech X 信仰與投證經濟信仰被視作關注的第一梯隊,談到FinTec

量化學習 | GTquant量化回測框架雙均線策略(一)

信號 應該 來看 hat 更新 圖片 而是 原理 暫時 做過量化投資或者對量化投資感興趣的朋友想必對雙均線策略是非常熟悉了。   作為技術分析中最基本的策略,雙均線策略大概就是新手村的第一個任務,所以作為本系列第一篇,我們也從雙均線策略開始吧!   雙均線策略是非常經典的趨

學習Vue.jsvue移動端框架到底哪家強

outer import ati 工作 需要 全部 ctu ron 上層 官網:https://cn.vuejs.org/ Weex 2016年4月21日,阿裏巴巴在Qcon大會上宣布跨平臺移動開發工具Weex開放內測邀請。 Weex 是一套簡單易用的跨平臺開發方案

從零開始學習MXnet(五)MXnet的黑科技顯存節省大法

無法 返回 deep logs all 筆記 linear call data   寫完發現名字有點拗口。。- -#   大家在做deep learning的時候,應該都遇到過顯存不夠用,然後不得不去痛苦的減去batchszie,或者砍自己的網絡結構呢? 最後跑出來的效果不

Django自帶ORM框架

數據 增加 tle 執行 max 模板 logs big backend 前言 Django的工作流程 1、客戶端發送請求到達 URL2、URL把客戶端請求轉發給請求函數3、視圖函數 使用原生SQL或者ORM去數據庫拿到數據進行渲染(模板+數據渲染)4、return 返回給

復現 360 Unicorn Team 黑科技 HackNFC

相關 nfc .com http har 技術分享 一起 ges ack 看了2條360 Unicorn Team的微博後,感覺蠻有趣的,打算復現一下 谷歌了下相關資料,在HACKADAY找到了介紹文章 還有2篇北郵工學碩士的論文,歡迎有興趣的朋友和我一起交

使用SQLAlchemy操作MYSQL黑科技 屬性訂制

relation check kref sql 黑科技 ack ada generate user 1 class Role(UserMixin, db.Model): 2 __tablename__ = ‘Role‘ 3 id = db.Colum

金融武功“六脈神劍”--創建YUM本地源倉庫

yum源一.環境centos6.8關閉selinux iptables關閉防火墻CentOS-6.8-x86_64-bin-DVD1.isoCentOS-6.8-x86_64-bin-DVD2.iso二.步驟:合並 CentOS 6 的兩個DVD鏡像1、相關目錄:/mnt/dvd1和/mnt/dvd2 用於掛

華爾街熱捧金融科技,中國互金企業赴美上市潮背後的秘密

互聯網金融11月13日晚間,樂信集團遞交赴美IPO招股書,招股書顯示,樂信計劃在納斯達克上市,擬融資5億美元。這已是今年下半年以來第六家中國互金公司叩門美國資本市場。為何中國互聯網金融企業如此猛烈地集中沖擊IPO呢?此處必須重點關註一個關鍵詞——金融科技(Fintech)。今年5月,來自“一帶一路”沿線的20

Struts2框架使用(九)struts2的驗證框架

double 一個 舉例 express pan words ont dexp ner Struts2 驗證簡介 Struts2 基於 Struts2 攔截器,為開發者提供了一套易用的驗證框架,並可擴展;一般的驗證都支持; Struts2 內置驗證 struts2內置的驗

Web API系列二WebApi基礎框架搭建

相關 框架搭建 導入 沒有 pos 創建 div 程序 傻瓜式 本文主要介紹如何搭建一個WebApi的項目.關於如何搭建WebApi的方式一共有兩種: 一、通過vs直接新建一個WebApi的項目,步驟如下: 第一步: 新建一個空的Web應用程序,可以理解為作為WebApi的

ideat使用struts2自定義MVC框架

clu src pen mod files 文件導入 exc form over 今天我學習了自定義一個簡單的MVC框架,這個我們首先要知道什麽是MVC框架! MVC框架: MVC全名是Model View Controller,是模型(model)-視圖(view)-