1. 程式人生 > >金融大咖分享我們相信大資料還是相信邏輯

金融大咖分享我們相信大資料還是相信邏輯

三年前,我曾經以《相信奇蹟還是相信邏輯》為題做過一次演講。核心觀點是,從古至今,國人的形象思維比較發達,但形式邏輯偏弱。建議用資料說話,提倡理性思考。今天,我想提出一個問題:在人人都在講大資料的時代,我們該如何來看待和運用大資料,當大資料不合邏輯時,究竟是相信大資料還是相信邏輯?

相信個案還是相信大資料

“大資料”是指以多元形式,通過許多來源蒐集而來的龐大資料組,往往具有實時性。大約從2009年開始,“大資料”成為網際網路資訊科技行業的流行詞彙。如美國網際網路資料中心指出,網際網路上的資料每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的資料是最近幾年才產生的。此外,資料又並非單純指人們在網際網路上釋出的資訊,全世界的工業裝置、汽車、電錶上有著無數的數碼感測器,隨時測量和傳遞著有關位置、運動、震動、溫度、溼度乃至空氣中化學物質的變化,也產生了海量的資料資訊。有人把資料比喻為蘊藏能量的煤礦。煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大資料並不在“大”,而在於“有用”。價值含量、挖掘成本比數量更為重要。對於很多行業而言,如何利用這些大規模資料是成為贏得競爭的關鍵。

例如,2011年諾貝爾經濟學獎獲得者托馬斯·薩金特(Thomas J. Sargent)近期在中國公開演講時就認為,人工智慧實質上就是統計學。但我覺得他說的有一定道理,但過於簡單粗暴了。其實,他想表達的是人工智慧中運用的不少方法就是過去的統計方法。

又有人認為大資料就是全樣本統計,這樣理解大資料未免有點淺薄了,全樣本統計只是大資料的一種形式而已。因此,大資料的涵義要比傳統意義上的統計資料廣泛,但確實又具有統計資料的很多屬性,因此大資料需要通過合適的方法,才能發揮其作用。

舉例來說,兩年半前,我曾經從螞蟻金服公佈的居民網路消費資料中,發現天津在網路消費上的怪異現象:作為直轄市的天津,人均網消水平上明顯低於上海、北京、浙江、江蘇、海南、福建、廣東,甚至低於全國平均水平(因為前七個省市的消費權重較大)。

由於天津的人均GDP水平在2016年及之前一直為全國省市自治區中排名第一,為何網購資料那麼弱呢?我當時就認為天津有誇大GDP的可能。因為查閱《統計年鑑》,發現天津的人均可支配收入與人均GDP水平不匹配。即人均可支配收入不僅低於北京和上海,而且還低於浙江、江蘇。

2015年浙江城鎮居民可支配收入佔GDP之比為56.3%,上海51.3%,但天津只有31.9%,與前者竟然差20%左右。如果說人均可支配收入偏低與通過大資料獲得的人均網購額還是比較匹配的話,那麼,人均GDP或GDP總額就大大偏離正常水平了。

今年年初,天津重新調整了其濱海新區2016年GDP的資料,從過去公佈的10002.31億元,調整為6654億元,縮水3348億元,縮水幅度達三分之一。可見,如果把從支付寶獲得的網購大資料與統計部門公佈的資料進行相互比對,就可以及早發現問題所在。這可以說是運用好大資料的意義所在。文革期間,有一句口號叫“工業學大慶,農業學大寨”,但為何學了那麼久,經濟增速仍然那麼低,工業品和糧食那麼短缺呢?因為大慶和大寨都屬於少數“成功”的個案,缺乏可複製性。而且,計劃經濟模式所隱含的邏輯存在明顯缺陷。

我曾經舉過一個例子:讓1000只猴子擲硬幣,每次出現正面的概率為50%,如果讓所有的猴子連續擲硬幣10次,那麼,連續10次均為正面的概率就是50%的10次方,約等於千分之一,即一千隻猴子中應該有一隻猴子會連擲硬幣10次均為正面。難道我們需要把這隻猴子作為典型案例,號召所有猴子向它學習,將其“成功”擲幣的經驗進行推廣嗎?

因此,步入資訊社會,大資料概念的流行對於習慣於形象思維的國人是一個很好開闊眼界機會,從古到今,相信奇蹟的人為數不少,而相信常識或相信概率的卻不那麼多。例如,為何澳門博彩業會如此繁榮,規模是拉斯維加斯的四五倍呢?就是因為“相信奇蹟(一夜暴富)”的國人太多了。

在國內,你會發現類似“成功學”的書特別好銷,但就“成功”本身而言,其比例一般都很低,否則就不叫成功了。也就是說,成功只能是個案,但大部分人只對成功的個案有興趣,對成功率茫然無知。

盲目相信大資料並不可取

上一部分的核心觀點是大資料比個案更有說服力。但是,過度迷信大資料也有問題。以股市為例,目前A股市場的上市公司數量超過3000家,所有上市公司的盈利等財務資料累加起來,也構成了大資料。

從2016年開始,上市公司的整體ROE都在上升,但為何股市的估值水平卻在下移呢?為何商品房銷量屢創新高,房企的盈利也出現了高增長,但房地產股卻大幅下跌?說明藉助大資料來預測未來,必須搞清楚資料與預測物件之間的邏輯關係。其實,股價應該是領先指標(或稱晴雨表),大資料則是滯後指標。房地產股的下跌,或是反映了股市投資者對國內樓市未來下跌的擔憂。

同樣,2017-18年上市企業盈利整體增速超過兩位數,但不意味著2019年盈利增速不下降,當投資者看到經濟增速下行的長期趨勢,就會對企業未來的盈利前景感到擔憂。

此外,大資料總量資料固然重要,但“內部結構”還需要分析:為何這兩年股市中的“中小創”跌幅較大?是因為其歷史的估值水平較高,儘管其盈利增速並不低,但面臨市場趨向理性之後的估值水平下移壓力。

所以,盲目偏信大資料反而容易產生誤判,只有運用合適邏輯分析方法,才能把大資料的結構和特徵描述清楚。例如,由於A股中大市值公司的估值水平比較低,如銀行股的利潤總額加起來要佔到所有上市公司總利潤的一半左右,且大部分銀行的PE只有5-7倍;所有上市公司PE加權平均之後,就很低了,但從PE的中位數看,估值水平仍然不低(目前23倍左右)。

我國的成語中也有類似對大資料“滯後”特性的描述,如盛極而衰,表示資料雖然非常好看,但可能意味著衰退。而且,正是由於人們偏愛“用資料說話”,因此,資料作假現象也屢見不鮮,從而導致總量資料與實際相背離,或者資料之間的勾稽關係出現矛盾。本人曾在2012年專門對存在誤差可能性的巨集觀資料做了分析(見拙作《中國經濟結構存在誤判》)。

為何會發生黑天鵝事件:還是要相信邏輯

17世紀之前,歐洲人都認為天鵝都是白的,因為他們所見到的各大洲(歐洲、亞洲、非洲)及各個地方的天鵝,無一例外地都是白色的——這就是用歸納法對大資料處理所得出的結論。一直到人們在澳洲發現第一隻黑天鵝之後,天鵝都是白色的結論就被推翻。從此之後,人們就把意想不到事件的發生,稱之為黑天鵝事件,這說明大資料的缺陷所在——樣本不能被窮盡,因此,大資料可以用來“證偽”,卻不能用來證明。

例如,外星球究竟有沒有生命的問題,大部分科學家都認為肯定有生命,其邏輯就是概率分佈,因為茫茫宇宙中的星球不計其數,難道只有唯一一個地球上有生命?但概率只是代表可能性,觀察的樣本數量再大,也無法找到一個例證來證明外星球上確有生命。

而大資料的運用,大部分採用歸納法——人類思維中90%以上的機率都在使用歸納法,因為歸納法不需要運用太多的知識;不像演繹法,它先要掌握不少知識或定理,然後再據此去推理。例如前段時間英國皇家學會前主席阿提亞爵士宣稱證明了黎曼猜想,是否真的證明了姑且不論,但證明過程所需要的深奧專業知識,肯定不是一般人所能觸及的。

事實上,西方在基礎研究領域的巨大成就,大部分都是在17世紀之後取得的,遠沒有跨入大資料時代,且大部分沒有采取實驗室研究的方式,但至今大部分成果都被廣泛應用到社會經濟、科技生產的各個領域。

也就是說,17世紀之後,西方抽象思維得到極大發展,建立了數學、物理的科學體系,進而又推動了科技進步,從而拉大了中西方在科技領域的差距。

相比之下,從中國歷史上所取得的科學成果看,能體現抽象思維的東西比較少,形式邏輯在中國沒有充分發展,春秋戰國時代,形成邏輯也曾有過發展,但最終卻演變成了“詭辯術”,如公孫龍(前320年-前250年)就提出了“白馬非馬”之說,因此,中國曆朝歷代的思維還是見長於歸納法和辯證法。

舉個例子:南宋數學家楊輝在1261年所著的《詳解九章演算法》一書中,展現了二項式係數在三角形中的一種幾何排列,因此,“楊輝三角”實質上是把二項式係數圖形化,把組合數內在的一些代數直觀地從圖形中體現出來。

相信大資料還是相信邏輯

但他並沒有在其著作給出具體推導過程,所以,我們只能認為“楊輝三角”是通過歸納總結髮現的,未能把它進一步抽象為“二項式定理”,而牛頓就給出了二項式定理的一般公式和推導過程。即:

相信大資料還是相信邏輯

由於形式邏輯、演繹法在中國五千年的漫長曆史中沒有得到充分發展,這才是導致我國近代科技發展遲緩的根本原因,而不是所謂的制度因素。為什麼哲學、宗教、文化乃至醫學等都有中西方之分,但數理化就沒有“中國數理化”而是照搬西方的呢?因為這些學科都不能通過經驗(或稱大資料歸納)、傳承或辯證法來創設的。

三年前,我提出要相信邏輯,不要相信奇蹟(個案)。如今進入了大資料時代,仍然提倡:在大資料面前,更要相信邏輯,雖然大資料比個案更有說服力,但大資料同樣存在失真、變異、滯後甚至被操縱的可能性。

例如,去年以來公佈的統計資料顯示企業的盈利增速大幅提高,但為何企業的投資增速卻大幅下降呢?大資料不能解釋,但邏輯卻可以作合理解釋:供給側改革、環保標準提高等導致供給端被壓縮,進而導致上游商品價格上漲,大企業盈利增速上升。

社會經濟的發展,看似千姿百態,但也有其共性。比如,二戰之後的今天,市場經濟最終成為全球幾乎所有國家的共同體制,說明這個體制合乎經濟可持續增長的邏輯。這正如價值投資成為全球絕大部分資本市場的共同理念一樣,唯有如此,才能獲得較大的回報。

縱觀全球各國經濟走勢,都會發生波動,儘管波動劇烈時政府部門會採取逆週期的政策,試圖通過干預市場來避免發生危機,但事實上卻很難避免。也有些國家儘管沒有爆發危機,但其代價是往往經濟停滯和債務高企。因此,就像價值投資理念對資本市場的影響一樣,邏輯產生作用可能會遲到,但不會缺席。

講到這裡給大家推薦一個大資料學習裙:  593--188--122,裡面有的大資料零基礎入門資料,進階資料,面試面經等

下面給大家說如何學習大資料:

大資料的學習技術點

Hadoop核心

(1) 分散式儲存基石:HDFS

HDFS簡介 入門演示 構成及工作原理解析:資料塊,NameNode, DataNode、資料寫入與讀取過程、資料複製、HA方案、檔案型別、 HDFS常用設定 Java API程式碼演示

(2) 分散式計算基礎:MapReduce

MapReduce簡介、程式設計模型、Java API 介紹、程式設計案例介紹、MapReduce調優

(3) Hadoop叢集資源管家:YARN

YARN基本架構 資源排程過程 排程演算法 YARN上的計算框架

離線計算

(1) 離線日誌收集利器:Flume

Flume簡介 核心元件介紹 Flume例項:日誌收集、適宜場景、常見問題

(2) 離線批處理必備工具:Hive

Hive在大資料平臺裡的定位、總體架構、使用場景之Access Log分析 Hive DDL&DML介紹 檢視 函式(內建,視窗,自定義函式) 表的分割槽、分桶和抽樣 優化

(3) 速度更快的Hive:Impala

Impala在大資料架構中的角色 架構 資料處理過程 一般使用步驟:建立表,分割槽表,查詢等 常用查詢演示:統計,連線等、Impala與Hive的比較 常用配置與最佳使用建議(查錯,調優等)

(4) 更快更強更好用的MR:Spark

Scala&Spark簡介 基礎 Spark程式設計(計算模型RDD、運算元Transformation和Actions的使用、使用Spark製作倒排索引)Spark SQL和DataFrame 例項:使用Spark SQL統計頁面PV和UV

實時計算

(1) 流資料整合神器:Kafka

Kafka簡介 構成及工作原理解析 4組核心API 生態圈 程式碼演示:生產並消費行為日誌

(2) 實時計算引擎:Spark Streaming

Spark Streaming簡介 工作原理解剖 編寫Streaming程式的一般過程 如何部署Streaming程式? 如何監控Streaming程式? 效能調優

(3) 海量資料高速存取資料庫:HBase

HBase簡介 架構及基本元件 HBase Table設計 HBase基本操作 訪問HBase的幾種方式

大資料ETL

(1) ETL神器:Sqoop,Kettle

資料同步ETL介紹 Kettle常用元件介紹 、抽取Mysql資料到Hive實戰 Sqoop介紹、抽取Hive資料到Mysql實戰

(2) 任務排程雙星:Oozie,Azkaban

ETL與計算任務的統一管理和排程簡介 Crontab排程的方案 自研排程系統的方案 開源系統Oozie和Azkaban 方案總結與經驗分享

大資料應用與資料探勘

(1) 大資料全文檢索引擎:Elasticsearch

全文檢索基礎知識,ES安裝及初級介紹,ES深入理解,使用經驗介紹

(2) 資料倉庫搭建

為什麼要構建大資料平臺 大資料平臺的的經典架構 深入剖析“五橫一縱”的架構實踐 知名網際網路公司大資料平臺架構簡介

(3) 資料視覺化

什麼是資料視覺化,資料視覺化常用工具與必備技能介,Tableau和ECharts實操講解 ECharts介紹,知名互金公司視覺化經驗介紹

(4) 演算法介紹

介紹資料探勘,機器學習,深度學習的區別,R語言和python的介紹,邏輯迴歸演算法的介紹與應用,以及主要的推薦演算法介紹