舉例說明 數據分析思維
前兩天刷知乎的時候看到這樣的問題:
“為什麽我國人才流失如此嚴重?”
題主的疑問來自於×××的數據:
2014年出國人數為46萬,而回國人數僅為36.5萬。
兩者相除,得出“歸國率”僅為79% ,而2015年僅有78%。
因此,題主得出結論:我國海外人才大量流失。
隨後,各路人馬紛紛跳出來,開始一本正經地分析為什麽中國人才流失這麽嚴重。
問題是,這樣的數據解讀正確嗎?
用同一年內的出國人數和歸國人,計算出來的所謂“歸國率”,真的有意義嗎?
如果這個數據本身就沒有意義,那麽“分析”背後的“原因”,無疑是南轅北轍了。
——請先思考一分鐘——
2015年歸國的留學生,肯定在2014年甚至更早就出國了。
極少有學校會開設1月入學,12月畢業的Program。
所以,這裏用同一年內的回國人數和出國人數相除,算出來的所謂“歸國率”純粹是瞎幾把算。
一般國外本科是3-4年,美國的master是1.5-2年,英國及英聯邦是1-1.5年,PhD一般要5年。
由於查不到不同項目人數的比例,因此保守估計平均出國年份為2年。
-
根據×××的數據,2015年回國是40.9萬,往前推2年,2013年出國人數是41.4萬。
2915年歸國率 = 40.9/41.4 ≈ 99%,遠高於所謂的“78%”。
同理,2014年的歸國率是 91%,2013年甚至超過100%(可能是由於較多其他年份出國留學的學生在2013年集中回國,導致數據爆表)。
近幾年的歸國率均高達90%以上,因此“我國人才流失嚴重”顯然是不成立了。
所以說,以後數據分析之前應該先動動腦子,不要總想著搞個大新聞批判一番。
這個問題是解決了,那麽還能挖出什麽別的東西呢?
還可以觀測趨勢。
整理了從1949-2015年,每一年的出國留學和歸國人數。
加總後,得到歸國人數總計218萬,出國人數總計292萬(不含2014和2015年),從而得出回國率75%。
為什麽總體只有75%?這和我們計算的2013-2015年的歸國率相差甚大。
首先做一個簡單推測:早年的歸國率低,因此整體歸國率被拖了後腿。
分別計算每年的歸國率(篇幅原因,取1980年開始):
果然,從改革開放以來,大部分年份的歸國率是非常低的,算術平均數僅為63%。因此得出結論:近年來,越來越多的留學生選擇回國。
那麽,還能不能挖掘出別的東西?
在分析過程中,我發現了一個有趣的現象,如果只看2000年以後的數據,2003-2008年出現了明顯的窪地。
為了找出原因,特別是要規避計算方法帶來的錯誤,我計算了出國和歸國人數的逐年增長率(YoY Growth)。
數據表明,2000-2002年出現了一波出國的高潮,隨後增長率迅速下降,甚至出現負增長,直到2008年以後才恢復到了20%+的增長率。所以,2008年實際上是一個分水嶺,08年之後,出國留學變得更加熱門。
結合平時實際了解的出國人群的情況,我們可以做這樣一個假設:2008年以前出國人群中,本科和博士比例更高,2008年以後則是碩士比例更高。
因此,2008年以前出國的學生,在國外停留的時間應該更長,我們不妨認為這個平均時間是3.5年,取整為4年。
重新計算歸國率後:
結果,不僅2005-2007年的窪地沒有改變,還在2002年出現了一波高峰。因為這裏已經排除了計算方法帶來的錯誤,因此需要去探究背後的動因。
但想要真正透徹地探究其中的原因,只能通過大規模調研的方式詢問當時的留學生,顯然不太現實。
在這裏先開一波腦洞大致推測下原因:
2001年,中國發生了幾件大事:申奧成功,WTO,APEC會議,因此鼓舞了一批留學生在2002年集中回國效力;
2004-2008年,國內輿論風波逐漸興起,各路公知興風作浪,在2008年到達頂峰,這幾年的留學生更多選擇在留在國外;
- 2008年,內有雪災、地震、毒奶粉,外有分裂反華勢力,中國在內交外困之下成功地舉辦奧運會,從此國內輿論形式逐漸反轉;加之全球性的金融危機,導致海外的機會減少,大批留學生又選擇回國發展。
如果這是一次正式的數據分析,我們可以利用調研結果進一步分析出留學生回國的驅動因素,進而預測未來幾年的歸國率。
綜上,數據分析首先要保證數據和方法的準確性,然後大膽假設,小心求證。在不斷地論證中,會逐漸挖掘出有價值的新信息。
除此以外,這些數據還可以做別的嗎?
還可以匡算市場規模。
從2015年開始,每年出國留學的人數已經超過了50萬。
算上出國留學有至少2-3年的準備期,那麽留學產業每年的基礎人群高達150萬。
由此可以大致分別估算留學考試輔導、留學咨詢/中介、國際學校的市場規模。
同理,每年歸國的留學生超過40萬,這些留學生都需要在國內求職。
算上1-2年的準備期,由此可以大致估算求職輔導(針對留學生)的市場規模。
以上這些僅僅是最簡單最粗淺的分析。
在實際咨詢項目中,一般會首先通過多方渠道驗證數據的準確性,然後搭建模型進行深入地分析,當然同樣少不了反復驗證的程序,結合定性分析,得出最終的結論。
舉例說明 數據分析思維