1. 程式人生 > >舉例說明 數據分析思維

舉例說明 數據分析思維

挖掘 過大 帶來 求職 tro 技術 調研 取整 搭建

前兩天刷知乎的時候看到這樣的問題

“為什麽我國人才流失如此嚴重?”

題主的疑問來自於×××的數據:
技術分享圖片

2014年出國人數為46萬,而回國人數僅為36.5萬

兩者相除,得出“歸國率”僅為79% ,而2015年僅有78%

因此,題主得出結論:我國海外人才大量流失


隨後,各路人馬紛紛跳出來,開始一本正經地分析為什麽中國人才流失這麽嚴重。

問題是,這樣的數據解讀正確嗎?

用同一年內的出國人數和歸國人,計算出來的所謂“歸國率”,真的有意義嗎?

如果這個數據本身就沒有意義,那麽“分析”背後的“原因”,無疑是南轅北轍了。

——請先思考一分鐘——

2015年歸國的留學生,肯定在2014年甚至更早就出國了。

極少有學校會開設1月入學,12月畢業的Program。

所以,這裏用同一年內的回國人數和出國人數相除,算出來的所謂“歸國率”純粹是瞎幾把算。

一般國外本科是3-4年,美國的master是1.5-2年,英國及英聯邦是1-1.5年,PhD一般要5年。

由於查不到不同項目人數的比例,因此保守估計平均出國年份為2年。
技術分享圖片

-

根據×××的數據,2015年回國是40.9萬,往前推2年,2013年出國人數是41.4萬。

2915年歸國率 = 40.9/41.4 ≈ 99%,遠高於所謂的“78%”。

同理,2014年的歸國率是 91%,2013年甚至超過100%(可能是由於較多其他年份出國留學的學生在2013年集中回國,導致數據爆表)。

近幾年的歸國率均高達90%以上,因此“我國人才流失嚴重”顯然是不成立了。

所以說,以後數據分析之前應該先動動腦子,不要總想著搞個大新聞批判一番。


這個問題是解決了,那麽還能挖出什麽別的東西呢?

還可以觀測趨勢。

整理了從1949-2015年,每一年的出國留學和歸國人數。

加總後,得到歸國人數總計218萬,出國人數總計292萬(不含2014和2015年),從而得出回國率75%。

為什麽總體只有75%?這和我們計算的2013-2015年的歸國率相差甚大。

首先做一個簡單推測:早年的歸國率低,因此整體歸國率被拖了後腿

分別計算每年的歸國率(篇幅原因,取1980年開始):
技術分享圖片
果然,從改革開放以來,大部分年份的歸國率是非常低的,算術平均數僅為63%。

因此得出結論:近年來,越來越多的留學生選擇回國

那麽,還能不能挖掘出別的東西?

在分析過程中,我發現了一個有趣的現象,如果只看2000年以後的數據,2003-2008年出現了明顯的窪地。
技術分享圖片
為了找出原因,特別是要規避計算方法帶來的錯誤,我計算了出國和歸國人數的逐年增長率(YoY Growth)。
技術分享圖片
數據表明,2000-2002年出現了一波出國的高潮,隨後增長率迅速下降,甚至出現負增長,直到2008年以後才恢復到了20%+的增長率。

所以,2008年實際上是一個分水嶺,08年之後,出國留學變得更加熱門。

結合平時實際了解的出國人群的情況,我們可以做這樣一個假設:2008年以前出國人群中,本科和博士比例更高,2008年以後則是碩士比例更高。

因此,2008年以前出國的學生,在國外停留的時間應該更長,我們不妨認為這個平均時間是3.5年,取整為4年。

重新計算歸國率後:
技術分享圖片
結果,不僅2005-2007年的窪地沒有改變,還在2002年出現了一波高峰。

因為這裏已經排除了計算方法帶來的錯誤,因此需要去探究背後的動因。

但想要真正透徹地探究其中的原因,只能通過大規模調研的方式詢問當時的留學生,顯然不太現實。


在這裏先開一波腦洞大致推測下原因:

  • 2001年,中國發生了幾件大事:申奧成功,WTO,APEC會議,因此鼓舞了一批留學生在2002年集中回國效力

  • 2004-2008年,國內輿論風波逐漸興起,各路公知興風作浪,在2008年到達頂峰,這幾年的留學生更多選擇在留在國外

  • 2008年,內有雪災、地震、毒奶粉,外有分裂反華勢力,中國在內交外困之下成功地舉辦奧運會,從此國內輿論形式逐漸反轉;加之全球性的金融危機,導致海外的機會減少,大批留學生又選擇回國發展。

如果這是一次正式的數據分析,我們可以利用調研結果進一步分析出留學生回國的驅動因素,進而預測未來幾年的歸國率。

綜上,數據分析首先要保證數據和方法的準確性,然後大膽假設,小心求證。在不斷地論證中,會逐漸挖掘出有價值的新信息。

除此以外,這些數據還可以做別的嗎?

還可以匡算市場規模。

從2015年開始,每年出國留學的人數已經超過了50萬。

算上出國留學有至少2-3年的準備期,那麽留學產業每年的基礎人群高達150萬

由此可以大致分別估算留學考試輔導、留學咨詢/中介、國際學校的市場規模

同理,每年歸國的留學生超過40萬,這些留學生都需要在國內求職。

算上1-2年的準備期,由此可以大致估算求職輔導(針對留學生)的市場規模


以上這些僅僅是最簡單最粗淺的分析。

在實際咨詢項目中,一般會首先通過多方渠道驗證數據的準確性,然後搭建模型進行深入地分析,當然同樣少不了反復驗證的程序,結合定性分析,得出最終的結論。

舉例說明 數據分析思維