1. 程式人生 > >資料科學軟體哪家強?祕密都在招聘廣告裡

資料科學軟體哪家強?祕密都在招聘廣告裡

全文共2367字,預計學習時長5分鐘

圖片來源:unsplash.com/@markusspiske

2019年以來,資料科學從業人員的需求持續增長,那麼各大資料科學軟體的流行程度如何呢?哪些是從業人員必須要掌握的“必殺器”?

事實上,要想衡量資料科學軟體的普及度或市場份額,最好的方法之一就是統計有多少份招聘廣告將掌握這些軟體作為應聘要求。招聘廣告以資金作為支撐,涵蓋豐富資訊,因此它們或許是衡量各軟體流行程度的最佳標準。各種軟體職位招聘需求的變化也為我們預測未來的就業趨勢提供了契機。

Indeed.com是美國最大的招聘網站,擁有最豐富的招聘廣告資源,正如其創始人之一、前任CEO保羅·福斯特所說,Indeed.com的主要招聘板塊綜合了來自1000多家招聘網站的資源——包括Monster、CareerBuilder、HotJobs、Craigslist——同時還包括來自上百家報刊、協會以及公司網站的資訊。Indeed.com的搜尋功能也異常強大,它曾經還會繪製就業趨勢圖,但這個功能顯然已經下線了。

用Indeed.com 來搜尋職位輕而易舉,但用它從大量招聘資訊中公平地搜尋並對比軟體卻並不容易。有些軟體只應用於資料科學領域(例如SPSS、Apache Spark),而另外一些除了資料科學領域,還更大量地應用於與報告撰寫相關的職位(例如SAS、Tableau)。通用語言(例如Python、C、Java)在資料科學工作中應用十分廣泛,但大部分使用這些語言的職位實際上和資料科學並無關聯。

圖片來源:unsplash.com/@lebenslauf

為了讓結果更加公平,本文設計了一種方法,使搜尋只集中於資料科學崗位範圍內。

本文的職位資料採集自2019年5月27日和2017年2月24日。有人可能會認為來自一天內的資料樣本缺乏穩定性,但Indeed.com 涵蓋了極其豐富的崗位資源,這使其資料具備了一慣性。在分析2014年和2017年的資料時,我們將r=0.94, p=0.002。

從圖1a中可知,Python的招聘需求量最大,有27374個職位;SQL緊隨其後,為25877個;接下來是Java和亞馬遜的機器學習軟體ML,都有17000多個崗位,共佔總需求量的25%左右;R和C的需求量為13000左右。

人們經常將R和Python相提並論,但對於資料科學職位來說,對R的需求僅為Python的一半。當然,這並不代表這些崗位型別是相同的,資料分析人員仍然更傾向於使用R,而機器學習的相關工作者則偏愛Python。但毋庸置疑的是,Python正在變得越來越熱門。

從Hadoop往下,招聘需求量開始緩慢減少。人們也經常將R與SAS作對比,但從圖中來看,前者需求量為13800,後者僅為8123。

由於樣本數量過於龐大,圖中最底部的H2O需求量看起來幾乎為零,但實際上,其對應的職位數量為257。

圖1a. 流行度較高的軟體所對應資料科學職位需求量

圖1b將流行度較低的軟體單獨列了出來,以便進一步作比較。其中Mathematica 和Julia位列前兩名,需求量各為219左右。FORTRAN語言雖然已經很古老,但仍然以195的需求量活躍在資料科學領域。開放原始碼軟體WEKA和IBM公司的Waston緊隨其後,都在185左右。從XGBOOST再往下,各軟體需求量呈現出穩定的下降趨勢。

有一些軟體使用的是工作流介面,例如Enterprise Miner、KNIME、RapidMiner以及SPSS Modeler,這些軟體需求量都在50-100。如果用其它方式來衡量,RapidMiner都會領先於和它十分相似的KNIME,但在這張表中,後者需求量比前者多了一倍。Alteryx同樣使用工作流介面,但其需求量卻遠遠領先於其他同類軟體,並以901的需求量出現在表1a中。

圖1b. 流行度較高的軟體所對應資料科學職位需求量(少於250)

在圖1b中,底端的軟體招聘需求量看似為零,實際上也確實幾乎為零,從Systat往下,所有的軟體需求量都在10以下。

值得注意的是,兩張圖中的數值都採集自單個時間點,所以由於流行度較高的軟體每天的需求量變化都不會太大,圖1a中的相對排名在未來一兩年內都不可能發生太大波動。但圖1b中的軟體需求量都較低,因此這一排名每月都可能出現變化。不過時間越長,圖1b中的軟體相對於圖1a中的軟體的相對排名也將越趨於穩定。

現在來看從2017年到現在(2019年)各軟體招聘量的變化。圖1c列出了部分軟體在這兩年內需求量的變化百分比。這些軟體在2017年的需求量都至少為100,否則假如某一軟體在2017年的需求量為1,而在2019年增加為5,其增長率高達500%,但這一資料實際上並沒有什麼意義。圖中標紅的為越來越熱門的、需求量有所增長的軟體,而標藍的則是需求量有所減少的軟體。

圖1c. 2017年至2019年軟體招聘需求量變化百分比(僅限於2017年需求量大於100的軟體)

谷歌旗下的深度學習軟體Tensorflow以523%的增長率位居第一;資料流分析軟體Apache Flink以289%的增長率緊隨其後;接下來是增長率為150%的H2O;Caffe是另一款深度學習軟體,其增長率為123%,這反映出人工智慧演算法的普及度已很高。

雖然增長率“只有”97%,但Python實際上已經十分熱門,其需求量在兩年間增長了13471,這一數量已經超過了許多其他軟體需求量的總和。

Tableau增長的需求量為4784,這一數字相對來說雖然較小,但其增長趨勢和Python也大致相似。

從Julia往下,軟體需求量的增長率開始緩慢下降。出人意料的是,SAS和SPSS的增長率雖然較低,分別為6%和1%,但總體上仍然呈現出增長的趨勢。

留言 點贊 關注

我們一起分享AI學習與發展的乾貨

歡迎關注全平臺AI垂類自媒體 “讀芯術”

(新增小編微信:dxsxbb,加入讀者圈,一起討論最新鮮的人工