R極簡教程-1:資料分析前景
這是我自己寫的一個教程,是我幾年來用R語言的一些經驗整理,寫的不好,有些觀點可能也不對,有些技術用的可能也不好。如果有問題,還請理性提出。
資料分析之我見
資料分析是一個久已有之的行當了,最早出現的地方,應該是可能是在幾百年前的科學領域,絕大多數的科學,其實都是實驗+資料的模式,實驗自然就是各種試管儀器鐳射化學,但是實驗最終會產出資料,科研的後半部分就是資料分析。這樣的模式一直延續到的今天,今天的大部分理工科博士做的工作,都是資料分析,所以,如果想要找資料分析方面的人,其實理工科博士是很合適的物件。
另外,資料分析的最主要工具是統計學。相比於機器學習、人工智慧等等新潮的科技,統計學絕對擁有非常淵源的歷史。當然,統計學也是有高低之分的。計算一個平均數叫做統計,建一個統計模型也是統計,這兩者之間差距是天壤之別的。再大部分的問題中,統計學一般都能給出比較好的解答
最新的人工智慧(AI)對我來說是一個很尷尬的詞語,因為我本科的時候,現今的“人工智慧”中的大部分東西,還被叫做“模式識別”(我用的是清華大學張學工的教材)。簡而言之就是,用資料來做分類、聚類、預測……之類的工作。但是在我本科畢業之後,這其中的很多內容被叫做人工智慧、又被叫做機器學習,然後又被叫做資料科學……所以到了今天,我很不願意聽到有人跟我說自己是做人工智慧或者機器學習的,更願意聽到別人直接告訴我:我是做廣義線性迴歸的、神經網路的、推薦系統的……這樣我可以更快地在大腦裡檢索到他在做的具體東西。
圖:資料分析的一些基本方面。轉自連結
資料分析的高下之分
另外,如果所資料分析師的職責是什麼,最簡單的功能當然就是分析資料。但是資料分析也是分難度的,比如說:
用Excel處理一些小資料當然也叫資料分析,但是面對上億行的資料,Excel幾乎就沒什麼用了。
用R或者Python載入一批結構很清晰的資料沒什麼難度。但是如果資料雜亂無章,需要正則表示式提取,可能就沒那麼容易。
資料來了,能不能分析正確是是一個很大的問題。比如說:我見過的絕大多數資料分析,都是濫用平均值的。但是隻要稍微學過統計學的人,都知道除非資料分佈符合正太分佈,否則均值說明不了太多問題。(這就是為什麼上海人均收入7000+,而中位數才3000,身為看報告的人,你更願意看到中位數還是均值?)
準確度也是一個問題。線性迴歸可謂是最簡單實用的預測模型,至今都被大部分的學術課題利用。誠然相比於極度複雜的“深度學習模型”,它準確度可能沒那麼高。但是你願意花10秒鐘,用lm模型完成線性迴歸得到一個80%的準確度,還是花40萬,僱傭一個深度學習博士,折騰一兩年,得到一個90%的準確度?(那個博士如果跳槽了,可能那個模型都沒人能維護……)
再說能力的問題。如果做BI(商業智慧)或者審計會計,能用Excel不停地像是機器一樣重複操作可能就夠了。但如果你想要做一些漂亮的視覺化,可能需要學習Echart、Plotly、D3等等……如果你還希望你的東西能上線執行,你還的學習如何搭建網站前端後臺等等……
…
總而言之,我覺得,資料分析是一個想要挖的話可以無窮地挖下去的東西(我可能會一直挖下去)。從最簡單的Excel,到最深的複雜人工智慧模型,每一個模型背後都有複雜的數學推導,再加上各種工具和語言,這絕對是一個可以讓人學習一生的行業。
我不太喜歡現在社會上對於資料分析過於浮誇的描述,也不喜歡太多的新穎詞彙包裝。從資料科學、增長黑客、人工智慧、機器學習,預測學習等等……很多概念互相都交叉重複,這真的沒有太多的意義。不過大概IT已經和投資和金融糾纏在一起了,任何與投資金融纏再一起的東西,都會快速出現泡沫和各種概念名詞……
資料分析前景
*圖:國外的digital analytics的職位薪水情況,總的趨勢是上漲(This chart provides the 3-month moving average for salaries quoted in permanent IT jobs citing Digital Analyst within the UK.)轉自連結
我覺得不會有問題。資料分析就和審計、財務、勘探、挖掘、冶煉……等等非常實際的技術一樣,不是什麼虛的東西,能夠真切掌握資料分析,肯定出路是很好的。就我個人感覺,有幾點額外的感想:
1: 科研學術界從古至今都是資料分析的最大提供方和需求方。尤其到了當代,資料分析的需求簡直可以用“飢渴”來形容。計算生物學、計算化學、計算物理學、計算社會學、計算天文學……這些學科,其實全部都是基於那些領域的資料分析工作。而且難度一點都不小。
2:資料分析搞的厲害真的很難,需要常年的積累和不斷地學習。現在有太多人搞一些很粗淺的資料分析,然後就自稱資料分析師了。哎……我博士都快畢業了,都不敢稱,因為我統計說不上大師。
3:現在資料分析真的應該更多地被人重視。經濟學新聞的那些資料分析統計,很多都是錯的,或者隱瞞了很多問題。雄安新區規劃釋出了,有沒有人研究一下,上海浦東20年發展的狀況呢?
4: 資料分析是非常非常依賴分析員本身的,我也覺得目前還不存在被AI替代的可能性。因為分析什麼、用什麼分析、分析的結果是怎樣的,這些都是問題,而這些問題都需要分析員本身去解決,可以這麼說,分析這個行業沒有什麼具體的規範:諮詢師可以成為分析師、博士後也是分析師……高下是很難判斷的。
在這一部分,我簡要說了一下我對於資料分析的理解。