1. 程式人生 > 其它 >學習大資料需要學習機器學習嗎?

學習大資料需要學習機器學習嗎?

如今,大資料技術的發展使得我們的生活變得更加便利,更加智慧化,作為一門交叉型的IT技術,在大資料學習的時候需要學習機器學習嗎?

機器學習的概念

機器學習是一門涉及概率論、統計學、近似理論、凸分析、演算法複雜性理論等多領域交叉學科。機器學習是研究計算機如何模擬或實現人類的學習行為,從而獲得新的知識或技能,重組現有的知識結構並不斷提高其效能。

關於機器學習有以下幾種定義:

① 機器學習是一門人工智慧的科學,該領域的主要研究物件是人工智慧,特別是如何在經驗學習中提高特定演算法的效能。

② 機器學習是對可以通過經驗自動改進的計算機演算法的研究。

③ 機器學習是利用資料或過去的經驗來優化計算機程式的效能標準。

從以上我們可以看見,機器學習是一門人工智慧的科學,在人工智慧中是有涉及到大資料技術,人工智慧可以這麼來解釋需要利用大資料技術收集大量的資料並分析其資料集合,再結合機器學習技術來不斷的通過學習來改善自身,創造出屬於自己的一套模式。

然而在機器學習中是涉及到了演算法、概率論、統計學等方面的知識,在瞭解過大資料技術所需要學習的技能知識後,是可以知道大資料技術學習中的技能就包括有演算法、概率論及統計學等,比如大資料探勘所需要學習的技能知識:

① 工程能力

a.程式設計基礎:掌握一門大資料處理技術所需要的程式語言,小編優推Java語言;其次就是掌握一門資料庫及資料庫語言—MySQL資料庫及SQL語句。

b.開發平臺:LInux系統(如今主流的大資料技術框架是基於Linux系統開發並執行的)。

c.資料結構與演算法分析基礎:掌握常見的資料結構以及操作(線性表,隊,列,字串,樹,圖等),掌握常見的計算機演算法(排序演算法,查詢演算法,動態規劃,遞迴等)。

d.海量資料處理平臺:Hadoop或者Spark。

② 演算法能力

a.數學基礎:概率論,數理統計,線性代數,隨機過程,最優化理論。

b.機器學習 / 深度學習:掌握常見的機器學習模型(線性迴歸、邏輯迴歸、SVM、感知機;決策樹、隨機森林、GBDT、XGBoost;貝葉斯、KNN 、K-means、EM 等);掌握常見的機器學習理論(過擬合問題、交叉驗證問題、模型選擇問題、模型融合問題等);掌握常見的深度學習模型(CNN、RNN 等);

c.自然語言處理:掌握常見的方法(tf-idf 、word2vec 、LDA);

可以清楚地看到,在上面對於大資料探勘方向所需要學習的技能知識包含有機器學習,但不是所有的大資料研究方向都需要學習機器學習,比如大資料開發,大資料開發中更多是涉及到計算機程式設計方面的知識,僅需要學習前端技術、程式語言、資料庫、Linux系統及大資料技術框架。

因此學習大資料是否需要學習機器學習是根據大資料的研究方向,也可以說是就業方向來決定的。