1. 程式人生 > >每個人都應該知道的15個大資料術語

每個人都應該知道的15個大資料術語

1.演算法。“演算法”如何與大資料相關?即使演算法是一個通用術語,但大資料分析使其在當代更受青睞和流行。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

2.分析。年末你可能會收到一份來自信用卡公司寄來的包含了全年所有交易記錄的年終報表。如果你有興趣進一步分析自己在食物、衣服、娛樂等方面具體花費佔比呢?那你便是在做“分析”了。你正從一堆原始資料中來吸取經驗,以幫助自己為來年的消費做出決策。如果你正在針對整個城市人群對Twitter或Facebook的帖子做同樣的練習呢?那我們便是在討論大資料分析了。大資料分析的實質是利用大量資料來進行推斷和講故事。大資料分析有3種不同到的型別,接下來便繼續本話題進行依次討論。

3.描述性分析。剛剛如果你告訴我,去年你的信用卡消費在食物上花費了25%、在服裝上花費了35%、娛樂活動上花費了20%、剩下的就是雜七雜八的事項,這種便是描述性分析。當然你還可以參考更多的細節。

4.預測分析。如果你根據過去5年的信用卡歷史記錄來進行分析,並且劃分具有一定的連續性,則你可以高概率預測明年將與過去幾年相差無幾。此處需要注意的細節是,這並不是“預測未來”,而是未來可能會發生的“概率”。在大資料預測分析中,資料科學家可能會使用類似機器學習、高階的統計過程(後文將對這些術語進行介紹)等先進的技術去預測天氣、經濟變化等。

5.規範分析。沿用信用卡交易的案例,你可能想要找出哪方面的支出(級食品、服裝、娛樂等)對自己的整體支出產生巨大的影響。規範分析建立在預測分析的基礎之上,包含了“行動”記錄(例如減少食品、服裝、娛樂支出),並分析所得結果來“規定”最佳類別以減少總體支出。你可以嘗試將其發散到大資料,並設想高管們如何通過檢視各種行動的影響來做出資料驅動的決策。

6.批處理。雖然批量資料處理在大型機時代就早已出現,但大資料交給它更多大資料集處理,因此賦予了批處理更多的意義。對於一段時間內收集到的一組事務,批量資料處理為處理大量資料提供了一種有效的方法。後文將介紹的Hadoop便是專注於批量資料處理。超越批處理的世界:流計算 使用Spark SQL構建批處理程式。

7. Cassandra是由Apache Software Foundation管理的一款流行的開源資料庫管理系統。很多大資料技術都歸功於Apache,其中Cassandra的設計初衷便是處理跨分散式伺服器的大量資料。

8. 雲端計算。顯而易見雲端計算已經變得無所不在,所以本文可能無須贅述,但為了文章的完整性還是佐以介紹。雲端計算的本質是在遠端伺服器上執行的軟體和(/或)資料託管,並允許從網際網路上的任何地方進行訪問。

9. 叢集計算。它是一種利用多臺伺服器的彙集資源的“叢集”來進行計算的奇特方式。在瞭解了更多技術之後,我們可能還會討論節點、叢集管理層、負載平衡和並行處理等。

10. 黑暗資料。依我看來,這個詞適用於那些嚇得六神無主的高階管理層們。從根本上來說,黑暗資料是指那些被企業收集和處理但又不用於任何有意義用途的資料,因此描述它是“黑暗的”,它們可能永遠被埋沒。它們可能是社交網路資訊流、呼叫中心日誌、會議筆記,諸如此類。人們做出了諸多估計,在60-90%的所有企業資料都可能是“黑暗資料”,但無人真正知曉。

11. 資料湖。當我第一次聽到這個詞的時候,我真的以為有人在開愚人節的玩笑。但它真的是個術語!資料湖是一個原始格式的企業級資料的大型儲存庫。雖然此處討論的是資料湖,但有必要再一起討論下資料倉庫,因為資料湖和資料倉庫在概念上是極其相似的,都是企業級資料的儲存庫,但在清理和與其他資料來源整合之後的結構化格式上有所區別。資料倉庫常用於常規資料(但不完全)。據說資料湖能夠讓使用者輕鬆訪問企業級資料,使用者真正按需知道自己正在尋找的是什麼、如何處理並讓其智慧化使用。擁抱開源技術的前提——認識資料湖 你知道資料湖泊(DATA LAKE)嗎?

12. 資料探勘。資料探勘是指利用複雜的模式識別技術從大量資料中找到有意義的模式、提取見解。這與我們前文討論的使用個人資料做分析的術語“分析”密切相關。為了提取出有意義的模式,資料探勘者使用統計學(是呀,好老的數學)、機器學習演算法和人工智慧。

13.資料科學家。我們談論的是一個如此熱門的職業!資料科學家們可以通過提取原始資料(難道是從前文所說的資料湖中提取的?),處理資料,然後提出新見解。資料科學家所需具備的一些技能與超人無異:分析、統計、電腦科學、創造力、故事講述和理解業務環境。難怪他們能獲得如此高的薪水報酬。

14.分散式檔案系統。由於大資料太大而無法在單個系統上進行儲存,分散式檔案系統提供一種資料儲存系統,方便跨多個儲存裝置進行大量資料的存放,並有助於降低大量資料儲存的成本和複雜度。

15. ETL。ETL分別是extract,transform,load的首字母縮寫,代表提取、轉化和載入的過程。 它具體是指“提取”原始資料,通過資料清洗/修飾的方式進行“轉化”以獲得 “適合使用”的資料,進而“載入”到合適的儲存庫中供系統使用的整個過程。儘管ETL這一概念源於資料倉庫,但現在也適用於其它情景下的過程,例如在大資料系統中從外部資料來源獲取/吸收資料。