1. 程式人生 > >大資料工具千千萬,到底誰才是最強王者?

大資料工具千千萬,到底誰才是最強王者?

外面有成千上萬的大資料工具。它們都承諾可以為你節省時間和資金,並幫助發掘之前從來見過的業務洞察力。雖然確實如此,可是面對那麼多的選擇,想理清這麼多的工具談何容易。

哪一種工具適合你的技能組合?哪一種工具適合你的專案?

為了替你節省一點時間,並幫助你首次選對工具,我們列出了我們青睞的幾款資料工具,涉及資料提取、儲存、清理、挖掘、視覺化、分析和整合等領域。

資料儲存和管理

如果你準備處理大資料,就要考慮該如何儲存大資料。大資料得到“大”這個名號,一方面在於,大資料太龐大了,傳統系統處理不了。一家優秀的資料儲存提供商應該可以為你提供一套基礎設施,除了用來儲存和查詢資料外,你還可以在上面執行其他所有分析工具。

Hadoop

 


 

Hadoop這個名稱已成為了大資料的代名詞。它是一種開源軟體框架,用於在計算機叢集上分散式儲存非常龐大的資料集。這一切意味著你可以擴大或縮小資料規模,沒必要為硬體故障而擔心。Hadoop為任何一種資料提供了海量儲存空間、強大的處理能力以及處理幾乎無限制的併發任務或作業這一功能。

Hadoop並不適合資料初學者。想真正發揮其功能,你其實需要知道Java。這可能需要一番投入,但是Hadoop無疑值得你付出努力――因為其他許多公司和技術執行在它的基礎上或者與它整合起來。

Cloudera

 


 

 

說到Cloudera,它其實是Hadoop的一個品牌名,上面添加了一些額外服務。它可以幫助貴公司構建一個企業資料樞紐,讓貴企業的人員可以更方便地訪問所儲存的資料。

雖然確實有開源元件,但Cloudera主要還是一款企業解決方案,幫助公司管理Hadoop生態系統。實際上,它可以替你處理管理Hadoop的大量繁重工作。它還提供了一定級別的資料安全性,如果你要儲存任何敏感資料或私人資料,這至關重要。

MongoDB


 

MongoDB是新穎的現代資料庫方法,可謂是後起之秀。它好比是關係資料庫的替代技術。它適用於管理經常變化的資料或者非結構化或半結構化資料。

常見的使用場合包括:為移動應用程式、產品目錄、實時個性化、內容管理以及跨多個系統提供單一檢視的應用程式儲存資料。MongoDB同樣不適合資料新手。與任何資料庫一樣,你確實需要了解如何使用一種程式語言來查詢它。

Talend

 


 

Talend是另一家出色的開源公司,它提供許多資料產品。我們在這裡主要介紹其主資料管理(MDM)產品,該產品將實時資料、應用程式和流程整合與嵌入式資料質量及監管結合起來。

由於是開源產品,Talend完全免費,因而是個不錯的選擇,無論貴公司處於哪個發展階段。而且,它讓你沒必要構建和維護自己的資料管理系統――這是一項非常複雜而困難的任務。

開始入門

 


 

如果你對大資料完全一無所知,資料庫可能不是最適合入手的方面。它們比較複雜,確實需要具備一定的程式設計知識才能上手(這不像下面提到的其他許多工具)。然而,如果你確實想要從事或處理大資料,那知道資料庫的基本知識、聊起資料庫頭頭是道必不可少。你可以全面瞭解推動大資料的技術,包括資料庫和儲存發展史、關係資料庫和文件資料庫的區別、大資料的挑戰以及必不可少的工具,還有Hadoop簡要介紹。

資料清理

 


 

在你真正挖掘資料、獲取洞察力之前,需要清理資料。儘管建立一個整潔、結構清晰的資料集總是好做法,但有時這並非始終行得通。資料集可能形狀和大小不一(有些好的,有些不太好!),尤其是你從網上獲取資料時。下列公司可以幫助你完善和重組資料,處理成實用的資料集。

OpenRefine


 

OpenRefine(以前叫GoogleRefine)是一種開源工具,專門用於清理凌亂的資料。你可以輕鬆快速地瀏覽龐大的資料集,即便資料有點非結構化。就資料軟體而言,OpenRefine很易於使用。不過,熟悉資料清理原則肯定有所幫助。OpenRefine好就好在,它有一個龐大社群,擁有眾多貢獻者,這意味著這款軟體在不斷變得完善。要是遇到了難題,你可以向社群提問。可以檢視其Github程式碼庫。

DataCleaner

 


 

DataCleaner認識到資料處理是一項冗長乏味的任務。資料視覺化工具只能讀取結構條理化、“乾淨”的資料集。DataCleaner可以替你幹髒活,將凌亂的半結構化資料集轉換成乾淨的、可讀取的資料集,那樣所有視覺化公司都能讀取。

為了幫助大家讓學習變得輕鬆、高效,給大家免費分享一大批資料,幫助大家在成為大資料工程師,乃至架構師的路上披荊斬棘。在這裡給大家推薦一個大資料學習交流圈:658558542 歡迎大家進群交流討論,學習交流,共同進步。

當真正開始學習的時候難免不知道從哪入手,導致效率低下影響繼續學習的信心。

但最重要的是不知道哪些技術需要重點掌握,學習時頻繁踩坑,最終浪費大量時間,所以有有效資源還是很有必要的。

最後祝福所有遇到瓶疾且不知道怎麼辦的大資料程式設計師們,祝福大家在往後的工作與面試中一切順利。