1. 程式人生 > 其它 >大資料開發要具備的技能有哪些?

大資料開發要具備的技能有哪些?

大資料的發展,讓越來越多的人開始關注,特別是大資料開發。但小編髮現,其實很多人對大資料開發這個職位並不太瞭解,作為一個在這個崗位工作幾年的從業者,今天就來簡單介紹一下大資料開發要具備的技能有哪些?

一、基礎技能:

1Linux,大部分大資料相關軟體都是在Linux上運維的。瞭解Linux的基礎操作是必要的

2JavaSE,大部分大資料相關軟體都是java寫的。掌握Java語言可以更輕鬆的掌握這些工具

3SQL,目前大資料開發基本上都是基於SQL的。精通SQL是必須掌握的技能

二、大資料技能

1HBase – Hadoop Database

HBase是一個高可靠性、高效能、面向列、可伸縮的分散式儲存系統,利用

HBase技術可在廉價PC Server上搭建起大規模結構化儲存叢集。

2Hive

Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的資料檔案對映為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行執行。

3Spark

SparkUC Berkeley AMP lab所 開源的類Hadoop MapReduce的通用並行框架,Spark,擁有Hadoop MapReduce所具有的優點;但不同於MapReduce的是Job中間輸出結果可以儲存在記憶體中,從而不再需要讀寫HDFS,因此Spark能更好地適用於資料探勘與機器學習等需要迭代的

MapReduce的演算法。

4Scala

Scala是一門多正規化的程式語言,一種類似java的程式語言,設計初衷是實現可伸縮的語言、並整合面向物件程式設計和函數語言程式設計的各種特性。

5Oozie

既然學會Hive了,我相信你一定需要這個東西,它可以幫你管理你的Hive或者MapReduceSpark指令碼,還能檢查你的程式是否執行正確,出錯了給你發報警並能幫你重試程式,最重要的是還能幫你配置任務的依賴關係。我相信你一定會喜歡上它的,不然你看著那一大堆指令碼,和密密麻麻的crond是不是有種想屎的感覺。

6Kafka

這是個比較好用的佇列工具,佇列是幹嗎的?排隊買票你知道不?資料多了同樣也需要排隊處理,這樣與你協作的其它同學不會叫起來,你幹嗎給我這麼多的資料(比如好幾百

G的檔案)我怎麼處理得過來,你別怪他因為他不是搞大資料的,你可以跟他講我把資料放在佇列裡你使用的時候一個個拿,這樣他就不在抱怨了馬上灰流流的去優化他的程式去了。

以上就是關於大資料開發要具備的一些技能了,希望能幫助到大家。如有不瞭解的地方,可以諮詢加米穀教育的專業老師,隨時為你解答!