1. 程式人生 > >大數據從業者應該知道的開源工具

大數據從業者應該知道的開源工具

大數據 從業者 學習 開源工具

前言

想要成為大數據工程師這些開源工具你要有所了解

一、Hadoop相關工具

1. Hadoop

Apache的Hadoop項目已幾乎與大數據劃上了等號。它不斷壯大起來,已成為一個完整的生態系統,眾多開源工具面向高度擴展的分布式計算。

支持的操作系統:Windows、Linux和OS X。

相關鏈接:http://hadoop.apache.org

2. Ambari

技術分享圖片

作為Hadoop生態系統的一部分,這個Apache項目提供了基於Web的直觀界面,可用於配置、管理和監控Hadoop集群。有些開發人員想把Ambari的功能整合到自己的應用程序當中,Ambari也為他們提供了充分利用REST(代表性狀態傳輸協議)的API。

支持的操作系統:Windows、Linux和OS X。

相關鏈接:http://ambari.apache.org

3. Avro

這個Apache項目提供了數據序列化系統,擁有豐富的數據結構和緊湊格式。模式用JSON來定義,它很容易與動態語言整合起來。

支持的操作系統:與操作系統無關。

相關鏈接:http://avro.apache.org

4. Cascading

Cascading是一款基於Hadoop的應用程序開發平臺。提供商業支持和培訓服務。

支持的操作系統:與操作系統無關。

相關鏈接:http://www.cascading.org/projects/cascading/

5. Chukwa

Chukwa基於Hadoop,可以收集來自大型分布式系統的數據,用於監控。它還含有用於分析和顯示數據的工具。

支持的操作系統:Linux和OS X。

相關鏈接:http://chukwa.apache.org

6. Flume

Flume可以從其他應用程序收集日誌數據,然後將這些數據送入到Hadoop。官方網站聲稱:“它功能強大、具有容錯性,還擁有可以調整優化的可靠性機制和許多故障切換及恢復機制。”

支持的操作系統:Linux和OS X。

相關鏈接:https://cwiki.apache.org/confluence/display/FLUME/Home

7. HBase

HBase是為有數十億行和數百萬列的超大表設計的,這是一種分布式數據庫,可以對大數據進行隨機性的實時讀取/寫入訪問。它有點類似谷歌的Bigtable,不過基於Hadoop和Hadoop分布式文件系統(HDFS)而建。

支持的操作系統:與操作系統無關。

相關鏈接:http://hbase.apache.org

8. Hadoop分布式文件系統(HDFS)

HDFS是面向Hadoop的文件系統,不過它也可以用作一種獨立的分布式文件系統。它基於Java,具有容錯性、高度擴展性和高度配置性。

支持的操作系統:Windows、Linux和OS X。

相關鏈接:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html

9. Hive

Apache Hive是面向Hadoop生態系統的數據倉庫。它讓用戶可以使用HiveQL查詢和管理大數據,這是一種類似SQL的語言。

支持的操作系統:與操作系統無關。

相關鏈接:http://hive.apache.org

10. Hivemall

Hivemall結合了面向Hive的多種機器學習算法。它包括諸多高度擴展性算法,可用於數據分類、遞歸、推薦、k最近鄰、異常檢測和特征哈希。

支持的操作系統:與操作系統無關。

相關鏈接:https://github.com/myui/hivemall

11. Mahout

12. MapReduce

13. Oozie

14. Pig

15. Sqoop

16. Spark

17. Tez

18. Zookeeper

二、大數據分析平臺和工具

19. Disco

20. HPCC

21. Lumify

22. Pandas

23. Storm

三、數據庫/數據倉庫

24. Blazegraph

25. Cassandra

26. CouchDB

27. FlockDB

28. Hibari

29. Hypertable

30. Impala

31. InfoBright社區版

32. MongoDB

33. Neo4j

34. OrientDB

35. Pivotal Greenplum Database

36. Riak

37. Redis

四、商業智能

38. Talend Open Studio

39. Jaspersoft

40. Pentaho

41. SpagoBI

42. KNIME

43. BIRT

五、數據挖掘

44.DataMelt

45. KEEL

46. Orange

47. RapidMiner

48. Rattle

49. SPMF

50. Weka

六、查詢引擎

51. Drill

七、編程語言

52. R

53. ECL

八、大數據搜索

54. Lucene

九、內存中技術

鏈接

由於由於鏈接太多,我做了一個word文檔,由於簡書不能上傳文件,需要答案可以加小編的qq交流群531629188,在裏面直接獲取文檔,

不管你是小白還是大牛,

小編我都挺歡迎,今天的已經資訊上傳到群文件,不定期分享幹貨,

包括我自己整理的一份最新的適合2018年學習的大數據教程,歡迎初學和進階中的小夥伴。

技術分享圖片


大數據從業者應該知道的開源工具