大數據從業者應該知道的開源工具
前言
想要成為大數據工程師這些開源工具你要有所了解
一、Hadoop相關工具
1. Hadoop
Apache的Hadoop項目已幾乎與大數據劃上了等號。它不斷壯大起來,已成為一個完整的生態系統,眾多開源工具面向高度擴展的分布式計算。
支持的操作系統:Windows、Linux和OS X。
相關鏈接:http://hadoop.apache.org
2. Ambari
作為Hadoop生態系統的一部分,這個Apache項目提供了基於Web的直觀界面,可用於配置、管理和監控Hadoop集群。有些開發人員想把Ambari的功能整合到自己的應用程序當中,Ambari也為他們提供了充分利用REST(代表性狀態傳輸協議)的API。
支持的操作系統:Windows、Linux和OS X。
相關鏈接:http://ambari.apache.org
3. Avro
這個Apache項目提供了數據序列化系統,擁有豐富的數據結構和緊湊格式。模式用JSON來定義,它很容易與動態語言整合起來。
支持的操作系統:與操作系統無關。
相關鏈接:http://avro.apache.org
4. Cascading
Cascading是一款基於Hadoop的應用程序開發平臺。提供商業支持和培訓服務。
支持的操作系統:與操作系統無關。
相關鏈接:http://www.cascading.org/projects/cascading/
5. Chukwa
Chukwa基於Hadoop,可以收集來自大型分布式系統的數據,用於監控。它還含有用於分析和顯示數據的工具。
支持的操作系統:Linux和OS X。
相關鏈接:http://chukwa.apache.org
6. Flume
Flume可以從其他應用程序收集日誌數據,然後將這些數據送入到Hadoop。官方網站聲稱:“它功能強大、具有容錯性,還擁有可以調整優化的可靠性機制和許多故障切換及恢復機制。”
支持的操作系統:Linux和OS X。
相關鏈接:https://cwiki.apache.org/confluence/display/FLUME/Home
7. HBase
HBase是為有數十億行和數百萬列的超大表設計的,這是一種分布式數據庫,可以對大數據進行隨機性的實時讀取/寫入訪問。它有點類似谷歌的Bigtable,不過基於Hadoop和Hadoop分布式文件系統(HDFS)而建。
支持的操作系統:與操作系統無關。
相關鏈接:http://hbase.apache.org
8. Hadoop分布式文件系統(HDFS)
HDFS是面向Hadoop的文件系統,不過它也可以用作一種獨立的分布式文件系統。它基於Java,具有容錯性、高度擴展性和高度配置性。
支持的操作系統:Windows、Linux和OS X。
相關鏈接:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html
9. Hive
Apache Hive是面向Hadoop生態系統的數據倉庫。它讓用戶可以使用HiveQL查詢和管理大數據,這是一種類似SQL的語言。
支持的操作系統:與操作系統無關。
相關鏈接:http://hive.apache.org
10. Hivemall
Hivemall結合了面向Hive的多種機器學習算法。它包括諸多高度擴展性算法,可用於數據分類、遞歸、推薦、k最近鄰、異常檢測和特征哈希。
支持的操作系統:與操作系統無關。
相關鏈接:https://github.com/myui/hivemall
11. Mahout
12. MapReduce
13. Oozie
14. Pig
15. Sqoop
16. Spark
17. Tez
18. Zookeeper
二、大數據分析平臺和工具
19. Disco
20. HPCC
21. Lumify
22. Pandas
23. Storm
三、數據庫/數據倉庫
24. Blazegraph
25. Cassandra
26. CouchDB
27. FlockDB
28. Hibari
29. Hypertable
30. Impala
31. InfoBright社區版
32. MongoDB
33. Neo4j
34. OrientDB
35. Pivotal Greenplum Database
36. Riak
37. Redis
四、商業智能
38. Talend Open Studio
39. Jaspersoft
40. Pentaho
41. SpagoBI
42. KNIME
43. BIRT
五、數據挖掘
44.DataMelt
45. KEEL
46. Orange
47. RapidMiner
48. Rattle
49. SPMF
50. Weka
六、查詢引擎
51. Drill
七、編程語言
52. R
53. ECL
八、大數據搜索
54. Lucene
九、內存中技術
鏈接
由於由於鏈接太多,我做了一個word文檔,由於簡書不能上傳文件,需要答案可以加小編的qq交流群531629188,在裏面直接獲取文檔,
不管你是小白還是大牛,
小編我都挺歡迎,今天的已經資訊上傳到群文件,不定期分享幹貨,
包括我自己整理的一份最新的適合2018年學習的大數據教程,歡迎初學和進階中的小夥伴。
大數據從業者應該知道的開源工具