1. 程式人生 > >Java轉職大數據人群常使用的二十多個大數據工具

Java轉職大數據人群常使用的二十多個大數據工具

構建 targe 管理系統 work 內存數據 正在 快速訪問 內存緩存 width

最近我問了很多Java開發人員關於最近12個月內他們使用的是什麽大數據工具。

這是一個系列,主題為:

  • 語言
  • web框架
  • 應用服務器
  • SQL數據訪問工具
  • SQL數據庫
  • 大數據
  • 構建工具
  • 雲提供商

今天我們就要說說大數據。根據維基百科,大數據是數據集的一個廣義的術語,並且該數據集是如此龐大和復雜,以致於傳統的數據處理應用程序無法勝任。

技術分享圖片

在許多情況下,使用SQL數據庫用於存儲/檢索數據就足夠了。但在另一些情況下,要麽SQL數據庫規模不夠,要麽還有更好的工具。這一切都取決於使用情況。

現在讓我們來討論一下存儲/處理數據用的不同的非SQL工具——NoSQL數據庫,內存緩存,全文搜索引擎,實時流,圖形數據庫,等等。

MongoDB—— 一種流行的,跨平臺的面向文檔的數據庫。

Elasticsearch——專為雲而構建的分布式REST風格搜索引擎。

Cassandra——一個開源的分布式數據庫管理系統,最初由Facebook開發,被設計用來處理橫跨多個商用服務器的大量數據,提供了無單點故障的高度可用性。

Redis—— 一個開源的(BSD許可),內存數據結構存儲,作為數據庫、緩存和消息代理使用。

Hazelcast——基於Java的開源內存數據網格。

EHCache——一種被廣泛使用的開源Java分布式緩存,用於通用緩存、Java EE和輕量級容器。Ehcache相關介紹

Hadoop——用Java編寫的一個開源軟件框架,用於分布式存儲和對在計算機集群上的超大型數據集的分布式處理。

Solr——一個開源的企業搜索平臺,用Java編寫的,來自於Apache Lucene項目。

Spark——Apache Software Foundation中最活躍的項目,一個開源的集群計算框架。

Memcached—— 一個通用的分布式內存緩存系統。

Apache Hive——提供了Hadoop之上類似於SQL的層。

Apache Kafka—— 一個高通量、分布式的發布-訂閱式消息系統,最初開發在LinkedIn上。Windows上脫離Cygwin運行Apache Kafka

Akka—— 一個工具包和運行時,用於在JVM上構建高度並行的、分布式的、有彈性的消息驅動的應用程序。

HBase—— 一個開源的,非關系型的,分布式數據庫,在谷歌的BigTable後建模,用Java編寫,並運行在HDFS上。

Neo4j——用Java實現的開源圖形數據庫。

CouchBase——一個開源的、面向文檔的分布式NoSQL數據庫,特別為了交互式應用而優化。

Apache Storm——開源的分布式實時計算系統。

CouchDB——使用JSON來存儲數據的面向文檔的開源NoSQL數據庫。

Oracle Coherence—— 一個內存的數據網格解決方案,通過提供快速訪問常用數據的渠道,使得企業可預測地擴展關鍵任務應用程序。

Titan—— 一個可擴展的圖形數據庫,優化的目的在於存儲和查詢包含數千億頂點和邊的圖形,分布在多機集群。

Amazon DynamoDB——一個快速、靈活、完全管理的NoSQL數據庫服務,用於在任何規模需要一致的、個位數毫秒延遲的所有應用程序。

Amazon Kinesis—— 用於在AWS上的流數據的實時平臺。

Datomic—— 一個用Clojure寫的完全事務式的,支持雲的,分布式數據庫。

有一句話叫做三人行必有我師,其實做為一個開發者,有一個學習的氛圍
跟一個交流圈子特別重要這是一個我的大數據交流學習群531629188
不管你是小白還是大牛歡迎入駐,正在求職的也可以加入
,大家一起交流學習,話糙理不糙,互相學習,共同進步,一起加油吧。

Java轉職大數據人群常使用的二十多個大數據工具