開源大資料利器彙總

阿新 • • 發佈：2019-01-04

類別	名稱	官網	備註
查詢引擎	Phoenix	Salesforce公司出品，Apache HBase之上的一個SQL中間層，完全使用Java編寫
	Kylin	eBay開源的基於Hadoop的分散式OLAP分析引擎，旨在減少Hadoop在10億行以上資料級別的情況下的查詢延遲
	Shark	Spark上的SQL執行引擎，已演化成Spark-SQL和Hive on Spark
	流式計算	Facebook Puma	實時資料流分析
		Twitter Rainbird	分散式實時統計系統，如網站的點選統計
		Yahoo S4	Java開發的一個通用的、分散式的、可擴充套件的、分割槽容錯的、可插拔的無主架構的流式系統
		迭代計算	Apache Hama	建立在Hadoop上基於BSP（Bulk Synchronous Parallel）的計算框架，模仿了Google的Pregel。
			Apache Giraph	建立在Hadoop上的可伸縮的分散式迭代圖處理系統，靈感來自BSP（bulk synchronous parallel）和Google的Pregel
	Apache Ignite		記憶體資料組織框架是一個高效能、整合化和分散式的記憶體計算和事務平臺
	DataTorrent		基於Hadoop2.X構建的實時流式處理和分析平臺，每秒可以處理超過10億個實時事件
RocksDB	Facebook開源的，基於Google的LevelDB，但提高了擴充套件性可以執行在多核處理器上
HyperDex	下一代KV儲存系統，支援strings、integers、floats、lists、maps和sets等豐富的資料型別
TokyoCabinet	日本人Mikio Hirabayashi（平林幹雄）開發的一款DBM資料庫，注意它只是個庫（大名鼎鼎的DBM資料庫qdbm就是Mikio Hirabayashi開發的）,讀寫非常快
Tair	淘寶出品的高效能、分散式、可擴充套件、高可靠的KV結構儲存系統，專為小檔案優化，並提供簡單易用的介面（類似Map），Tair支援Java和C版本的客戶端
Apache Accumulo	一個可靠的、可伸縮的、高效能的排序分散式的KV儲存系統，參照Google Bigtable而設計，建立在Hadoop、Thrift和Zookeeper之上。
Redis	使用ANSI C語言編寫、支援網路、可基於記憶體亦可持久化的日誌型、單機版KV資料庫。從2010年3月15日起，Redis的開發工作由VMware主持
表格儲存	OceanBase	支援海量資料的高效能分散式資料庫系統，實現了數千億條記錄、數百TB資料上的跨行跨表事務
	Vertica	惠普2011收購Vertica，Vertica是傳統的關係型資料庫，基於列儲存，同時支援MPP，使用標準的SQL查詢,可以和Hadoop/MapReduce進行整合
	Cassandra	Hadoop成員，Facebook於2008將Cassandra開源，基於O(1)DHT的完全P2P架構
	HyperTable	搜尋引擎公司Zvents針對Bigtable的C++開源實現
	FoundationDB	支援ACID事務處理的NoSQL資料庫，提供非常好的效能、資料一致性和操作彈性
	MemSQL	前Facebook工程師創辦的，號稱世界上最快的分散式關係型資料庫，相容MySQL但快30倍，能實現每秒150萬次事務，原理是僅用記憶體並將SQL預編譯為C++。
	HBase	Bigtable在Hadoop中的實現，最初是Powerset公司為了處理自然語言搜尋產生的海量資料而開展的專案
	日誌收集系統	Facebook Scribe	Facebook開源的日誌收集系統，能夠從各種日誌源上收集日誌，儲存到一箇中央儲存系統（可以是NFS，分散式檔案系統等）上，以便於進行集中統計分析處理，常與Hadoop結合使用，Scribe用於向HDFS中Push日誌
Cloudera Flume		Cloudera提供的日誌收集系統，支援對日誌的實時性收集
logstash		日誌管理、分析和傳輸工具，可配合kibana、ElasticSearch組建成日誌查詢系統
Jafka		開源的、高效能的、跨語言分散式訊息系統，最早是由Apache孵化的Kafka（由LinkedIn捐助給Apache）克隆而來
Apache Kafka	Linkedin於2010年12月份開源的分散式訊息系統，它主要用於處理活躍的流式資料，由Scala寫成
分散式服務	ZooKeeper	分散式鎖服務，PoxOS演算法的實現，對應Google的Chubby
	etcd	一個高可用的鍵值儲存系統，主要用於共享配置和服務發現。etcd是由CoreOS開發並維護的，靈感來自於 ZooKeeper 和 Doozer，它使用Go語言編寫，並通過Raft一致性演算法處理日誌複製以保證強一致性。
	grpc	一個高效能、通用的開源RPC框架，其由Google主要面向移動應用開發並基於HTTP/2協議標準而設計，基於ProtoBuf(Protocol Buffers)序列化協議開發，且支援眾多開發語言。
Apache Ambari	Hadoop成員，管理和監視Apache Hadoop叢集的開源框架
基礎設施	SSTable	源於Google，orted String Table
	RecordIO	源於Google
	Flat Buffers	針對遊戲開發的，高效的跨平臺序列化庫，相比Proto Buffers開銷更小，因為Flat Buffers沒有解析過程
	Protocol Buffers	Google公司開發的一種資料描述語言，類似於XML能夠將結構化資料序列化，可用於資料儲存、通訊協議等方面。它不依賴於語言和平臺並且可擴充套件性極強。
	Consistent Hashing	1997年由麻省理工學院提出,目標是為了解決因特網中的熱點（Hot spot）問題，初衷和CARP十分類似，基本解決了在P2P環境中最為關鍵的問題——如何在動態的網路拓撲中分佈儲存和路由。
	Netty	JBOSS提供的一個java開源框架，提供非同步的、事件驅動的網路應用程式框架，用以快速開發高效能、高可靠性的網路伺服器和客戶端程式。
	BloomFilter	布隆過濾器，1970年由布隆提出，是一個很長的二進位制向量和一系列隨機對映函式，可以用於檢索一個元素是否在一個集合中，優點是空間效率和查詢時間都遠遠超過一般的演算法，缺點是有一定的誤識別率和刪除困難。
Lucene	一套資訊檢索工具包，但並不包含搜尋引擎系統，它包含了索引結構、讀寫索引工具、相關性工具、排序等功能。
SolrCloud	基於Solr和Zookeeper的分散式搜尋， Solr4.0 的核心元件之一，主要思想是使用 Zookeeper 作為叢集的配置資訊中心
Sphinx	一個基於SQL的全文檢索引擎，可結合MySQL、PostgreSQL做全文檢索，可提供比資料庫本身更專業的搜尋功能，單一索引可達1億條記錄，1000萬條記錄情況下的查詢速度為0.x秒（毫秒級）。
SenseiDB	Linkin公司開發的一個開源分散式實時半結構化資料庫，在全文索引的基礎封裝了Browse Query Language (BQL，類似SQL)的查詢語法。
Iaas	OpenStack	美國國家航空航天局和Rackspace合作研發的，以Apache許可證授權雲平臺管理的專案，它不是一個軟體。這個專案由幾個主要的元件組合起來完成一些具體的工作，旨在為公共及私有云的建設與管理提供軟體的開源專案。6個核心專案：Nova（計算，Compute），Swift（物件儲存，Object），Glance（映象，Image），Keystone（身份，Identity），Horizon（自助門戶，Dashboard），Quantum & Melange（網路&地址管理），另外還有若干社群專案，如Rackspace（負載均衡）、Rackspace（關係型資料庫）。
	Docker	應用容器引擎，讓開發者可打包應用及依賴包到一個可移植的容器中，然後釋出到Linux機器上，也可實現虛擬化。

類別	名稱	官網	備註
查詢引擎	Phoenix	Salesforce公司出品，Apache HBase之上的一個SQL中間層，完全使用Java編寫
	Kylin	eBay開源的基於Hadoop的分散式OLAP分析引擎，旨在減少Hadoop在10億行以上資料級別的情況下的查詢延遲
	Shark	Spark上的SQL執行引擎，已演化成Spark-SQL和Hive on Spark
	流式計算	Facebook Puma	實時資料流分析
		Twitter Rainbird	分散式實時統計系統，如網站的點選統計
		Yahoo S4	Java開發的一個通用的、分散式的、可擴充套件的、分割槽容錯的、可插拔的無主架構的流式系統
		迭代計算	Apache Hama	建立在Hadoop上基於BSP（Bulk Synchronous Parallel）的計算框架，模仿了Google的Pregel。
			Apache Giraph	建立在Hadoop上的可伸縮的分散式迭代圖處理系統，靈感來自BSP（bulk synchronous parallel）和Google的Pregel
	Apache Ignite		記憶體資料組織框架是一個高效能、整合化和分散式的記憶體計算和事務平臺
	DataTorrent		基於Hadoop2.X構建的實時流式處理和分析平臺，每秒可以處理超過10億個實時事件
RocksDB	Facebook開源的，基於Google的LevelDB，但提高了擴充套件性可以執行在多核處理器上
HyperDex	下一代KV儲存系統，支援strings、integers、floats、lists、maps和sets等豐富的資料型別
TokyoCabinet	日本人Mikio Hirabayashi（平林幹雄）開發的一款DBM資料庫，注意它只是個庫（大名鼎鼎的DBM資料庫qdbm就是Mikio Hirabayashi開發的）,讀寫非常快
Tair	淘寶出品的高效能、分散式、可擴充套件、高可靠的KV結構儲存系統，專為小檔案優化，並提供簡單易用的介面（類似Map），Tair支援Java和C版本的客戶端
Apache Accumulo	一個可靠的、可伸縮的、高效能的排序分散式的KV儲存系統，參照Google Bigtable而設計，建立在Hadoop、Thrift和Zookeeper之上。
Redis	使用ANSI C語言編寫、支援網路、可基於記憶體亦可持久化的日誌型、單機版KV資料庫。從2010年3月15日起，Redis的開發工作由VMware主持
表格儲存	OceanBase	支援海量資料的高效能分散式資料庫系統，實現了數千億條記錄、數百TB資料上的跨行跨表事務
	Vertica	惠普2011收購Vertica，Vertica是傳統的關係型資料庫，基於列儲存，同時支援MPP，使用標準的SQL查詢,可以和Hadoop/MapReduce進行整合
	Cassandra	Hadoop成員，Facebook於2008將Cassandra開源，基於O(1)DHT的完全P2P架構
	HyperTable	搜尋引擎公司Zvents針對Bigtable的C++開源實現
	FoundationDB	支援ACID事務處理的NoSQL資料庫，提供非常好的效能、資料一致性和操作彈性
	MemSQL	前Facebook工程師創辦的，號稱世界上最快的分散式關係型資料庫，相容MySQL但快30倍，能實現每秒150萬次事務，原理是僅用記憶體並將SQL預編譯為C++。
	HBase	Bigtable在Hadoop中的實現，最初是Powerset公司為了處理自然語言搜尋產生的海量資料而開展的專案
	日誌收集系統	Facebook Scribe	Facebook開源的日誌收集系統，能夠從各種日誌源上收集日誌，儲存到一箇中央儲存系統（可以是NFS，分散式檔案系統等）上，以便於進行集中統計分析處理，常與Hadoop結合使用，Scribe用於向HDFS中Push日誌
Cloudera Flume		Cloudera提供的日誌收集系統，支援對日誌的實時性收集
logstash		日誌管理、分析和傳輸工具，可配合kibana、ElasticSearch組建成日誌查詢系統
Jafka		開源的、高效能的、跨語言分散式訊息系統，最早是由Apache孵化的Kafka（由LinkedIn捐助給Apache）克隆而來
Apache Kafka	Linkedin於2010年12月份開源的分散式訊息系統，它主要用於處理活躍的流式資料，由Scala寫成
分散式服務	ZooKeeper	分散式鎖服務，PoxOS演算法的實現，對應Google的Chubby
	etcd	一個高可用的鍵值儲存系統，主要用於共享配置和服務發現。etcd是由CoreOS開發並維護的，靈感來自於 ZooKeeper 和 Doozer，它使用Go語言編寫，並通過Raft一致性演算法處理日誌複製以保證強一致性。
	grpc	一個高效能、通用的開源RPC框架，其由Google主要面向移動應用開發並基於HTTP/2協議標準而設計，基於ProtoBuf(Protocol Buffers)序列化協議開發，且支援眾多開發語言。
Apache Ambari	Hadoop成員，管理和監視Apache Hadoop叢集的開源框架
基礎設施	SSTable	源於Google，orted String Table
	RecordIO	源於Google
	Flat Buffers	針對遊戲開發的，高效的跨平臺序列化庫，相比Proto Buffers開銷更小，因為Flat Buffers沒有解析過程
	Protocol Buffers	Google公司開發的一種資料描述語言，類似於XML能夠將結構化資料序列化，可用於資料儲存、通訊協議等方面。它不依賴於語言和平臺並且可擴充套件性極強。
	Consistent Hashing	1997年由麻省理工學院提出,目標是為了解決因特網中的熱點（Hot spot）問題，初衷和CARP十分類似，基本解決了在P2P環境中最為關鍵的問題——如何在動態的網路拓撲中分佈儲存和路由。
	Netty	JBOSS提供的一個java開源框架，提供非同步的、事件驅動的網路應用程式框架，用以快速開發高效能、高可靠性的網路伺服器和客戶端程式。
	BloomFilter	布隆過濾器，1970年由布隆提出，是一個很長的二進位制向量和一系列隨機對映函式，可以用於檢索一個元素是否在一個集合中，優點是空間效率和查詢時間都遠遠超過一般的演算法，缺點是有一定的誤識別率和刪除困難。
Lucene	一套資訊檢索工具包，但並不包含搜尋引擎系統，它包含了索引結構、讀寫索引工具、相關性工具、排序等功能。
SolrCloud	基於Solr和Zookeeper的分散式搜尋， Solr4.0 的核心元件之一，主要思想是使用 Zookeeper 作為叢集的配置資訊中心
Sphinx	一個基於SQL的全文檢索引擎，可結合MySQL、PostgreSQL做全文檢索，可提供比資料庫本身更專業的搜尋功能，單一索引可達1億條記錄，1000萬條記錄情況下的查詢速度為0.x秒（毫秒級）。
SenseiDB	Linkin公司開發的一個開源分散式實時半結構化資料庫，在全文索引的基礎封裝了Browse Query Language (BQL，類似SQL)的查詢語法。
Iaas	OpenStack	美國國家航空航天局和Rackspace合作研發的，以Apache許可證授權雲平臺管理的專案，它不是一個軟體。這個專案由幾個主要的元件組合起來完成一些具體的工作，旨在為公共及私有云的建設與管理提供軟體的開源專案。6個核心專案：Nova（計算，Compute），Swift（物件儲存，Object），Glance（映象，Image），Keystone（身份，Identity），Horizon（自助門戶，Dashboard），Quantum & Melange（網路&地址管理），另外還有若干社群專案，如Rackspace（負載均衡）、Rackspace（關係型資料庫）。
	Docker	應用容器引擎，讓開發者可打包應用及依賴包到一個可移植的容器中，然後釋出到Linux機器上，也可實現虛擬化。

分類: 大資料

開源大資料利器彙總

類別名稱官網備註查詢引擎 Phoenix Salesforce公司出品，Apache HBase之上的一個SQL中間層，完全使用Java編寫 Kylin eBay開源的

一共81個，開源大資料處理工具彙總（下）

日誌收集系統　　一、Facebook Scribe 　　貢獻者：Facebook 　　簡介：Scribe是Facebook開源的日誌收集系統，在Facebook內部已經得到大量的應用。它能夠從各種日誌源上收集日誌，儲存到一箇中央儲存系統（可以是NFS，分散式檔案系

一共81個，開源大資料處理工具彙總

http://www.cnblogs.com/AloneSword/p/4874112.html http://www.cnblogs.com/AloneSword/p/4874114.html 查詢引擎

一共81個，開源大資料處理工具彙總（下）（轉）

接上一部分：一共81個，開源大資料處理工具彙總（上），第二部分主要收集整理的內容主要有日誌收集系統、訊息系統、分散式服務、叢集管理、RPC、基礎設施、搜尋引擎、Iaas和監控管理等大資料開源工具。日誌收集系統一、Facebook Scribe 貢獻者

一共81個，開源大資料處理工具彙總（上）（轉）

本文一共分為上下兩部分。我們將針對大資料開源工具不同的用處來進行分類，並且附上了官網和部分下載連結，希望能給做大資料的朋友做個參考。下面是第一部分。查詢引擎一、Phoenix 貢獻者：：Salesforce 簡介：這是一個Java中間層，可以讓開發者在Apache HBase

大資料利器2018版

類別名稱（可重點關注加粗部分）官網備註查詢引擎 Phoenix https://phoenix.apache.org/ Salesforce公司出品，Apache HBa

詳解開源大資料引擎Greenplum的架構和技術特點

作者：周雷皓，百度外賣大資料工程師，本文為《程式設計師》原創文章，未經允許不得轉載，更多精彩文章請訂閱《程式設計師》本文介紹了大資料引擎Greenplum的架構和部分技術特點。從GPDB基本背景開始，在架構的層面上講解GPDB系統內部各個模組的概貌，然

全球100款大資料工具彙總（後50款）

51、Redis是一個高效能的key-value儲存系統，和Memcached類似，它支援儲存的

10款超好用的開源大資料分析工具

現如今，整個網際網路已經進入大資料時代，“大資料”一詞的重點現也已經不僅在於資料規模的定義，它更代表著資訊科技發展進入了一個新的里程，代表著爆炸性的資料資訊給傳統的計算技術和資訊科技帶來的技術挑戰和困難，代表著大資料處理所需的新的技術和方法，也代表著大資料分析和應用所帶來的

開源大資料分析引擎Impala實戰筆記

第三章 Impala 概念及架構 3.1 Impala服務元件 3.1.1 Impala Deamon 該程序運行於叢集每個節點的守護程序，是Impala的核心元件，每個節點該程序的名稱為 impalad 。 > ps -ef|grep impalad

常用大資料工具彙總

常用的大資料工具按主題分類為：語言web框架應用伺服器SQL資料訪問工具SQL資料庫大資料構建工具雲提供商現在讓我們來討論一下儲存/處理資料用的不同的非SQL工具——NoSQL資料庫，記憶體快取，全文搜尋引擎，實時流，圖形資料庫，等等。MongoDB—— 一種流行的，跨平臺的

開源大資料引擎：Greenplum 資料庫架構分析

Greenplum 資料庫是最先進的分散式開源資料庫技術，主要用來處理大規模的資料分析任務，包括資料倉庫、商務智慧（OLAP）和資料探勘等。自2015年10月正式開源以來，受到國內外業內人士的廣泛關注。本文就社群關心的Greenplum資料庫技術架構進行介紹。一

宜信開源|大資料虛擬混算平臺Moonbox配置指南

三、解壓 tar -zxvf moonbox-assembly_2.11-0.3.0-beta-dist.tar.gz 四、修改配置檔案配置檔案位於conf目錄下 step 1: 修改slaves mv slaves.example slaves vim slaves 將會看到如下內容:

大資料相關開源專案彙總

排程與管理服務 **Azkaban **是一款基於Java編寫的任務排程系統任務排程，來自LinkedIn公司，用於管理他們的Hadoop批處理工作流。Azkaban根據工作的依賴性進行排序，提供友好的Web使用者介面來維護和跟蹤使用者的工作流程。 **YARN **是一種新的Hadoo

速度收藏 | 100+大資料開源處理工具彙總

本文除了一些常用的大資料工具，還總結匯總了其他大資料工具，幾乎是最全的大資料工具的總結。如果你想入門大資料，可以對他們進行簡單的瞭解。如果你想學習自己熟悉意外的大資料工具，可以看這篇文章。如果你想選擇一個適合自己公司的大資料工具，也可以參考這篇文章。我們將針對大資

CDH大資料叢集安全風險彙總

一，風險分為內部和外部首先內部： CDH大資料叢集部署過程中會自動建立以服務命名的使用者，如圖所示使用者名稱(login_name)：口令位置(passwd)：使用者標識號(UID)：使用者組標識號(GID)：註釋性描述(users)：主目錄(home_directory)：登陸shell(Shel

資料脫敏平臺-大資料時代的隱私保護利器

什麼是資料脫敏又稱資料漂白、資料去隱私化或資料變形。是對核心業務資料中敏感的資訊，進行變形、轉換、混淆，使得對業務資料中的身份、組織等隱私敏感資訊進行去除或掩蓋，以保護資料能被合理、安全地利用。 ◆ ◆ ◆ 資料脫敏的重要性 1）敏

大資料入門教程系列之Hive篇彙總

大資料入門教程系列之Hive篇彙總 1、Hive概述、體系架構、分割槽、桶與傾斜 2、大資料入門教程系列之Hive環境搭建--Linux(Centons7)下配置安裝Hive 3、Hive DDL DML及SQL操作 4、Hadoop2.7.4 編譯支援5種壓縮（Hive壓縮）

大資料知識體系_探索資料_資料彙總_視覺化_多維資料分析

探索資料彙總統計頻率和眾數分類屬性的眾數是具有最高頻率的值百分位數位置度量：均值和中位數截斷均值散佈度量：極差和方差標準差絕對平均偏差 ADD 中位數絕對偏差 MAD 四分位數極差 IQR 多元彙總統計

大資料常見面試題彙總

習得一身大資料技術，卻苦於沒有一套面試總結來幫助自己完成面試的第一關。話說，這大資料技術面試中的筆試，真的就像我們之前考試似的，沒有重點真的很抓瞎，不過幸虧你看到我這篇文章，可以坐收漁翁之利了！ 1、用mr設計一個分組排重計數演算法輸入檔案格式:二級域名,一級頻道,二級頻道,訪問ip地址,訪問者id需求:按

開源大資料利器彙總

相關推薦