1. 程式人生 > 其它 >大資料開源apache專案彙總

大資料開源apache專案彙總

Pinot 是一個實時分散式的 OLAP 資料儲存和分析系統。使用它實現低延遲可伸縮的實時分析。Pinot 從離線資料來源(包括Hadoop和各類檔案)和線上資料來源(如Kafka)中攫取資料進行分析

ignite是分散式記憶體網格的一種實現,其基於java平臺,具有可持久化,分散式事務,分散式計算等特點,此外還支援豐富的鍵值儲存以及SQL語法(基於h2引擎),可以看成是一個分散式記憶體資料

IoTDB (Internet of Things Database) 是一款時序資料庫管理系統,可以為使用者提供資料收集、儲存和分析等服務。IoTDB由於其輕量級架構、高效能和高可用的特性

Apache

Jackrabbit是一個開源內容儲存庫為Java平臺。Jackrabbit專案實現Java內容儲存庫API(JCR)

Apache Juneau 是一個聚合框架, 允許開發者編組 POJO(普通 Java 物件)和開發 REST(表徵狀態轉移)微服務和 API ,目前被 IBM、The Open Group 和 Salesforce 等企業使用

Apache Knox 1.3.0 已釋出,Apache Knox 是一個 REST API 閘道器,用於提供對資料的安全訪問和處理 Hadoop 叢集的資源。

KUDU的定位是Fast Analytics on Fast Data,是一個既支援隨機讀寫、又支援 OLAP 分析的大資料儲存引擎。

Lens 提供了一個統一資料分析介面。通過提供一個跨多個數據儲存的單一檢視來實現資料分析任務切分,同時優化了執行的環境。無縫的整合Hadoop實現類似傳統資料倉庫的功能。

Apache Libcloud是一個標準的Python庫,可抽象出多個雲提供商API之間的差異。 它允許使用者管理雲伺服器,雲端儲存和負載平衡器

Lucene是apache軟體基金會 jakarta專案組的一個子專案,是一個開放原始碼的全文檢索引擎工具包,但它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,部分文字分析引擎(英文與德文兩種西方語言)。

Mesos是Apache下的開源分散式資源管理框架,它被稱為是分散式系統的核心。Mesos

最初是由加州大學伯克利分校的AMPLab開發的,後在Twitter得到廣泛使用

metron是一種安全大資料分析架構,其建立了一個平臺,它為組織提供了大規模攝入、處理和儲存各種安全資料提要的能力,以便檢測網路異常並使組織能夠快速響應這些異常

Oozie是用於 Hadoop 平臺的開源的工作流排程引擎。 是用來管理Hadoop作業。 是屬於web應用程式,由Oozie client和Oozie Server兩個元件構成。

Openwhisk架構 openwhisk是一個事件驅動的計算平臺,也被用在serveless和fass領域,來響應事件呼叫。

Tinkerpop是一個圖資料庫和圖計算框架,而Gremlin是一個圖遍歷語言。Gremlin可以看做是Tinkerpop框架中的一個元件,主要負責圖操作和遍歷。Gremlin類似於Neo4j中的Cypher語言,不過感覺沒有Cypher簡潔,Cypher跟SQL更像,更優雅

圖是對TVM/NNVM整體架構的示意圖。TVM技術堆疊由NNVM和TVM兩部分組成。NNVM負責圖層面的優化,TVM負責運算元層面的優化。不同的深度學習平臺,如MXNet,可以直接通過NNVM提供的介面轉化為計算圖;或可以通過CoreML、ONNX等深度學習標準格式進行轉換。在這一過程中,NNVM同時為計算圖新增層融合等圖層面的優化技術。最終,NNVM生成與硬體無關的、優化的計算圖,向下傳遞給TVM。TVM則負責為計算圖中的每個操作如何在不同的平臺上的執行新增高效地實現,並最終生成可以在不同硬體平臺上可執行的程式碼。

Xerces是由Apache組織所推動的一項XML文件解析開源專案,它有多種語言版本包括JAVA、C++、PERL、COM等。

Xalan是將可擴充套件標記語言(XML)轉換為超文字連結標識語言(HTML)或其它型別XML文件的規範。

Apache Zeppelin 是一個讓互動式資料分析變得可行的基於網頁的開源框架。Zeppelin提供了資料分析、資料視覺化等功能Apache Yetus 是 Apache 推出的一款系統管理工具,能夠為軟體專案提供貢獻和釋出流程。