1. 程式人生 > >hadoop大數據平臺架構之DKhadoop詳解

hadoop大數據平臺架構之DKhadoop詳解

優勢 基礎 可用 核心 技術 並行處理 項目 完整 簡化

hadoop大數據平臺架構之DKhadoop詳解
大數據的時代已經來了,信息的爆炸式增長使得越來越多的行業面臨這大量數據需要存儲和分析的挑戰。Hadoop作為一個開源的分布式並行處理平臺,以其高拓展、高效率、高可靠等優點越來越受到歡迎。這同時也帶動了hadoop商業版的發行。這裏就通過大快DKhadoop為大家詳細介紹一下hadoop大數據平臺架構內容。
目前國內的商業發行版hadoop除了大快DKhadoop以外還有像華為雲等。雖然發行方不同,但在平臺架構上相似,這裏就以我比較熟悉的dkhadoop來介紹。技術分享圖片

1、大快Dkhadoop,可以說是集成了整個HADOOP生態系統的全部組件,並對其進行了深度優化,重新編譯為一個完整的更高性能的大數據通用計算平臺,實現了各部件的有機協調。因此DKH相比開源的大數據平臺,在計算性能上有了非常高的提升。這一點也是個人覺得dkhadoop比我之前使用的另外一個商業發行版的要好的,國內的大部分商業發行版hadoop可以說都是二次包裝,dkhadoop做的好的就是敢在原生態的基礎上進行開發。技術分享圖片

2、大快DKhadoop中間件技術把大數據集群配置簡化成三種節點,這樣不僅簡化了集群的管理運維,還增強了集群的可用性和穩定性。Dkhadoop中間件集成了apache的很多組件包含了從文件、SQL、日誌、消息到爬蟲和流數據以及異構數據的支持;集成了大快的壓縮算法,和數據同步分發技術,實現了數據的導入和減少調動的同時實現,對於有實時數據要求的項目具有不可替代的技術優勢。
3、大快DKhadoop商業發行版還是保持了開源系統的優點的,可以與開源系統100%兼容。對於那些基於開源平臺開發的大數據應用並不需要經過改動同樣可以在dkhadoop上高效運行。
4、DKhadoop一體化開發框架提供了大數據、搜索、自然語言處理和人工智能開發中常用的二十多個類,總計一百余種方法,實現了開發效率的大幅提升。DK.HADOOP整合集成了NOSQL數據庫,簡化了文件系統與非關系數據庫之間的編程;DK.HADOOP改進了集群同步系統,使得HADOOP的數據處理更加高效。
5、DKhadoop的SQL版本,還提供了分布式MySQL的集成,傳統的信息系統,可無縫的實現面向大數據和分布式的跨越。
6、ES:快遞DKhadoop的搜索系統是在開源ES系統上二次開發的,支持完成的全文搜索。整合了對中文搜索的有效支持以及對大快數據同步技術的支持後的高性能版本,DK.ES是DKH的核心組件之一,僅隨DKH集成整合了對中文搜索的有效支持以及對大快數據同步技術的支持後的高性能版本,DK.ES是DKhadoop的核心組件之一。
7、漢語言處理組件:大快的漢語言處理是目前國內使用率最高的開源自然語言處理開發包。
簡單的就介紹這些了吧,想要進一步了解的可以搜索查詢下或者下載一下dkhadoop學習版本了解。以下是關於dkhadoop版本的問題:
DKH標準版 DKH-分布式SQL版 DK.HADOOP發行版
DKH標準版有三個不同的子版本:用於開發調試的單機版;支持三節點的學習版;支持5節點以上的標準服務器版
DKH-分布式SQL版有兩個子版本:學習版、服務器版

hadoop大數據平臺架構之DKhadoop詳解