學習大數據基礎框架hadoop需要什麽基礎
什麽是大數據?進入本世紀以來,尤其是2010年之後,隨著互聯網特別是移動互聯網的發展,數據的增長呈爆炸趨勢,已經很難估計全世界的電子設備中存儲的數據到底有多少,描述數據系統的數據量的計量單位從MB(1MB大約等於一百萬字節)、GB(1024MB)、TB(1024GB),一直向上攀升,目前,PB(等於1024TB)級的數據系統已經很常見,隨著移動個人數據、社交網站、科學計算、證券交易、網站日誌、傳感器網絡數據量的不斷加大,國內擁有的總數據量早已超出 ZB(1ZB=1024EB,1EB=1024PB)級別。
傳統的數據處理方法是:隨著數據量的加大,不斷更新硬件指標,采用更加強大的CPU、更大容量的磁盤這樣的措施,但現實是:數據量增大的速度遠遠超出了單機計算和存儲能力提升的速度。
而“大數據”的處理方法是:采用多機器、多節點的處理大量數據方法,而采用這種新的處理方法,就需要有新的大數據系統來保證,系統需要處理多節點間的通訊協調、數據分隔等一系列問題。
總之,采用多機器、多節點的方式,解決各節點的通訊協調、數據協調、計算協調問題,處理海量數據的方式,就是“大數據”的思維。其特點是,隨著數據量的不斷加大,可以增加機器數量,水平擴展,一個大數據系統,可以多達幾萬臺機器甚至更多。
Hadoop最初主要包含分布式文件系統HDFS和計算框架MapReduce兩部分,是從Nutch中獨立出來的項目。在2.0版本中,又把資源管理和任務調度功能從MapReduce中剝離形成YARN,使其他框架也可以像MapReduce那樣運行在Hadoop之上。與之前的分布式計算框架相比,Hadoop隱藏了很多繁瑣的細節,如容錯、負載均衡等,更便於使用。
Hadoop也具有很強的橫向擴展能力,可以很容易地把新計算機接入到集群中參與計算。在開源社區的支持下,Hadoop不斷發展完善,並集成了眾多優秀的產品如非關系數據庫HBase、數據倉庫Hive、數據處理工具Sqoop、機器學習算法庫Mahout、一致性服務軟件ZooKeeper、管理工具Ambari等,形成了相對完整的生態圈和分布式計算事實上的標準。
大快的大數據通用計算平臺(DKH),已經集成相同版本號的開發框架的全部組件。如果在開源大數據框架上部署大快的開發框架,需要平臺的組件支持如下:
數據源與SQL引擎:DK.Hadoop、spark、hive、sqoop、flume、kafka
數據采集:
數據處理模塊:DK.Hadoop、spark、storm、hive
機器學習和AI:DK.Hadoop、spark
NLP模塊:上傳服務器端JAR包,直接支持
搜索引擎模塊:不獨立發布
大快大數據平臺(DKH),是大快公司為了打通大數據生態系統與傳統非大數據公司之間的通道而設計的一站式搜索引擎級,大數據通用計算平臺。傳統公司通過使用DKH,可以輕松的跨越大數據的技術鴻溝,實現搜索引擎級的大數據平臺性能。
DKH,有效的集成了整個HADOOP生態系統的全部組件,並深度優化,重新編譯為一個完整的更高性能的大數據通用計算平臺,實現了各部件的有機協調。因此DKH相比開源的大數據平臺,在計算性能上有了高達5倍(最大)的性能提升。
DKH,更是通過大快獨有的中間件技術,將復雜的大數據集群配置簡化至三種節點(主節點、管理節點、計算節點),極大的簡化了集群的管理運維,增強了集群的高可用性、高可維護性、高穩定性。
DKH,雖然進行了高度的整合,但是仍然保持了開源系統的全部優點,並與開源系統100%兼容,基於開源平臺開發的大數據應用,無需經過任何改動,即可在DKH上高效運行,並且性能會有最高5倍的提升。
DKH,更是集成了大快的大數據一體化開發框架(FreeRCH), FreeRCH開發框架提供了大數據、搜索、自然語言處理和人工智能開發中常用的二十多個類,通過總計一百余種方法,實現了10倍以上的開發效率的提升。
DKH的SQL版本,還提供了分布式MySQL的集成,傳統的信息系統,可無縫的實現面向大數據和分布式的跨越。
DKH標準平臺技術構架圖
學習大數據基礎框架hadoop需要什麽基礎