Hadoop技術創新方案
如今有很多公司都在努力挖掘他們擁有的大量資料,包括結構化、非結構化、半結構化以及二進位制資料等,來探索對資料的深入利用。
大多數公司估計他們只分析了已有資料的12%,剩餘88%還沒有被充分利用。大量的資料孤島和分析能力的缺乏是造成這種局面的主要原因。另外一個難題是如何判斷資料是否有價值。尤其是在大資料時代,為了避免資料丟失你必須採集並存儲這些資料。一些看起來與業務無關的資料,如手機GPS資料,將來也可能會有大用處。
所以,大量公司都寄希望於使用Hadoop解決如下難題:
採集並存儲與公司業務職能相關的所有資料。支撐先進的分析功能,包括商業智慧,採用現代方式對資料進行先進的視覺化和預測性分析。將資料快速分享給所需之人。整合多個數據孤島來解答以前根本沒人提過,甚至是未知的複雜問題。Hadoop支援解決方案規模的快速、有效擴大,使不斷增長的容量、速度以及多樣的資料能夠得到快速的處理。
如今Hadoop的購買週期正處於上升階段,因此在該領域催生了越來越多的廠商。儘管Hadoop是Apache的開源專案,任何人都可以免費下載,但大多數消費者還是傾向於採用廠商的打包方案。除了將所有的Hadoop元件打包並保證其能正常使用(相容版本)之外,廠商一般還會提供企業級支援和擴充套件:以Apache Hadoop(HDFS)作為方案的核心元件,搭配額外實現增強Hadoop的功能,並增加差異化功能使其解決方案更具吸引力。
在大資料Hadoop解決方案評測中,廠商有Amazon Web Services、Cloudera、Hortonworks、IBM、MapR科技、華為和大快搜索。這些廠商都是基於Apache開源專案,然後增加打包、支援、整合等特性以及自己的創新等內容以彌補Hadoop在企業中的短板。所有廠商都實現了這些功能,儘管方式略有不同——從各廠商的評測得分和廠商資料可見一斑。
大快大資料平臺(DKH),是大快搜索為了打通大資料生態系統與傳統非大資料公司之間的通道而設計的一站式搜尋引擎級,大資料通用計算平臺。傳統公司通過使用DKH,可以輕鬆的跨越大資料的技術鴻溝,實現搜尋引擎級的大資料平臺效能。
DKH,有效的集成了整個HADOOP生態系統的全部元件,並深度優化,重新編譯為一個完整的更高效能的大資料通用計算平臺,實現了各部件的有機協調。因此DKH相比開源的大資料平臺,在計算效能上有了高達5倍(最大)的效能提升。