[BigData]16家大資料分析平臺
革命 – 這個詞彙十分準確地描述了我們所處的這個資料分析的時代。企業一方面緊緊握住大量不同型別的資料,另一方面則無比急迫地渴求分析。供應商的迴應是提供高分散式結構和新技術水平的儲存處理能力。創業者還開拓了開源許可模式,這種模式並不新鮮,但正在越來越多地被接受,甚至被資料管理專家青睞。 Apache Hadoop,一家成立9年的開源資料處理平臺,最早被Yahoo、Facebook這樣的網際網路巨頭採用,它正在領導大資料革命。Cloudera 在2008年引入了對企業的商業支援,MapR和Hortonworks則分別在2009年和2011年步其後塵。在現有的資料管理平臺上,IBM 和EMC子公司Pivotal都已經引進它們自己的Hadoop分散式系統。微軟和Teradata 為Hortonworks平臺提供軟體補丁和一線的技術支援。Oracle 銷售並支援Cloudera平臺,而HP、SAP和其它參與者則表現得像中立國瑞士,與多個Hadoop軟體提供商合作、共同工作。 當摩爾定律給我們提供更快、更便宜、更富記憶體的處理器時,儲存分析則獲得了動力。擁有Hana平臺的SAP曾經是全球最大的儲存分析者,但是微軟和 Oracle現在做出姿態要為它們的旗艦資料庫引進儲存選項。聚焦於此的分析型資料庫供應商(包括Actian、HP Vertica和Teradata)已經引入高資料讀取率的技術,自帶工具將特定資料匯入記憶體來進行超快地分析。 頻寬、儲存、處理能力方面的進步也帶動了實時流處理和流分析能力的改進,但這項技術還需要獲得更廣泛的採用。這兒的幾個供應商處理著複雜的資料,但卻遊離 在金融貿易、國家情報之外,並且安全社群和部署也很少。仔細觀察這個領域,尤其是作為新開源模式下在各個領域的突破性應用,包括廣告發送、內容個性化、物 流和其它推動更廣泛採用的領域。 本文包括了廣義的資料管理供應商—IBM、Microsoft(微軟)、Oracle、SAP,它們提供幾乎所有東西,從資料整合軟體和資料庫管理系統到 商業智慧和分析軟體,再到儲存、流處理和Hadoop系統。Teradata聚焦於資料管理上,並且跟Pivotal一樣,它與分析市場領導者SAS有緊 密聯絡。 本文涉及的很多供應商都提供雲服務,而1010data和亞馬遜Web服務(AWS)則是把它們的整個業務都建構在雲模式中。Amazon擁有 這兩種產品的最廣泛選擇,對於那些執行大工作量並且儲存大量資料在AWS平臺上的企業來說,這是一個顯而易見的選擇。1010data擁有高可擴充套件性的數 據庫服務,並且支援資訊管理、商業智慧,以及以私有云方式提供的分析服務。 業界仍然在爭論Hadoop是否已經變得跟資料管理系統一樣不可或缺了。當資料量和資料型別極多的時候,Hadoop證明了其可用性和成本優勢。 Cloudera、Hortonworks和MapR 正在盡其所能將用於大規模儲存的Hadoop和MapReduce 處理技術移植到資料分析的世界。 包括Actian、InfiniDB/Calpont、HP Vertica、Infobright和Kognitio在內的供應商都圍繞資料庫管理系統來講它們的大資料故事,該系統完全聚焦於分析而不是交易處理。 德國的資料庫管理系統供應商Exasol是這個模子裡的另外一個參與者,但我們在本文中並沒有涉及到它,因為它的客戶基礎幾乎全部在歐洲大陸,僅在 2014年1月設立了美國和英國的辦事處。 這個名單沒有涵蓋Alpine Data Labs、Revolution Analytics和 SAS這樣的分析供應商。這些供應商一直需要與第三方資料庫管理系統供應商和Hadoop分發商提供的平臺相結合來完成工作,雖然SAS為SAS管理下的 儲存資料網格和Hadoop環境提供更多支援,正在模糊這條線。我們還排除了NoSQL和NewSQL 資料庫管理系統,它們非常(雖然不是完全)聚焦於大規模交易處理,而不是分析。我們計劃在一份很快單獨出版的報告中涵蓋NoSQL和NewSQL。 現在,讓我們來更多地比較、研究一下這些分析供應商吧。(待續) 對今天的企業來說,資料分析已經成為生死攸關的選擇。我們分析一些著名的供應商,從Hadoop創業者到傳統的資料庫市場參與者。
1010data,將分析放在了雲端 分析資料庫管理系統:1010data分列式分析資料庫 記憶體資料庫管理系統:無 流分析選擇:無 Hadoop分散式系統:無 硬體/軟體系統:不適用 位於紐約的1010data公司早在2000年就推出了基於私有云的分析服務,在華爾街建立了客戶基礎。大客戶包括紐約泛歐證券交易所和一些大銀行,不過這家公司還在零售、遊戲、健康、政府、電信等領域建立了分支業務。 1010data的分列式資料庫支援為可擴充套件的大規模併發處理,但它自備查詢語言的獨有設計,支援新增更廣查詢型別的SQL功能的一組子集,包 括圖表和時間序列分析。它還處理類似社交網路資料和機器資料的半結構化資料。在資料庫之外,公司還提供一個完整的服務包,包括資料整合、報告、資料視覺化 工具,以及統計分析、分析優化、機器學習等高階分析功能。 1010data的私有云服務解除了客戶在管理和擴充套件基礎設施方面的負擔。集中管理、獲取控制和API埠支援與後端系統的整合,並且廣泛地獲 取HIPAA安全級別的資訊。公司擁有超過250個客戶。與類似Amazon這樣為成千上萬客戶提供標準化(非常低成本)服務的雲平臺提供商相 反,1010data是一個客戶服務提供商,為滿足客戶需求而量身訂做私有云的應用和技術能力。
Actian,構建大資料服務組合 分析資料庫管理系統:ActianMatrix(之前名稱為ParAccel),ActianVector(之前名稱為Vectorwise) 記憶體資料庫管理系統:ActianMatrix記憶體選擇(資料儲存同時到記憶體和磁碟中) Hadoop分散式系統:無 流處理技術:無 硬體/軟體系統:無(只提供軟體的供應商) Ingres公司2011年取名為Actian,公司從那兒之後就嘗試做大資料組合。建立在超過1萬家客戶基礎上的Ingres,開源交易資料 庫,這家公司因一個快速分析資料庫管理系統Vectorwise(現在名叫ActianVector)而擴充套件了業務。它還收購了Versant-一個同名 物件資料庫的供應商和Pervasive-基於Hadoop的DataRush分析系統和資料整合軟體(現在叫ActianDataFlow)。2013 年4月對ParAccel的收購標誌著對使用大量併發處理資料庫管理系統(現在名叫ActianMatrix)進行大資料分析的一次更大地推動。 該公司致力於整合快速分析資料庫管理系統選項、雲服務和資料整合及分析軟體,營造成一個環境,其中Hadoop對資料管理架構的整合發揮著顯著 作用。ActianDataFlow包括SQL、ETL和Hadoop資料清洗選項,與來自Apache、Cloudera、Hortonworks及其 它平臺的分發任務協同工作。1.4億美元的年收入,擁有遠超過資料庫管理系統的故事,Actian在大資料市場中是一個個頭小而勇敢好鬥的角色。 對今天的企業來說,資料分析已經成為生死攸關的選擇。我們分析一些著名的供應商,從Hadoop創業者到傳統的資料庫市場參與者。
Amazon將所有服務都放在雲端 分析資料庫管理系統:AmazonRedshift服務(基於ParAccel引擎);Amazon關係資料庫服務 記憶體資料庫管理系統:無。AmazonWeb服務的第三方選擇包括Altibase、SAPHana和ScaleOut Hadoop分散式系統:Amazon靈活資料處理系統(ElasticMapReduce),第三方選擇包括Cloudera和MapR 流處理技術:AmazonKinesis. 硬體/軟體系統:不適用 AmazonWeb服務從第三方(包括Cloudera、微軟、Oracle、SAP及很多其它市場參與者)那兒獲得資料管理服務的重要客戶名單, 但這個雲服務的巨頭對大資料分析長久以來有著自己的野心。在靈活計算雲(ElasticComputeCloud,EC2)和簡易儲存服務 (SimpleStorageService,S3)的儲存基礎設施基礎上,Amazon早在2009年就推出基於Hadoop的靈活資料處理 (ElasticMapReduce)服務。2013年,AmazonWeb服務增加了基於ParAccel資料庫管理系統的"紅移" (Redshift)資料倉庫服務,該服務由另一個獨立資料整合系統、商業智慧和分析供應商的重要客戶名單來提供支援。為AmazonWeb服務實現大數 據能力的是DynamoDBNoSQL資料庫管理服務和Kinesis流處理服務。 Amazon對各類企業/機構最大的吸引力在於:在它的"雲"上面執行資料密集型應用。領先的Hadoop分發商Cloudera最近與 AmazonWeb服務(AWS)結成合作夥伴,此事可以明顯地推斷很多企業正在選擇融合戰略,將選定的大資料工作量移向雲端,同時將敏感資料和關鍵任務 工作保留在內部。通過增加更多選擇來連線企業資料中心,AmazonWeb服務(AWS)正在開拓這樣的機會。
Cloudera著眼於"資料軸"角色 分析資料庫管理系統:Hbase,以及ClouderaImpala,雖然不是一個數據庫管理系統,仍然支援SQL在Hadoop頂層的查詢。 記憶體資料庫管理系統:雖然不是資料庫管理系統,ApacheSpark仍然支援在Hadoop頂層的記憶體分析 Hadoop分散式系統:CDH開源分散式系統、Cloudera標準版(Standard)、Cloudera企業版(Enterprise) 流處理技術:包括Storm(風暴)的Hadoop上開源流處理 硬體/軟體系統:合作伙伴工具和預設硬體,兩者也可來自Cisco、Dell、HP、IBM、NetApp和Oracle等系統。 作為Hadoop軟體分發市場的領導者,Cloudera致力於將資料處理架構擴充套件入一個綜合的"企業資料軸",它可以作為企業內部所有資料的首要目的地和管理中心點。 Cloudera鄭重宣告支援開源的Hadoop,但為了確保企業級的業績、可靠性、資料接入控制和安全性,Cloudera還提供專有的軟體,包 括Cloudera管理器(ClouderaManager)、Cloudera導航器(ClouderaNavigator),以及供應商獨有的用於備 份和恢復的特定元件。更進一步,通過Cloudera管理器來準備、管理並監控工作量,以及通過Cloudera導航器來提供接入控制和賬戶查詢,包括 ClouderaImpala和Cloudera搜尋(ClouderaSearch)在內的開源元件均得到了規模化管理。 Cloudera認為它的平臺正在穩定地走向成熟,逐漸成為資料管理的"地心引力中心",它還相信關係資料庫最終將預留給合適的應用來處理小規模的 連續、結構化資料。不管是否符合您的認知,我們還是期望Cloudera一如既往地致力於提供成熟而擁有廣泛能力的Hadoop平臺。 DougHenschen,InformationWeek,1/30/2014 對今天的企業來說,資料分析已經成為生死攸關的選擇。我們分析一些著名的供應商,從Hadoop創業者到傳統的資料庫市場參與者。
HP公司Haven架構開發出的Vertica平臺 分析資料庫管理系統:HPVertica分析平臺第7版 記憶體資料庫管理系統:Vertica並不是一個記憶體資料庫,但由於擁有高(磁碟)讀取率,所以它聲稱能確保接近實時的查詢能力 Hadoop分散式系統:無 流處理技術:無 硬體/軟體系統:HP融合系統(ConvergedSystem)300,專為Vertica設計,以及一個適用於Cloudera、Hortonworks和MapRHadoop分散式系統的參考架構選擇 HP將它的大資料平臺架構稱之為Haven,是Hadoop、Autonomy、Vertica、企業安全 (EnterpriseSecurity)和"n"應用的首字母縮寫。HP沒有自己的Hadoop分散式系統,但它為領先的Hadoop軟體分發商提供參 考的硬體設定。Autonomy的IDOL軟體從事著非結構化資料的搜尋和獲取工作,而Vertica則是HP公司大量併發資料處理的分析資料庫管理系 統,專為大量結構化資料集的快速分析而設計。與IBMPureData分析系統(Netezza)和PivotalGreenplum這樣類似的產品相 比,Vertica傾向於補足而不是代替類似Teradata這樣的傳統企業資料倉庫環境。 隨著Vertica7的釋出,HP增加了一個"FlexZone"設計,使得使用者在製作資料庫方案和相關分析、報告之前,可以在大量資料集裡獲取有 用資料。第7版還通過Hive的HCatalog元資料儲存庫與Hadoop實現了整合,為使用者提供了一個在HDFS上以表格瀏覽的形式獲取資料的途徑。 HP公司用於收集和分析機器資料的ArcSightLogger軟體及其操作分析(OperationalAnalytics)工具,使得它比大多 數競爭對手更像是大資料分析上的一個IT螺旋。比如,IBM、SAP和Oracle在資料整合、商業智慧和企業應用的分析軟體方面就更加深入。如果您選擇 HP作為IT系統管理和硬體供應商,那麼Haven平臺及其元件可以作為Hadoop和第三方資料管理及分析軟體的投入補充。
Hortonworks對開源之路的追求 分析資料庫管理系統:HBase,雖然不是一個數據庫管理系統,Hive仍然是Hortonworks提供的在Hadoop頂層實現SQL查詢的不錯選擇 記憶體資料庫管理系統:雖然不是一個數據庫管理系統,ApacheSpark仍然支援在Hadoop頂層進行記憶體分析 Hadoop分散式系統:Hortonworks資料平臺(HDP)2.0,HDPforWindows,HortonworksSandbox(提供Hadoop教程的免費、單節點桌面軟體) 流處理技術:Hadoop上的開源流處理技術選項,包括Storm硬體/軟體系統:合作伙伴工具和預配置的硬體,或都可從HP、Teradata和其它平臺上獲得 Hortonworks是開源Hadoop社群的大量貢獻者,致力於將它建成一個具有廣泛能力的資料管理平臺。由於避開了專有組 件,Hortonworks將它自己與競爭對手Cloudera和MapR區別開。與開源軟體一樣,Hortonworks資料平臺(HDP)上的所有東 西都可以免費獲得。 對於它的批評者(前述的競爭對手)來說,Hortonworks把這個開源策略推到了過分的地步,傳送廣受歡迎、獲得社群認可的開源功能,而放棄不 完全開源的新功能(有可能在技術上是更好的功能)。比如,Hortonworks一直堅持做並且試圖完善Hive這個開源系統,與此相 比,Cloudera則承諾基於Impala來實現效能更佳的Hadoop上SQL功能,而Impala雖然在技術上是開源的,但需要用專有的 Cloudera管理軟體才能達到最佳的管理效果。 簡單地說,HDP是一個保守的Hadoop分散式系統。據報道,Hortonworks在技術支援成本上佔有對競爭對手的優勢。 Hortonworks秉持這樣的做法:沒有任何來自供應商的威脅可以佔據它的分散式系統,並且它傳送的任何東西都得到完全徹底地測試和驗證。你不必感到 驚奇,但一旦享受了Hortonworks提供的服務,你就不會想從社群的其它地方獲得任何產品效能、簡易管理或功能實現方面的東西了。 對今天的企業來說,資料分析已經成為生死攸關的選擇。我們分析一些著名的供應商,從Hadoop創業者到傳統的資料庫市場參與者。
IBM提供了一個綜合的平臺
分析資料庫管理系統:DB2,Netezza
記憶體資料庫管理系統:帶BLU加速器的DB2,solidDB Hadoop分散式系統:InfoSphere,BigInsights 流處理技術:InfoSphere資料流(InfoSphereStreams) 硬體/軟體系統:操作分析的純資料系統(DB2),IBM分析型純資料系統(Netezza);Hadoop純資料系統(BigInsights) IBM輕而易舉地擁有產業內最廣泛的資料管理平臺組合。除了提供上述所有平臺和大型主機之外,IBM有一堆資料整合、資料清洗和資料質量監控軟體的 選擇,來幫助獲取和清理資料。它還擁有大量的商業智慧和分析工具,包括Cognos、SPSS、文字和非結構化資料探勘選項,以及IBM開發的 Hadoop工具,包括BigSheets和BigSQL。IBM還建構了SaaS組合和雲基礎設施,對SoftLayer20億美元的收購是其兌現雲服 務承諾的具體體現。 雖然IBM有大量的產品和服務,但它仍然不是一個產品導向的技術提供商。IBM把以諮詢的方式提供深度整合和專業顧問服務為業務重點,致力於構建可 能包含多個產品的企業細分解決方案。好處在於它不會是千篇一律、一刀切式的服務方式,但競爭對手錶示要警惕其開放性承諾和不合理的、持續的諮詢費用。那些 選擇IBM的企業期待一個有效的戰略方法,帶來業務的顯著提升。錢是否花得物有所值,全憑你自己的判斷。 InfiniDB一心撲在ApacheHadoop上 分析資料庫管理系統:InfiniDB(之前叫Calpont) 記憶體資料庫管理系統:無 Hadoop分散式系統:無 流處理技術:無 硬體/軟體系統:無(單一軟體供應商) InfiniDB是之前以公司名稱命名的Calpont資料庫管理系統的新名稱。這家已經成立14年的公司正在執行大量併發處理的第四代平臺-分列式資料庫管理系統。新的產品名稱對銷售和市場活動的促進起到了一定的作用,使得客戶在現有的50家基礎上有所提高。 InfiniDB的大轉變不僅僅是一個名稱的變化。該公司重新設計了資料庫管理系統,來在頂層執行專為Hadoop上SQL分析設計的Hadoop 分散式檔案系統-很像Pivotal為建立HAWQ而對Greenplum做的改進。傳統的部署選擇包括Linux、Windows或AmazonWeb 雲服務。該公司還在GNU通用公共許可證下對InfiniDB進行了開源,選擇該項許可證是因為InfiniDB是一個MySQL儲存引擎。商務支援的企 業版增加了管理和自動化工具,以及一個管理控制檯。 InfiniDB的技術與HP的Vertica和Actian的Matrix(之前的ActianParAccel)相差無幾,但公司的高層表示它 的自動分割槽功能使其比這些競爭對手更容易管理。公司還聲稱在Hadoop上SQL查詢效能方面比ClouderaImpala、Hive和其它產品更具優 勢。這些斷言不會在Hadoop分發商中贏得很多朋友和同盟軍,但公司指望通過積極的定價來贏得Hadoop使用者和潛在的資料庫管理系統客戶。對今天的企業來說,資料分析已經成為生死攸關的選擇。我們分析一些著名的供應商,從Hadoop創業者到傳統的資料庫市場參與者。
Infobright更關注機器資料
分析資料庫管理系統:Infobright
記憶體資料庫管理系統:無
Hadoop分散式系統:無
流處理技術:無
硬體/軟體系統:InfobrightInfopliance
Infobright是一個分析資料庫的專業提供商,運營一個快速分析目標達每伺服器50TB的分列式儲存資料庫管理系統,該資料庫專為對稱多處理器服務 器設計,並不支援大規模併發處理。50TB對大資料來說似乎量級太小,但Infobright的高壓縮率和資料留白技術尤其適合機器資料,比如點選流、移 動資料、日誌檔案、感測器資料等。
Infobright 常常被用於與Hadoop或大型企業資料倉庫的協同工作。更大的儲存能力可以支援長期、高規格的儲存,而Infobright作為一個MySQL引擎,則 是快速深度挖掘最新的資料子集。分列式設計和資料留白技術確保只有與每次查詢相關的資訊才被分析,以保證次秒響應時間。資料被自動地按需求索引而不必分 區,但要求做最低限度的校準。對於快速專門的分析來說,它是一個低成本、行動迅捷的選擇。
Kognitio是記憶體分析方面的高手
分析資料庫管理系統:Kognitio分析平臺(KognitioAnalyticalPlatform)
記憶體資料庫管理系統:Kognitio分析平臺(KognitioAnalyticalPlatform)
Hadoop分散式系統:無
流處理技術:無
硬體/軟體系統:KognitioAppliance
Kognitio的大規模併發處理資料庫管理系統與ActianMatrix(之前名稱ParAccel)、HPVertica、IBM純資料 (PureData)分析系統(之前名稱Netezza)和PivotalGreenplum是競爭對手。供應商長期以來都支援RAW密集型的部署,並提 供管理能力來執行分析和記憶體處理。客戶Tivo研究分析公司部署了高(磁碟)讀取率的Kognitio,以確保對7000萬有線電視家庭觀看電視廣告情況 分析報告的快速查詢響應時間。
最近,Kognitio更加重視在記憶體分析方面的投入,並且已經開發出一款整合Hortonworks資料平臺的產品,支援在Hadoop頂層的記憶體SQL分析。它還提供一組工具和"雲端"服務。
Doug Henschen, InformationWeek, 1/30/2014