大數據系列之三:大數據體系架構的重要裏程碑
歐凱慣例:引子
世界上唯一不變的就是變化,大數據的架構也不例外。
這次變化的推動者,多是一些大的商業公司!
首發地址
---
Teradata 美國天睿
Teradata
這家公司其實挺陌生的,但這並不能讓我們忽視其在大數據方面做出的貢獻。簡單一句描述這家公司的貢獻就是:
2008年之前,這家公司以
關系型
為基礎,硬剛大數據,之後意識到數據實在太大大復雜了,終究實現了對非關系型數據的支持。
具體它拿關系型作為對大數據的解決方案硬剛到什麽程度呢?拿一個數據說來說明白了,直到2017年,它可以基於其關系型解決方案處理50PB級別的數據。(當然50PB在現在的大數據框架中都是毛毛雨了,不過這也從側面反應出它對自己產品的自信與不舍)
LexisNexis
2000
年,這家公司用C++開發了一個分布式文件共享及數據存儲查詢框架,它可以在節點間處理結構化,半結構化和非結構化數據。2004
年,它收購了Seisint
,又在2008
年收購了ChoicePoint
,然後它基於二者的產品在2011
年融合成了HPCC
系統。HPCC是高性能計算集群
的簡稱。還不錯,HPCC是開源的。
其實在這裏,我們就可以看到當下主流的大數據處理框架的雛形了,所以這家公司在大數據處理方面的貢獻是很大的,這也得意於其管理者的眼光,通過買買買的策略實現技術的融合,推動時代的進步。
不值一提的歐洲核組織
CERN
是歐洲核子研究組織
,這裏為什麽要提到CERN呢?因為它和其它的一些物理實現組織在幾十年內積累了大量的數據,而且這些數據相當的精密,隨著計算機的發展,它們自然而然的選擇了以超級計算機作為這些數據的處理工具。這裏反應了大數據的一個側面,即,假如數據非常精密且內部關系十分緊密,使用分布式並行處理可能並不方便,那只不能求助於超級計算機了,畢竟超級計算機『一個頂倆』。
牛逼哄哄的Google
曾經豐田的廣告那叫一個牛逼啊『車到山前必有路,有路必有豐田車』,現在,谷歌在互聯網辦就是這般存在,而且是完全有過之。
2004年,谷歌發布了類似於HPCC的MapReduce,它提出了一個並行處理模型並成功發布了基於此的大數據處理工具。MapReduce包含兩個階段:
- Map階段:將數據的查詢進行拆分,然後將子查詢分散到各個結點,各個結點並行處理各自的查詢。
- Reduce階段:收集並行結點的相關結果然後再次進行分發。
這種設計相當成功,所以後來Apache基於MapReduce框架創建了Hadoop這個開源項目。
2012年,Apache又創建了Spark項目,該項目旨在解決MapReduce中Map階段後只能跟隨Reduce階段的局限,即可以按需配置多個操作。
大數據處理平臺的6C共識
- Connection(連接:傳感器和網絡傳輸)
- Cloud(雲:計算和數據點播)
- Cyber(網絡:模型與存儲)
- Content/Context(內容與背景:意義與內在關系)
- Community(社區:分享與協作)
- Customization(定制:個性化與價值)
歐凱慣例:小結
很明顯,大數據技術的革新是需求驅動的,而主力就是當代的有實力的技術公司,這裏不得不在點名一個谷歌,是真強啊。
大數據系列之三:大數據體系架構的重要裏程碑