1. 程式人生 > >大資料時代:搭建自己的大資料平臺可以很容易!

大資料時代:搭建自己的大資料平臺可以很容易!

一、基礎應用篇:構建歷史資料查詢系統

最初開始嘗試大資料技術的客戶,除網際網路行業外就是電信行業的客戶了。不管從是IT技術儲備還是從需求的迫切程度來看,電信行業的客戶都具有應用大資料技術的強烈驅動力:一方面電信業內部系統每時每刻都在產生大量的資料,如詳單資料、計費資料、活動日誌資料等;另一方面電信行業的客戶擁有大量精幹的技術團隊,積累了強大的技術力量,為新技術的探索和應用打下了良好的技術基礎。客戶最初的想法是通過搭建大資料平臺解決現有海量歷史資料的儲存問題,同時又能夠利用 Hadoop 的分散式處理能力滿足資料的查詢需求,為現有線上資料查詢系統進行分流。對於運營商來說,SQL語言已經是通用的資料訪問標準:很多已有的應用通過SQL訪問資料,現有技術人員對SQL語言的使用已經得心應手,於是通過SQL來訪問儲存的歷史資料成為首選。因此不難看出為什麼最終客戶會選擇BigSQL:BigSQL提供了SQL2011標準的資料訪問介面,可以幫助客戶實現如下圖所示的歷史資料查詢功能。

大資料平臺搭建

二、進階應用篇:實現增強型資料倉庫平臺

讓我們再來看看某汽車製造行業的客戶如何使用BigInsights。該客戶傳統的資料庫倉庫系統已經運行了很多年,主要支撐現有營銷業務等分析型應用。隨著網際網路的飛速發展,現有分析系統日益顯示出侷限性:現在客戶可以從外部資料來源獲取越來越多的資料,如從保險公司獲取的汽車保險資料、從網際網路論壇獲取的使用者關於車型的評價和使用反饋等資料,但是由於傳統資料倉庫平臺只能將資料模式化、轉換成結構化資料後才能儲存和分析,導致沒有辦法直接利用這些寶貴的使用者資料。在進行了技術調研之後,客戶提出了利用大資料技術整合現有資料、擴充現有營銷平臺能力,並最終建立以客戶為核心的精準營銷系統的思路。在IBM的幫助下,客戶基於IBMBigInsights產品搭建了增強型資料倉庫平臺:在BigInsights平臺裡儲存和處理各種內外部資料,並通過 BigSheet 等工具進行預覽、探索資料,再通過進一步資料分析將提取出來的高價值結構化資訊返回到原始資料倉庫。

三、高階應用篇:綜合大資料分析平臺

大資料分析的魅力在於可以使用一系列高階資料分析技術,如資料建模分析,進行資料探勘、深度分析,從現有資料中獲取高價值的資訊。我們在銀行業的某客戶就是基於IBM解決方案構建了綜合大資料分析平臺:基於IBM BigInsights搭建基礎大資料平臺,在平臺內部儲存和處理從各個渠道得到的資料,通過專用的指標生成工具對資料進行處理,處理結果用於建模分析;資料分析方面,基於,並通過SPSS AS(Analytic Server)管理執行在BigInsights內部的各項分析任務,最終分析結果可直接匯出至營銷平臺使用。

大資料平臺搭建

四、總結:

通過以上應用案例的簡單介紹,可以看出其實利用大資料技術可以很容易:從自己的實際需求出發,確定業務場景再選擇不同的元件,依靠成熟的商用大資料產品可以快速搭建能為自己所用的大資料平臺, 讓大資料技術真正為我所用。IBM

BigInsights已經打包好常用的各類元件,只等你來試試了!包含的開源元件:Ambari、Avro、Flume、Hadoop、HBase、Hive、Knox、Oozie、Pig、Parquet、Spark、Snappy、Sqoop、Solr、Slider、Zookeeper;IBM產品元件:Big SQL、BigSheets、Text Analytics、Machine Learning、Big R、POSIX Distributed Filesystem、Adaptive MapReduce 、Multi-tenant scheduling。

有些客戶一直擔心IBM的產品價格不菲?別擔心,在 IBM BigInsights V4 產品模組中,IBM提供了兩個完全免費的產品包:

BigInsights快速啟動模組包含BigInsights 大部分功能可在非生產環境進行部署和體驗; IOP(IBM Open Platform)模組包含了 Apache Hadoop 社群中主流的大資料元件,可幫助您快速搭建自己的大資料環境。完整的版本和模組說明如下圖所示:

大資料平臺搭建