1. 程式人生 > >大資料基礎架構方案

大資料基礎架構方案

大資料架構方案,主要包括整個大資料的軟體棧,主要功能包括:資料抽取,資料儲存,資料分析,資料探勘

下面是整個架構設計圖:
架構設計圖

  1. 資料抽取
    關係型資料庫,通過sqoop匯入
    日誌檔案通過flume匯入

  2. 資料儲存
    採用hdfs,hbase等為資料儲存的主體
    對於文字檢索則採用es/solr等搜尋技術
    分析後的結果資料可以採用關係型資料庫儲存

  3. 資料分析
    採用spark,mapreduce,storm等計算框架分析
    批處理:spark,mapreduce
    流式處理:spark,storm

  4. 資料探勘
    採用 spark MLIB,mathout等進行資料建模分析

  5. 資料查詢
    利用hive元資料來建立資料倉庫檢視,通過hive thirft,impala, spark SQL等提供JDBC/ODBC介面供報表展示工具查詢

通過以上架構,實現大資料應用的落地,大資料的目標還是為了提高業務能力,通過大資料架構帶來的技術變革,提升資料價值,改革業務模式,才是大資料的紅利