1. 程式人生 > >大數據入門之大數據處理流程

大數據入門之大數據處理流程

大數據開發 大數據挖掘 大數據分析

  隨著互聯網的發展,大數據也在逐漸彰顯出自己的優勢特點,那麽關於大數據的處理流程,你是否了解?讓我們一起來看看大數據的處理流程。

  第一,數據采集

  定義:利用多種輕型數據庫來接收發自客戶端的數據,並且用戶可以通過這些數據庫來進行簡單的查詢和處理工作。

  特點和挑戰:並發系數高。

  使用的產品:MySQL,Oracle,HBase,Redis和 MongoDB等,並且這些產品的特點各不相同。

  第二,統計分析

  定義:將海量的來自前端的數據快速導入到一個集中的大型分布式數據庫 或者分布式存儲集群,利用分布式技術來對存儲於其內的集中的海量數據 進行普通的查詢和分類匯總等,以此滿足大多數常見的分析需求。

  特點和挑戰:導入數據量大,查詢涉及的數據量大,查詢請求多。

  使用的產品:InfoBright,Hadoop(Pig和Hive),YunTable, SAP Hana和Oracle Exadata,除Hadoop以做離線分析為主之外,其他產品可做實時分析。

  第三,挖掘數據

  定義:基於前面的查詢數據進行數據挖掘,來滿足高級別的數據分析需求。

  特點和挑戰:算法復雜,並且計算涉及的數據量和計算量都大。

  使用的產品:R,Hadoop Mahout


大數據入門之大數據處理流程