1. 程式人生 > >再談使用開源軟體搭建資料分析平臺

再談使用開源軟體搭建資料分析平臺

三年前,我寫了這篇部落格使用開源軟體快速搭建資料分析平臺, 當時收到了許多的反饋,有50個點贊和300+的收藏。到現在我還能收到一些關於dataplay2的問題。在過去的三年,開源社群和新技術的發展可謂日新月異,我希望試試利用最新的技術來幫助沒有資料科學背景的人也能夠輕鬆的進行資料分析和預測,於是就有了dataplay3

架構

老規矩,先上架構圖:

為了構建一個最簡單的開箱即用的資料分析平臺,我使用瞭如下的技術棧:

伺服器端:

  • sanic 基於Python3的web伺服器
  • pandas Python上最流行的資料分析庫
  • auto-sklearn 基於sklearn的自動機器學習庫
  • prophet 非死不可開源的時間序列分析庫
  • pandassql 能夠在Panda資料框上執行SQL的庫
  • gunicorn 基於python的WSGI HTTP伺服器

客戶端:

 

功能

Dataplay3提供了資料分析的基本功能,希望儘可能的簡化使用者資料分析的複雜性。

  1. 基於Pandas的資料集管理
  2. 基於SQL和Pands的查詢
  3. 基於Grammar of Graphics的視覺化
  4. 簡單的儀表盤
  5. 基於自動化機器學習, 提供數值和分類資料的建模和預測
  6. 時間序列分析

這裡上幾個功能截圖,具體功能請參考 https://gangtao.github.io/dataplay3/features

 

對架構和設計的思考

從全棧工程師到全生命週期工程師

參考