大資料分析平臺工程師和演算法工程師崗位職責:
參與大資料平臺的搭建和優化,包括Hadoop,spark,Kafka,ELK等軟體的配置和系統優化。計算學習基礎演算法,使用Java語言和python語言實現資料處理,熟悉spark和MapReduce。瞭解AMOS,DEA,Frontier,統計分析的基本步驟
資料科學工程流程:
資料產品規範流程一般有以下開發流程
CRISP——DM (資料探勘建模標準)
資料科學到產品設計過程中的操作:
1.理解業務核心
2.理解資料關係
3.資料準備
4.建立模型
5.評價優化
6。具體實施
資料科學的生命週期理論上將其工程化
1.資料採集工程
2.資料準備工程(降噪與清洗)
3.假設與模型
4.評價與解釋
5.系統部署與模型框架搭建
6 具體操作
7.迴圈設計和優化週期
在PhilipGuo的博士論文《DataScienceWorkflow:OverviewandChallenges》他簡化的操作為:
資料準備——資料分析——結果反饋——方法的傳播
資料產品的中心應該是資料不是軟體工程所以不能隨便轉移,如果轉移到軟體工程成本即將倍增。
推薦一個演算法————智慧演算法:醉漢演算法模型
資料分析一般使用的軟體:stata ,SAS,Matlab,Mintab,Excel,DEAP,Frontier4.1,SPSS,EViews ,Amos,AigGis,MapGis;Clementine,SASEM
需要方向:資料統計資訊挖掘,資料圖表製作,計量經濟模型,資料模型構建,調查問卷設計,金融模型分析,神經網路,DEA模型分析。
hinton設計的deep learning目前比較突出
在資料工作中需要的知識儲備:
商學,社會學,統計學,資訊管理,情報學,