資料探勘中SAS、python、R、spark、hadoop個人見解
阿新 • • 發佈:2019-02-08
2014年做過幾個比較大型的SAS專案,今年接觸接觸pandas,想在兩者說說自己的一些看法,對於SAS能處理的大資料,之前在民生銀行的是SAS伺服器配置的是128g記憶體 16核cpu
2t的硬碟空間,處理億級別的資料還是毫無壓力的,sas軟體不得不說不只是一個單純的統計軟體,在資料探勘這一塊無可媲美的優勢(非機器學習),既可以當資料庫,裡面封裝了最成熟最實在的資料探勘演算法,比如Logistics、決策樹、bp神經網路、svm、線性迴歸系列的的演算法(嶺迴歸、lass迴歸、穩健迴歸等)、時間序列、聚類系列演算法等等,自打9.3還增加了最經典的random forest;統計方面更是其立身之本,還可以跟shell、dos、資料庫相互動,sas公司還是很強大,去年年底專案上用到了SAS 連結hadoop,sas裡面可以直接抽取hive裡面的資料,對於大型hbase表,可以先寫mapreduce先做處理,再利用hive建立外部表,再抽取,甚至還可以寫proc
hadoop過程,還用了va模組,這是一個報表模組,基於web的,還有ecc(文字挖掘模組);甚至還在通用專案上寫好多or程式碼,對於學運籌學的朋友的可以多學學or,裡面的最優方法包括簡單的線性規劃用的是單純興發,對於高階的凸函式,可以利用牛頓迭代法、快速下降法、共軛梯度牛法、高斯牛頓迭代法,裡面都有相應的命令對應著優化方法;對於sas在醫療方法的應用,可能對統計會要求相對高一點,在金融行業風險的應用更是國際的是標準,比如說信用卡平方模型、操作風險等;在這裡說比較幸運的去年抱著SAS公司的大腿做過操作風險高階計量法的專案,裡面用到的各種分佈擬合和蒙特卡洛模擬,是我目前我做過最難的一個專案;對於資料排程方面,sas也是能完美的解決,對於傳統行業的企業需要做資料探勘的,sas是不二之選,但是有它的缺點,第一就是價格過高,第二就是太笨重了,9.4的sas已經到58g全模組,不過能解決怎麼多問題,確實已經是相當的給力,對大型的網際網路行業應用到機器學習方面的東西,比如說人臉識別、影象識別、推薦演算法、日誌處理方面SAS並不擅長。