1. 程式人生 > >願你的大數據能有點柴米油鹽的味道.........

願你的大數據能有點柴米油鹽的味道.........

大數據

一直以來都有兩個觀點:1,當你不能夠用生活中的例子來講明白你所懂技術的時候,也許就是你自身對該技術理解深度不到位。2,牛人分兩種,一種是把自己所會的技術講的所有人都能聽明白,而另一種就是講的只有一小部分高手能聽懂........


最近開始泡知乎論壇,買了一些Live開始學習。才發現自己對數據挖掘行業的認知淺薄,才知道自己該努力的方向。於是就有了今天的這篇文章:


大數據是什麽?它跟柴米油鹽有什麽樣的關系?大數據跟數據科學家,數據挖掘,算法工程師又有什麽關系?


1,大數據是什麽?
技術分享

實際上,最近一年。嚷嚷大數據的人很多,而這個詞的熱度也絲毫不減。而個人認為,大數據重要的是思維,是商業模式,而不是技術!大數據的這一思維能帶給我們什麽?不再是傳統的拍腦袋做決定,而是依靠我們所擁有的數據跟行業經驗,在這方面,行業經驗非常重要。這也就是為什麽互聯網公司要想在傳統行業做大數據分析必須要找到一個在這個行業經驗很多的人的原因。
記得一次中午吃飯,跟同事們就聊起了什麽是大數據,什麽是雲計算的話題。實際很簡單,我們吃飯的餐盤就是雲,而我們食物就是大數據。而同事不是不知道雲,他是不智道雲跟我們有什麽關系?它能帶給我們什麽?能給現在的工作提供哪些便利?
雲只是一個平臺,重要的還是它的內容。我們用完餐,就會把餐盤放到收餐臺上。而食物是我們所要吸收的,餐盤裏不同的小格子可以放不同的食物,這些食物有些是大塊,有些是小塊,這些就相當於數據前期 的整理。專業點的說法就是數據清理,或者叫ETL。


2,它跟柴米油鹽有什麽樣的關系呢?

技術分享

要做好一道菜,或是做出一頓美食。缺少不了柴米油鹽,就相當於有了數據,我們不僅要有烹飪的工具,而且還要有烹飪的技術。最近在看舌尖系列,就覺得中國人烹飪美食的技術不亞於現在IT的相關技術。只不過是我們都忽略了老祖宗的一些東西罷了........

當我們把食材準備好的時候,我們就需要開始烹飪了。這裏就拿我的拿手菜(茄子燒肉)來舉例子吧:茄子有很多的切法,可以切條,也可以切丁(就是那種小塊)。而肉也是可以切成絲,也可以切成丁,同時也可以切成肉沫(這就是借助攪拌機了)。這些數據原始加工的過程,很大程度上決定了你最終分析出來的結果。有人的喜歡吃茄丁,有的人喜歡吃肉沫,有的人喜歡大塊的肉............而不同人的喜好決定了你的分析目標是什麽?這也就是為什麽數據挖掘裏分析目標的關鍵性。
當你有了分析目標之後,後邊的油,鹽,調料的多少就有了判斷。而油是所有抄菜基上必須的一道步驟,這一步就相當於數據分析裏的去缺失值,數據統計這一步。大體統計出數據的一個整體質量,有多少缺失值?中位數與平均數是否相等?是否符合正態分析?數據是呈現離散的,還是連續的?基本上都是在熱鍋的這一部分所要思考的。油熱的好,蔥姜蒜的香味就能出來,熱不好,蔥姜蒜有可能就糊鍋了。後邊抄菜的香味就出不來了。


3,大數據跟數據科學家,數據挖掘,算法工程師又有什麽關系?

技術分享

數據科學家:廚師長
數據科學家這個概念,最早聽到是在IBM的一次沙龍活動中聽到的。當時我們小團隊也稀裏糊塗拿到了優勝獎,以為我們就可以是數據科學家了。現在想想,真的是too young,too native。科學家那有那麽簡單的事。而大數據就是一個跟柴米油鹽的工種,離科學家還有很遠的距離!
當掌握了大數據思維之後,你也要跟實際的業務相關連。相當於你知道如何抄這個菜之後,食材的選擇,新鮮程度如何這一方面你也需要掌握。同時你也要了解到當下這個菜的大體定價...........等等一系列的東西,有數據有關的,與數據無關的。你都要掌握你可以成為一個合格的數據科學家。否則,還是不要拿這個title出去忽悠人。

數據挖掘:創作廚師
至於數據挖掘,就你要你自創一個菜。剛開始學抄菜的時候,我們都是按照食譜一個一個的學著抄的。而到後期,當家人特別愛吃某兩個菜的時候,你就要學會來調和這種菜的做法。比如,在做好鯽魚豆腐湯的時候,是否要把冬瓜跟粉絲也放在一起。而當這樣嘗試之後,有的會成為一道更加美味的菜肴。而有的就不那以好吃了。
從以上的角度來看,數據挖掘==自創菜,而數據分析==照菜譜抄菜。這樣我們就能看出這兩者的差別了。一個是有分析目標,一個是沒有分析目標。數據挖掘有可能會為公司創造更大業績,也有可能失敗。就是因為你不知道你挖掘出來的目標是否符合公司的業務要求,或者說你挖掘出來的客戶都很好,但在業務執行的時候就是會出很多問題。

算法工程師:火候廚師
實際上,算法工程師在大數據行業裏是很重要的。經常見到的說法就是:代碼工程師好招。而是一個好的算法工程師難遇。換在古代的說法就是:千軍易得,名將難求!
在大一點的飯店,你都會發現,客人在等餐的時間都會很長。而如何加快上餐速度。如何最快的烹飪好食物,並擺盤上菜。這一塊是很有講究的。而算法工程師,他們需要了解客戶的業務,同時也要了解自己數據系統的性能。只有這兩者相結合,才能更好的從業務角度來優化自己的數據架構。在這裏,想起當時導師跟我講的一個例子,中國人在寫C的時候,愛用指針去調用內存,而在國外有些成熟的公司裏都是用數組堆棧來直接調用。因為系統的延遲效應也是決定著你的最終成敗。
在IT行業分工越來越細的今天,算法工程師的價值越來越大,有可能一個公司。一個算法工程師就相當於10個代碼人員的工作效果。這裏提到的不是效率,而是效果。因為最終的業務落地需要有內在的算法支持,但更重要的是你的代碼邏輯表達。


技術分享 好了,這次就先寫到這吧!以後會堅持寫的,希望能把抄菜大數據系列寫完。最後,還是要感謝下公司,不定期的發菜(按照慣例,最後還是放上一道學會抄的菜),讓我對各種菜譜開始了學習,在不能學習技術的同時,抄菜過程中也是對所學的知識進行深入思考。希望自己未來能抄得一手好菜,也能在大數據上精進一些,加油!

技術分享


本文出自 “數據挖掘與可視化” 博客,轉載請與作者聯系!

願你的大數據能有點柴米油鹽的味道.........