大資料工程師、BI工程師、資料庫工程師什麼區別?
大資料開發工程師、BI工程師、資料倉庫工程師、ETL工程師、有什麼區別?
今天我們來看一位大神如何解釋。
BI,商務智慧。BI工程師即為從事商務智慧行業的工程師。從需求分析師到資料倉庫架構師、到etl工程師、資料分析,報表開發工程師、資料探勘工程師、etc.,都可以稱之為BI工程師。
etl工程師:是從事系統程式設計、資料庫程式設計與設計,要掌握各種常用的程式語言的專業技術人員。也叫資料庫工程師。
對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解
想學習的同學歡迎加入大資料學習qq群:458345782,有大量乾貨(零基礎以及進階的經典實戰)分享給大家
並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系 。
1
一味的解釋資料倉庫概念可能沒意思,我們從不同角色出發吧
老闆 :我是一家手機公司的老闆,今天要向去董事局彙報,我要準備一份介紹過去三年的使用者增長、使用者留存、使用者活躍度、手機裡面每個APP使用率等情況的報表,假如下面沒我下面沒有BI,那我肯定就蒙逼了。。
BI : 我是一名非技術BI,我天天看競品的分析報告,看雙十一銷量,看各種評論,知道自己的產品有哪些短板有哪些長處,我分析南北地域差異,國內外客戶喜好,總之我在手機領域有著很強的行業解讀能力和資料解讀能力,我可以畫出非常漂亮的圖表和PPT。今天老闆讓我出一份報表,我還要去刷臉找ETL工程師幫我跑出這次報告的資料,基於這份資料我要給出一定的解讀,為啥這個月手機賣得不如上個月,為啥使用者流失越來越嚴重等等都是我要去做的。
ETL工程師 : 我是食物鏈最底層的苦逼ETL工程師,我會寫shell、我會搭hadoop/hive/hbase、會寫超複雜邏輯的sql,今天那個不會自己計算資料的BI又讓我跑幾個資料,我本想讓她提需求流程的,但她說這是老闆要的(運營慣用的殺手鐗!!!),要加急處理,我只能放下手頭的活兒給她跑資料了,花了半個小時把資料跑好給她,希望能就這麼交差吧。
大資料工程師,就是我們所知的大資料開發工程師,主要從事大資料平臺的搭建,對個人技術要求偏高,需要從業者具備java基礎,還得具備以下技術能力,hadoop、hive、hase、flume、storm、kafka、spark等,是一個非常龐大的技術叢集。
如果你以為我每天就做這點事那你就錯了,我平時的工作可不僅僅就是完成上面交給我的任務哦,我還負責資料ETL過程、資料建模、定時任務的分配、甚至有時Hadoop叢集的維護等等都得我去做,每件事單獨拿出來都可以拿出來寫本書。
就拿ETL過程來說吧,你要把原始資料從各種資料庫、各種伺服器的不同業務日誌歸一化到同一類格式,要約定好分隔符,然後匯入到分散式檔案系統HDFS,甚至你還要和業務系統定義資料格式出規範,資料收集完,你還得出中間表,資料過濾,格式統一,ID統一,維度統一,通過不同的資料現象進行資料,完了,你就得出一些日報週報之類的資料了,這時候你要按照需求把資料組織成一定的格式然後導Mysql、或者HBASE等等。
總之你就是需要把資料各種收集、各種處理、然後各種匯入匯出,是不是很有意思?
2
不過這些資料倉庫都非常初級,其中ETL工程師可發揮的空間太多了
1、正常情況下,老闆 —> BI —> ETL 出一份報告,這中間能否BI直接去計算資料?sql太複雜,那麼可不可以一切資料標籤化,BI甚至老闆要什麼就選什麼?
2、ETL工程師可以把資料收集自動化、可以規範業務日誌格式、可以將一切都配置化,但是這些都是基於N+1的,也就是說今天的發生了什麼一定要到明天才能看到,那麼有沒有一個系統能把資料分析做到實時或者準實時?參考雙十一大屏,馬總要是到12號才能知道成交了多少筆不劈了那幫做資料的才怪。
3、目前絕大部分分析系統都基於離線計算(HADOOP/ODPS),那這裡有個問題了,運營或BI想看個數據還得你離線慢騰騰跑完才能看到,那麼有沒有一個系統可以支援你再大的資料量,再複雜的邏輯,毫秒出資料?
我沒有提到的還有演算法工程師、大資料運維工程師等等。
3
資料倉庫的概念很廣很大,但在大資料應用面前也不值一提。
如果把資料價值分層,這裡分層的辦法很多,我只列舉一種方法,有人分過5層
第一層: 為老闆提供決策支援,例如傳統的財務報表
第二層: 為運營提供決策支援,例如資料化非常徹底的淘寶運營們
第三層: 為產品提供支援,例如有產品經理們會拿著報表天天看研究自己的某一個按鈕擺放位置對不對
第四層:資料用於生產,比如直接對接廣告系統產生收益,比如直接對接推薦系統為使用者推薦商品,實現千人千面,再比如利用手機APP直接為不同使用者push訊息
第五層:大資料交換,資料產生直接受益
大部分公司能做到前兩個層次就已經很不錯了,如果能做到第三層,就已經很牛逼,做到第四第五層次,國內網際網路公司不超過2家,大資料應用太大了,不知從何說起,以後聊吧。
4
針對評論中的一些問題做些統一的解釋
問:資料交換的理念
有人提到資料交換,資料交換不是簡單的我給你一點,你給我一點;也不是我給你錢,你給我點資料。
原因是這些模式基本走不通
1、資料很難定價,無法簡單的將資料定義為商品,資料供給方也無法去衡量一份資料能產生多大的價值,只有在具體的應用場景中才能大概估計它的價值,因此幾乎沒有一種簡單公平的機制去為交易雙反指定交易規則。
2、資料拷貝成本幾乎沒有
如果是一部iPhone,如果想要造出一模一樣的一部iPhone成本奇高,所以蘋果公司可以放心大膽的把手機賣給你而不怕你仿製,但是資料不行,因為資料幾乎沒有拷貝成本。
那麼帶來一個問題,如果我把這份資料一百萬賣給你,我幾乎除了『你的誠信』之外沒有任何方法去限制你不把資料折價買個其它更多第三方,那這份資料的市場價值很快蕩然無存。
3、隱私
商業有很多隱私規則,使用者也有很多隱私,這些都是不能簡單的通過拷貝的去交換的,如果給對方一份資料,例如:使用者的在某APP的瀏覽行為,那麼如果被第三方運用在電話騷擾,廣告彈窗之類的場景中,肯定是不行的。
所以資料的交易一定不是通過價格衡量,也不能簡單的資料拷貝
資料交換 最理想的方式應該是,雙方共同拿出一些東西,然後服務於某個場景,而資料匯出等行為都是被禁止的,雙方不能看到對方的資料也不能匯出對方的資料,可被匯出的結果一定是無害、不侵犯隱私的、不對原資料價值產生影響的東西。
而這樣一種資料交換的方式卻需要非常大的體系建設,平臺建設,制度建設。
這樣的體系和平臺,需要長時間的摸索和市場培育,資料人任重而道遠。
對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解
想學習的同學歡迎加入大資料學習qq群:458345782,有大量乾貨(零基礎以及進階的經典實戰)分享給大家
並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系 。