1. 程式人生 > >零基礎大數據學習的10大思維原理和方法全部都在這

零基礎大數據學習的10大思維原理和方法全部都在這

因果關系 喬布斯 準則 努力 半監督學習 經濟 好奇心 人類 大量

1、數據核心原理

從“流程”核心轉變為“數據”核心

  大數據時代,計算模式也發生了轉變,從“流程”核心轉變為“數據”核心。Hadoop體系的分布式計算框架已經是“數據”為核心的範式。非結構化數據及分析需求,將改變IT系統的升級方式:從簡單增量到架構變化。大數據下的新思維——計算模式的轉變。

  互聯網是當下流行趨勢,且未來可期。大數據的發展亦是時代發展的必然,如果大家還想要了解更多大數據的相關問題,歡迎加入qq群:458345782,有大量幹貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大數據講師給大家免費授課,給大家分享目前國內最完整的大數據高端實戰實用學習流程體系。
技術分享圖片

例如:IBM將使用以數據為中心的設計,目的是降低在超級計算機之間進行大量數據交換的必要性。大數據下,雲計算找到了破繭重生的機會,在存儲和計算上都體現了數據為核心的理念。大數據和雲計算的關系:雲計算為大數據提供了有力的工具和途徑,大數據為雲計算提供了很有價值的用武之地。而大數據比雲計算更為落地,可有效利用已大量建設的雲計算資源,最後加以利用。

  科學進步越來越多地由數據來推動,海量數據給數據分析既帶來了機遇,也構成了新的挑戰。大數據往往是利用眾多技術和方法,綜合源自多個渠道、不同時間的信息而獲得的。為了應對大數據帶來的挑戰,我們需要新的統計思路和計算方法。

  說明:用數據核心思維方式思考問題,解決問題。以數據為核心,反映了當下IT產業的變革,數據成為人工智能的基礎,也成為智能化的基礎,數據比流程更重要,數據庫、記錄數據庫,都可開發出深層次信息。雲計算機可以從數據庫、記錄數據庫中搜索出你是誰,你需要什麽,從而推薦給你需要的信息。

2、數據價值原理

  由功能是價值轉變為數據是價值

  大數據真正有意思的是數據變得在線了,這個恰恰是互聯網的特點。非互聯網時期的產品,功能一定是它的價值,今天互聯網的產品,數據一定是它的價值。

  例如:大數據的真正價值在於創造,在於填補無數個還未實現過的空白。有人把數據比喻為蘊藏能量的煤礦,煤炭按照性質有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數據並不在“大”,而在於“有用”,價值含量、挖掘成本比數量更為重要。不管大數據的核心價值是不是預測,但是基於大數據形成決策的模式已經為不少的企業帶來了盈利和聲譽。

  數據能告訴我們,每一個客戶的消費傾向,他們想要什麽,喜歡什麽,每個人的需求有哪些區別,哪些又可以被集合到一起來進行分類。大數據是數據數量上的增加,以至於我們能夠實現從量變到質變的過程。舉例來說,這裏有一張照片,照片裏的人在騎馬,這張照片每一分鐘,每一秒都要拍一張,但隨著處理速度越來越快,從1分鐘一張到1秒鐘1張,突然到1秒鐘10張後,就產生了電影。當數量的增長實現質變時,就從照片變成了一部電影。

  美國有一家創新企業Decide.com,它可以幫助人們做購買決策,告訴消費者什麽時候買什麽產品,什麽時候買最便宜,預測產品的價格趨勢,這家公司背後的驅動力就是大數據。他們在全球各大網站上搜集數以十億計的數據,然後幫助數以十萬計的用戶省錢,為他們的采購找到最好的時間,降低交易成本,為終端的消費者帶去更多價值。

  在這類模式下,盡管一些零售商的利潤會進一步受擠壓,但從商業本質上來講,可以把錢更多地放回到消費者的口袋裏,讓購物變得更理性,這是依靠大數據催生出的一項全新產業。這家為數以十萬計的客戶省錢的公司,在幾個星期前,被eBay以高價收購。

  SWIFT是全球最大的支付平臺,在該平臺上的每一筆交易都可以進行大數據的分析,他們可以預測一個經濟體的健康性和增長性。比如,該公司現在為全球性客戶提供經濟指數,這又是一個大數據服務。定制化服務的關鍵是數據。《大數據時代》的作者維克托·邁爾·舍恩伯格認為,大量的數據能夠讓傳統行業更好地了解客戶需求,提供個性化的服務。

  說明:用數據價值思維方式思考問題,解決問題。信息總量的變化導致了信息形態的變化,量變引發了質變,最先經歷信息爆炸的學科,如天文學和基因學,創造出了“大數據”這個概念。如今,這個概念幾乎應用到了所有人類致力於發展的領域中。從功能為價值轉變為數據為價值,說明數據和大數據的價值在擴大,數據為“王”的時代出現了。數據被解釋是信息,信息常識化是知識,所以說數據解釋、數據分析能產生價值。

3、全樣本原理

技術分享圖片

  從抽樣轉變為需要全部數據樣本

  需要全部數據樣本而不是抽樣,你不知道的事情比你知道的事情更重要,但如果現在數據足夠多,它會讓人能夠看得見、摸得著規律。數據這麽大、這麽多,所以人們覺得有足夠的能力把握未來,對不確定狀態的一種判斷,從而做出自己的決定。這些東西我們聽起來都是非常原始的,但是實際上背後的思維方式,和我們今天所講的大數據是非常像的。

  舉例:在大數據時代,無論是商家還是信息的搜集者,會比我們自己更知道你可能會想幹什麽。現在的數據還沒有被真正挖掘,如果真正挖掘的話,通過信用卡消費的記錄,可以成功預測未來5年內的情況。統計學裏頭最基本的一個概念就是,全部樣本才能找出規律。為什麽能夠找出行為規律?一個更深層的概念是人和人是一樣的,如果是一個人特例出來,可能很有個性,但當人口樣本數量足夠大時,就會發現其實每個人都是一模一樣的。

  說明:用全數據樣本思維方式思考問題,解決問題。從抽樣中得到的結論總是有水分的,而全部樣本中得到的結論水分就很少,大數據越大,真實性也就越大,因為大數據包含了全部的信息。

4、關註效率原理

  由關註精確度轉變為關註效率

  關註效率而不是精確度,大數據標誌著人類在尋求量化和認識世界的道路上前進了一大步,過去不可計量、存儲、分析和共享的很多東西都被數據化了,擁有大量的數據和更多不那麽精確的數據為我們理解世界打開了一扇新的大門。大數據能提高生產效率和銷售效率,原因是大數據能夠讓我們知道市場的需要,人的消費需要。大數據讓企業的決策更科學,由關註精確度轉變為關註效率的提高,大數據分析能提高企業的效率。

  例如:在互聯網大數據時代,企業產品叠代的速度在加快。三星、小米手機制造商半年就推出一代新智能手機。利用互聯網、大數據提高企業效率的趨勢下,快速就是效率、預測就是效率、預見就是效率、變革就是效率、創新就是效率、應用就是效率。

  競爭是企業的動力,而效率是企業的生命,效率低與效率高是衡量企來成敗的關鍵。一般來講,投入與產出比是效率,追求高效率也就是追求高價值。手工、機器、自動機器、智能機器之間效率是不同的,智能機器效率更高,已能代替人的思維勞動。智能機器核心是大數據制動,而大數據制動的速度更快。在快速變化的市場,快速預測、快速決策、快速創新、快速定制、快速生產、快速上市成為企業行動的準則,也就是說,速度就是價值,效率就是價值,而這一切離不開大數據思維。

  說明:用關註效率思維方式思考問題,解決問題。大數據思維有點像混沌思維,確定與不確定交織在一起,過去那種一元思維結果,已被二元思維結果取代。過去尋求精確度,現在尋求高效率;過去尋求因果性,現在尋求相關性;過去尋找確定性,現在尋找概率性,對不精確的數據結果已能容忍。只要大數據分析指出可能性,就會有相應的結果,從而為企業快速決策、快速動作、創占先機提高了效率。

5、關註相關性原理

  由因果關系轉變為關註相關性

  關註相關性而不是因果關系,社會需要放棄它對因果關系的渴求,而僅需關註相關關系,也就是說只需要知道是什麽,而不需要知道為什麽。這就推翻了自古以來的慣例,而我們做決定和理解現實的最基本方式也將受到挑戰。

  大數據思維一個最突出的特點,就是從傳統的因果思維轉向相關思維,傳統的因果思維是說我一定要找到一個原因,推出一個結果來。而大數據沒有必要找到原因,不需要科學的手段來證明這個事件和那個事件之間有一個必然,先後關聯發生的一個因果規律。它只需要知道,出現這種跡象的時候,我就按照一般的情況,這個數據統計的高概率顯示它會有相應的結果,那麽我只要發現這種跡象的時候,我就可以去做一個決策,我該怎麽做。這是和以前的思維方式很不一樣,老實說,它是一種有點反科學的思維,科學要求實證,要求找到準確的因果關系。

  在這個不確定的時代裏面,等我們去找到準確的因果關系,再去辦事的時候,這個事情早已經不值得辦了。所以“大數據”時代的思維有點像回歸了工業社會的這種機械思維——機械思維就是說我按那個按鈕,一定會出現相應的結果,是這樣狀態。而農業社會往前推,不需要找到中間非常緊密的、明確的因果關系,而只需要找到相關關系,只需要找到跡象就可以了。社會因此放棄了尋找因果關系的傳統偏好,開始挖掘相關關系的好處。

  例如:美國人開發一款“個性化分析報告自動可視化程序”軟件從網上挖掘數據信息,這款數據挖掘軟件將自動從各種數據中提取重要信息,然後進行分析,並把此信息與以前的數據關聯起來,分析出有用的信息。

  非法在屋內打隔斷的建築物著火的可能性比其他建築物高很多。紐約市每年接到2。5萬宗有關房屋住得過於擁擠的投訴,但市裏只有200名處理投訴的巡視員,市長辦公室一個分析專家小組覺得大數據可以幫助解決這一需求與資源的落差。該小組建立了一個市內全部90萬座建築物的數據庫,並在其中加入市裏19個部門所收集到的數據:欠稅扣押記錄、水電使用異常、繳費拖欠、服務切斷、救護車使用、當地犯罪率、鼠患投訴,諸如此類。

  接下來,他們將這一數據庫與過去5年中按嚴重程度排列的建築物著火記錄進行比較,希望找出相關性。果然,建築物類型和建造年份是與火災相關的因素。不過,一個沒怎麽預料到的結果是,獲得外磚墻施工許可的建築物與較低的嚴重火災發生率之間存在相關性。利用所有這些數據,該小組建立了一個可以幫助他們確定哪些住房擁擠投訴需要緊急處理的系統。他們所記錄的建築物的各種特征數據都不是導致火災的原因,但這些數據與火災隱患的增加或降低存在相關性。這種知識被證明是極具價值的:過去房屋巡視員出現場時簽發房屋騰空令的比例只有13%,在采用新辦法之後,這個比例上升到了70%——效率大大提高了。

  全世界的商界人士都在高呼大數據時代來臨的優勢:騰訊一項針對社交網絡的統計顯示,愛看家庭劇的男人是女性的兩倍還多;最關心金價的是中國大媽,但緊隨其後的卻是90後。而在過去一年,支付寶中無線支付比例排名前十的竟然全部在青海、西藏和內蒙古地區。

  說明:用關註相關性思維方式來思考問題,解決問題。尋找原因是一種現代社會的一神論,大數據推翻了這個論斷。過去尋找原因的信念正在被“更好”的相關性所取代。當世界由探求因果關系變成挖掘相關關系,我們怎樣才能既不損壞建立在因果推理基礎之上的社會繁榮和人類進步的基石,又取得實際的進步呢?這是值得思考的問題。

  轉向相關性,不是不要因果關系,因果關系還是基礎,科學的基石還是要的。只是在高速信息化的時代,為了得到即時信息,實時預測,在快速的大數據分析技術下,尋找到相關性信息,就可預測用戶的行為,為企業快速決策提供提前量。

  比如預警技術,只有提前幾十秒察覺,防禦系統才能起作用。雷達顯示有個提前量,如果沒有這個預知的提前量,雷達的作用也就沒有了,相關性也是這個原理。相對論與量子論的爭論也能說明問題,一個說上帝不擲骰子,一個說上帝擲骰子,爭論幾十年,最後承認兩個都存在,而且量子論取得更大的發展——一個適用於宇宙尺度,一個適用於原子尺度。

6、預測原理

  從不能預測轉變為可以預測

  大數據的核心就是預測,大數據能夠預測體現在很多方面。大數據不是要教機器像人一樣思考,相反,它是把數學算法運用到海量的數據上來預測事情發生的可能性。正因為在大數據規律面前,每個人的行為都跟別人一樣,沒有本質變化,所以商家會比消費者更了消費者的行為。

  例如:大數據助微軟準確預測世界懷。微軟大數據團隊在2014年巴西世界足球賽前設計了世界懷模型,該預測模型正確預測了賽事最後幾輪每場比賽的結果,包括預測德國隊將最終獲勝。預測成功歸功於微軟在世界懷進行過程中獲取的大量數據,到淘汰賽階段,數據如滾雪球般增多,常握了有關球員和球隊的足夠信息,以適當校準模型並調整對接下來比賽的預測。

  世界杯預測模型的方法與設計其它事件的模型相同,訣竅就是在預測中去除主觀性,讓數據說話。預測性數學模型幾乎不算新事物,但它們正變得越來越準確。在這個時代,數據分析能力終於開始趕上數據收集能力,分析師不僅有比以往更多的信息可用於構建模型,也擁有在很短時間內通過計算機將信息轉化為相關數據的技術。

  幾年前,得等每場比賽結束以後才能獲取所有數據,現在,數據是自動實時發送的,這讓預測模型能獲得更好的調整且更準確。微軟世界懷模型的成績說明了其模型的實力,它的成功為大數據的力量提供了強有力的證明,利用同樣的方法還可預測選舉或關註股票。類似的大數據分析正用於商業、政府、經濟學和社會科學,它們都關於原始數據進行分析。

  我們進入了一個用數據進行預測的時代,雖然我們可能無法解釋其背後的原因。如果一個醫生只要求病人遵從醫囑,卻沒法說明醫學幹預的合理性的話,情況會怎麽樣呢?實際上,這是依靠大數據取得病理分析的醫生們一定會做的事情。

  從一個人亂穿馬路時行進的軌跡和速度來看他能及時穿過馬路的可能性,都是大數據可以預測的範圍。當然,如果一個人能及時穿過馬路,那麽他亂穿馬路時,車子就只需要稍稍減速就好。但是這些預測系統之所以能夠成功,關鍵在於它們是建立在海量數據的基礎之上的。

  此外,隨著系統接收到的數據越來越多,通過記錄找到的最好的預測與模式,可以對系統進行改進。它通常被視為人工智能的一部分,或者更確切地說,被視為一種機器學習。真正的革命並不在於分析數據的機器,而在於數據本身和我們如何運用數據。一旦把統計學和現在大規模的數據融合在一起,將會顛覆很多我們原來的思維。現在能夠變成數據的東西越來越多,計算和處理數據的能力越來越強,大數據能幹很多很有意思的事情。

  預測當年葡萄酒的品質

  很多品酒師品的不是葡萄酒,那時候葡萄酒還沒有真正的做成,他們品的是發爛的葡萄。因此在那個時間點就預測當年葡萄酒的品質是比較冒險的。而且人的心理的因素是會影響他做的這個預測,比如說地位越高的品酒師,在做預測時會越保守,因為他一旦預測錯了,要損失的名譽代價是很大的。所以的品酒大師一般都不敢貿然說今年的酒特別好,或者是特別差;而剛出道的品酒師往往會“語不驚人死不休的”。

  普林斯頓大學有一個英語學教授,他也很喜歡喝酒,喜歡儲藏葡萄酒,所以他就想是否可以分析到底哪年酒的品質好。然後他就找了很多數據,比如說降雨量、平均氣溫、土壤成分等等,然後他做回歸,最後他說把參數都找出來,做了個網站,告訴大家今年葡萄酒的品質好壞以及秘訣是什麽。

  當他的研究公布的時候,引起了業界的軒然大波,因為他做預測做的很提前,因為今年的葡萄收獲後要經過一段的時間發酵,酒的味道才會好,但這個教授突然預測說今年的酒是世紀最好的酒。大家說怎麽敢這麽說,太瘋狂了。更瘋狂的是到了第二年,他預測今年的酒比去年的酒更好,連續兩次預測說是百年最好的酒,但他真的預測對了。現在品酒師在做評判之前,要先到他的網站上看看他的預測,然後再做出自己的判斷。有很多的規律我們不知道,但是它潛伏在這些大數據裏頭。

  大數據描繪“傷害圖譜”

  廣州市傷害監測信息系統通過廣州市紅十字會醫院、番禺區中心醫院、越秀區兒童醫院3個傷害監測哨點醫院,持續收集市內發生的傷害信息,分析傷害發生的原因及危險因素,系統共收集傷害患者14681例,接近九成半都是意外事故。整體上,傷害多發生於男性,占61。76%,5歲以下兒童傷害比例高達14。36%,家長和社會應高度重視,45。19%的傷害都是發生在家中,其次才是公路和街道。

  收集到監測數據後,關鍵是通過分析處理,把數據“深加工”以利用。比如,監測數據顯示,老人跌倒多數不是發生在雨天屋外,而是發生在家裏,尤其是旱上剛起床時和浴室裏,這就提示,防控老人跌倒的對策應該著重在家居,起床要註意不要動作過猛,浴室要防滑,加扶手等等。

  說明:用大數據預測思維方式來思考問題,解決問題。數據預測、數據記錄預測、數據統計預測、數據模型預測,數據分析預測、數據模式預測、數據深層次信息預測等等,已轉變為大數據預測、大數據記錄預測、大數據統計預測、大數據模型預測,大數據分析預測、大數據模式預測、大數據深層次信息預測。

  互聯網、移動互聯網和雲計算機保證了大數據實時預測的可能性,也為企業和用戶提供了實時預測的信息,相關性預測的信息,讓企業和用戶搶占先機。由於大數據的全樣本性,人和人都是一樣的,所以雲計算機軟件預測的效率和準確性大大提高,有這種跡象,就有這種結果。

7、信息找人原理

  從人找信息,轉變為信息找人

  互聯網和大數據的發展,是一個從人找信息,到信息找人的過程。先是人找信息,人找人,信息找信息,現在是信息找人的這樣一個時代。信息找人的時代,就是說一方面我們回到了一種最初的,廣播模式是信息找人,我們聽收音機,我們看電視,它是信息推給我們的,但是有一個缺陷,不知道我們是誰,後來互聯網反其道而行,提供搜索引擎技術,讓我知道如何找到我所需要的信息,所以搜索引擎是一個很關鍵的技術。

  例如:從搜索引擎向推薦引擎轉變。今天,後搜索引擎時代已經正式來到,什麽叫做後搜索引擎時代呢?使用搜索引擎的頻率會大大降低,使用的時長也會大大的縮短,為什麽使用搜索引擎的頻率在下降?時長在下降?原因是推薦引擎的誕生。就是說從人找信息到信息找人越來越成為了一個趨勢,推薦引擎就是說它很懂我,知道我要知道,所以是最好的技術。喬布斯說,讓人感受不到技術的技術是最好的技術。

  大數據還改變了信息優勢。按照循證醫學,現在治病的第一件事情不是去研究病理學,而是拿過去的數據去研究,相同情況下是如何治療的。這導致專家和普通人之間的信息優勢沒有了。原來我相信醫生,因為醫生知道的多,但現在我可以到谷歌上查一下,知道自己得了什麽病。

  谷歌有一個機器翻譯的團隊,最開始的時候翻譯之後的文字根本看不懂,但是現在60%的內容都能讀得懂。谷歌機器翻譯團隊裏頭有一個笑話,說從團隊每離開一個語言學家,翻譯質量就會提高。越是專家越搞不明白,但打破常規讓數據說話,得到真理的速度反而更快。

  說明:用信息找人的思維方式思考問題,解決問題。從人找信息到信息找人,是交互時代一個轉變,也是智能時代的要求。智能機器已不是冷冰冰的機器,而是具有一定智能的機器。信息找人這四個字,預示著大數據時代可以讓信息找人,原因是企業懂用戶,機器懂用戶,你需要什麽信息,企業和機器提前知道,而且主動提供你需要的信息。

8、機器懂人原理

  由人懂機器轉變為機器更懂人

  不是讓人更懂機器,而是讓機器更懂人,或者說是能夠在使用者很笨的情況下,仍然可以使用機器。甚至不是讓人懂環境,而是讓我們的環境來懂我們,環境來適應人,某種程度上自然環境不能這樣講,但是在數字化環境中已經是這樣的一個趨勢,就是我們所在的生活世界,越來越趨向於它更適應於我們,更懂我們。哪個企業能夠真正做到讓機器更懂人,讓環境更懂人,讓我們隨身攜帶的整個的生活世界更懂得我們的話,那他一定是具有競爭力的了,而“大數據”技術能夠助我們一臂之力。

  例如:亞馬遜網站,只要買書,就會提供一個今天司空見慣的推薦,買了這本書的人還買了什麽書,後來發現相關推薦的書比我想買的書還要好,時間久之後就會對它產生一種信任。

  解題機器人挑戰大型預科學校高考模擬試題的結果,解題機器人的學歷水平應該比肩普通高三學生。計算機不擅長對語言和知識進行綜合解析,但通過借助大規模數據庫對普通文章做出判斷的方法,在對話填空和語句重排等題型上成績有所提高。

  讓機器懂人,是讓機器具有學習的功能。人工智能已轉變為研究機器學習。大數據分析要求機器更智能,具有分析能力,機器即時學習變得更重要。機器學習是指:計算機利用經驗改善自身性能的行為。機器學習主要研究如何使用計算機模擬和實現人類獲取知識(學習)過程、創新、重構已有的知識,從而提升自身處理問題的能力,機器學習的最終目的是從數據中獲取知識。

  大數據技術的其中一個核心目標是要從體量巨大、結構繁多的數據中挖掘出隱蔽在背後的規律,從而使數據發揮最大化的價值。由計算機代替人去挖掘信息,獲取知識。從各種各樣的數據(包括結構化、半結構化和非結構化數據)中快速獲取有價值信息的能力,就是大數據技術。大數據機器分析中,半監督學習、集成學習、概率模型等技術尤為重要。

  說明:用機器更懂人的思維方式思考問題,解決問題。機器從沒有常識到逐步有點常識,這是很大的變化。去年,美國人把一臺雲計算機送到大學裏去進修,增加知識和常識。最近俄羅斯人開發一臺計算機軟件通過圖林測試,表明計算機已初步具有智能。

  讓機器懂人,這是人工智能的成功,同時,也是人的大數據思維轉變。你的機器、你的軟件、你的服務是否更懂人?將是衡量一個機器、一件軟件、一項服務好壞的標準。人機關系已發生很大變化,由人機分離,轉化為人機溝通,人機互補,機器懂人,現在年青人已離不開智能手機是一個很好的例證。在互聯網大數據時代,有問題—問機器—問百度,成為生活的一部分。機器什麽都知道,原因是有大數據庫,機器可搜索到相關數據,從而使機器懂人。是人讓機器更懂人,如果機器更懂人,那麽機器的價值更高。

9、電子商務智能原理

  大數據改變了電子商務模式,讓電子商務更智能

  商務智能,大數據時代重新獲得定義。

  例如:傳統企業進入互聯網,在掌握了“大數據”技術應用途徑之後,會發現有一種豁然開朗的感覺,我整天就像在黑屋子裏面找東西,找不著,突然碰到了一個開關,發現那麽費力的找東西,原來很容易找得到。大數據思維,事實上它不是一個全稱的判斷,只是對我們所處的時代某一個緯度的描述。

  大數據時代不是說我們這個時代除了大數據什麽都沒有,哪怕是在互聯網和IT領域,它也不是一切,只是說在我們的時代特征裏面加上這麽一道很明顯的光,從而導致我們對以前的生存狀態,以及我們個人的生活狀態的一個差異化的一種表達。

  大數據讓軟件更智能。盡管我們仍處於大數據時代來臨的前夕,但我們的日常生活已經離不開它了。交友網站根據個人的性格與之前成功配對的情侶之間的關聯來進行新的配對。例如,具有“自動改正”功能的智能手機通過分析我們以前的輸入,將個性化的新單詞添加到手機詞典裏。在不久的將來,世界許多現在單純依靠人類判斷力的領域都會被計算機系統所改變甚至取代。計算機系統可以發揮作用的領域遠遠不止駕駛和交友,還有更多更復雜的任務。別忘了,亞馬遜可以幫我們推薦想要的書,谷歌可以為關聯網站排序,Facebook知道我們的喜好,而linkedIn可以猜出我們認識誰。

  當然,同樣的技術也可以運用到疾病診斷、推薦治療措施,甚至是識別潛在犯罪分子上。或者說,在你還不知道的情況下,體檢公司、醫院提醒你趕緊去做檢查,可能會得某些病,商家比你更了解你自己,以及你這樣的人在某種情況下會出現的可能變化。就像互聯網通過給計算機添加通信功能而改變了世界,大數據也將改變我們生活中最重要的方面,因為它為我們的生活創造了前所未有的可量化的維度。

  說明:用電子商務更智能的思維方式思考問題,解決問題。人腦思維與機器思維有很大差別,但機器思維在速度上是取勝的,而且智能軟件在很多領域已能代替人腦思維的操作工作。例如美國一家媒體公司已用電腦智能軟件寫稿,可用率已達70%。雲計算機已能處理超字節的大數據量,人們需要的所有信息都可得到顯現,而且每個人互聯網行為都可記錄,這些記錄的大數據經過雲計算處理能產生深層次信息,經過大數據軟件挖掘,企業需要的商務信息都能實時提供,為企業決策和營銷、定制產品等提供了大數據支持。

10、定制產品原理

技術分享圖片

  由企業生產產品轉變為由客戶定制產品

  下一波的改革是大規模定制,為大量客戶定制產品和服務,成本低、又兼具個性化。比如消費者希望他買的車有紅色、綠色,廠商有能力滿足要求,但價格又不至於像手工制作那般讓人無法承擔。因此,在廠家可以負擔得起大規模定制帶去的高成本的前提下,要真正做到個性化產品和服務,就必須對客戶需求有很好的了解,這背後就需要依靠大數據技術。

  例如:大數據改變了企業的競爭力。定制產品這是一個很好的技術,但是能不能夠形成企業的競爭力呢?在產業經濟學裏面有一個很重要的區別,就是生產力和競爭力的區別,就是說一個東西是具有生產力的,那這種生產力變成一種通用生產力的時候,就不能形成競爭力,因為每一個人,每一個企業都有這個生產力的時候,只能提高自己的生產力,過去沒有車的時候和有車的時候,你的活動半徑、運行速度大大提高了,但是當每一個人都沒有車的時候,你有車,就會形成競爭力。大數據也一樣,你有大數據定制產品,別人沒有,就會形成競爭力。

  在互聯網大數據的時代,商家最後很可能可以針對每一個顧客進行精準的價格歧視。我們現在很多的行為都是比較粗放的,航空公司會給我們裏程卡,根據飛行公裏數來累計裏程,但其實不同顧客所飛行的不同裏程對航空公司的利潤貢獻是不一樣的。所以有一天某位顧客可能會收到一封信,“恭喜先生,您已經被我們選為幸運顧客,我們提前把您升級到白金卡。”這說明這個顧客對航空公司的貢獻已經夠多了。有一天銀行說“恭喜您,您的額度又被提高了,”就說明錢花得已經太多了。

  正因為在大數據規律面前,每個人的行為都跟別人一樣,沒有本質變化。所以商家會比消費者更了消費者的行為。也許你正在想,工作了一年很辛苦,要不要去哪裏度假?打開e-Mail,就有航空公司、旅行社的郵件。

  說明:用定制產品思維方式思考問題,解決問題。大數據時代讓企業找到了定制產品、訂單生產、用戶銷售的新路子。用戶在家購買商品已成為趨勢,快遞的快速,讓用戶體驗到實時購物的快感,進而成為網購迷,個人消費不是減少了,反而是增加了。為什麽企業要互聯網化大數據化,也許有這個原因。2000萬家互聯網網店的出現,說明數據廣告、數據傳媒的重要性。

  企業產品直接銷售給用戶,省去了中間商流通環節,使產品的價格可以以出廠價銷售,讓銷費者獲得了好處,網上產品便宜成為用戶的信念,網購市場形成了。要讓用戶成為你的產品粉絲,就必須了解用戶需要,定制產品成為用戶的心願,也就成為企業發展的新方向。

  大數據思維是客觀存在,大數據思維是新的思維觀。用大數據思維方式思考問題,解決問題是當下企業潮流。大數據思維開啟了一次重大的時代轉型。

  於國內的大數據工作還處在一個有待開發的階段,因此能從其中挖掘出多少價值完全取決於工程師的個人能力。已經身處這個行業的專家給出了一些人才需求的大體框架,包括要有計算機編碼能力、數學及統計學相關背景,當然如果能對一些特定領域或行業有比較深入的了解,對於其快速判斷並抓準關鍵因素則更有幫助。

  雖然對於一些大公司來說,擁有碩博學歷的公司人是比較好的選擇,不過阿裏巴巴集團研究員薛貴榮強調,學歷並不是最主要的因素,能有大規模處理數據的經驗並且有喜歡在數據海洋中尋寶的好奇心會更適合這個工作。

  除此之外,一個優秀的大數據工程師要具備一定的邏輯分析能力,並能迅速定位某個商業問題的關鍵屬性和決定因素。“他得知道什麽是相關的,哪個是重要的,使用什麽樣的數據是最有價值的,如何快速找到每個業務最核心的需求。”聯合國百度大數據聯合實驗室數據科學家沈誌勇說。學習能力能幫助大數據工程師快速適應不同的項目,並在短時間內成為這個領域的數據專家;溝通能力則能讓他們的工作開展地更順利,因為大數據工程師的工作主要分為兩種方式:由市場部驅動和由數據分析部門驅動,前者需要常常向產品經理了解開發需求,後者則需要找運營部了解數據模型實際轉化的情況。

  你可以將以上這些要求看做是成為大數據工程師的努力方向,因為根據萬寶瑞華管理合夥人顏莉萍的觀察,這是一個很大的人才缺口。目前國內的大數據應用多集中在互聯網領域,有超過56%的企業在籌備發展大數據研究,“未來5年,94%的公司都會需要數據科學家。”顏莉萍說。因此她也建議一些原本從事與數據工作相關的公司人可以考慮轉型。

大數據工程師做什麽?

  用阿裏巴巴集團研究員薛貴榮的話來說,大數據工程師就是一群“玩數據”的人,玩出數據的商業價值,讓數據變成生產力。大數據和傳統數據的最大區別在於,它是在線的、實時的,規模海量且形式不規整,無章法可循,因此“會玩”這些數據的人就很重要。

  沈誌勇認為如果把大數據想象成一座不停累積的礦山,那麽大數據工程師的工作就是,“第一步,定位並抽取信息所在的數據集,相當於探礦和采礦。第二步,把它變成直接可以做判斷的信息,相當於冶煉。最後是應用,把數據可視化等。”

  因此分析歷史、預測未來、優化選擇,這是大數據工程師在“玩數據”時最重要的三大任務。通過這三個工作方向,他們幫助企業做出更好的商業決策。

  找出過去事件的特征

  大數據工程師一個很重要的工作,就是通過分析數據來找出過去事件的特征。比如,騰訊的數據團隊正在搭建一個數據倉庫,把公司所有網絡平臺上數量龐大、不規整的數據信息進行梳理,總結出可供查詢的特征,來支持公司各類業務對數據的需求,包括廣告投放、遊戲開發、社交網絡等。

  找出過去事件的特征,最大的作用是可以幫助企業更好地認識消費者。通過分析用戶以往的行為軌跡,就能夠了解這個人,並預測他的行為。“你可以知道他是什麽樣的人、他的年紀、興趣愛好,是不是互聯網付費用戶、喜歡玩什麽類型的遊戲,平常喜歡在網上做什麽事情。”騰訊雲計算有限公司北京研發中心總經理鄭立峰對《第一財經周刊》說。下一步到了業務層面,就可以針對各類人群推薦相關服務,比如手遊,或是基於不同特征和需求衍生出新的業務模式,比如微信的電影票業務。

  預測未來可能發生的事情

  通過引入關鍵因素,大數據工程師可以預測未來的消費趨勢。在阿裏媽媽的營銷平臺上,工程師正試圖通過引入氣象數據來幫助淘寶賣家做生意。“比如今年夏天不熱,很可能某些產品就沒有去年暢銷,除了空調、電扇,背心、遊泳衣等都可能會受其影響。那麽我們就會建立氣象數據和銷售數據之間的關系,找到與之相關的品類,提前警示賣家周轉庫存。”薛貴榮說。

  在百度,沈誌勇支持“百度預測”部分產品的模型研發,試圖用大數據為更廣泛的人群服務。已經上線的包括世界杯預測、高考預測、景點預測等。以百度景點預測為例,大數據工程師需要收集所有可能影響一段時間內景點人流量的關鍵因素進行預測,並為全國各個景點未來的擁擠度分級—在接下來的若幹天時間裏,它究竟是暢通、擁擠,還是一般擁擠?

  找出最優化的結果

  根據不同企業的業務性質,大數據工程師可以通過數據分析來達到不同的目的。

  以騰訊來說,鄭立峰認為能反映大數據工程師工作的最簡單直接的例子就是選項測試(AB Test),即幫助產品經理在A、B兩個備選方案中做出選擇。在過去,決策者只能依據經驗進行判斷,但如今大數據工程師可以通過大範圍地實時測試—比如,在社交網絡產品的例子中,讓一半用戶看到A界面,另一半使用B界面,觀察統計一段時間內的點擊率和轉化率,以此幫助市場部做出最終選擇。

  作為電商的阿裏巴巴,則希望通過大數據鎖定精準的人群,幫助賣家做更好的營銷。“我們更期待的是你能找到這樣一批人,比起現有的用戶,這些人對產品更感興趣。”薛貴榮說。一個淘寶的實例是,某人參賣家原來推廣的目標人群是產婦,但工程師通過挖掘數據之間的關聯性後發現,針對孕婦群體投放的營銷轉化率更高。

  B 需要具備的能力

  數學及統計學相關的背景

  就我們采訪過的BAT三家互聯網大公司來說,對於大數據工程師的要求都是希望是統計學和數學背景的碩士或博士學歷。沈誌勇認為,缺乏理論背景的數據工作者,更容易進入一個技能上的危險區域(Danger Zone)—一堆數字,按照不同的數據模型和算法總能捯飭出一些結果來,但如果你不知道那代表什麽,就並不是真正有意義的結果,並且那樣的結果還容易誤導你。“只有具備一定的理論知識,才能理解模型、復用模型甚至創新模型,來解決實際問題。”沈誌勇說。

  計算機編碼能力

  實際開發能力和大規模的數據處理能力是作為大數據工程師的一些必備要素。“因為許多數據的價值來自於挖掘的過程,你必須親自動手才能發現金子的價值。”鄭立峰說。

  舉例來說,現在人們在社交網絡上所產生的許多記錄都是非結構化的數據,如何從這些毫無頭緒的文字、語音、圖像甚至視頻中攫取有意義的信息就需要大數據工程師親自挖掘。即使在某些團隊中,大數據工程師的職責以商業分析為主,但也要熟悉計算機處理大數據的方式。

  對特定應用領域或行業的知識

  在顏莉萍看來,大數據工程師這個角色很重要的一點是,不能脫離市場,因為大數據只有和特定領域的應用結合起來才能產生價值。所以,在某個或多個垂直行業的經歷能為應聘者積累對行業的認知,對於之後成為大數據工程師有很大幫助,因此這也是應聘這個崗位時較有說服力的加分項。

  “他不能只是懂得數據,還要有商業頭腦,不論對零售、醫藥、遊戲還是旅遊等行業,能就其中某些領域有一定的理解,最好還是與公司的業務方向一致的,”就此薛貴榮還打了個比方,“過去我們說一些奢侈品店員勢利,看人一眼就知道買得起買不起,但這群人恰恰是有敏銳度的,我們認為他們是這個行業的專家。又比如對醫療行業了解的人,他在考慮醫療保險業務時,不僅會和人們醫院看病的記錄相關,也會考慮飲食數據,這些都是基於對該領域的了解。”

  C 大數據工程師的職業發展

  如何成為大數據工程師

  由於目前大數據人才匱乏,對於公司來說,很難招聘到合適的人才—既要有高學歷,同時最好還有大規模數據處理經驗。因此很多企業會通過內部挖掘。

  今年8月,阿裏巴巴舉辦了一個大數據競賽,把天貓平臺上的數據拿出來,去除敏感問題後,放到雲計算平臺上交予7000多支隊伍進行比賽,比賽分為內部賽和外部賽。“通過這個方式來激勵內部員工,同時也發現外部人才,讓各行業的大數據工程師湧現出來。”

  顏莉萍建議,目前長期從事數據庫管理、挖掘、編程工作的人,包括傳統的量化分析師、Hadoop方面的工程師,以及任何在工作中需要通過數據來進行判斷決策的管理者,比如某些領域的運營經理等,都可以嘗試該職位,而各個領域的達人只要學會運用數據,也可以成為大數據工程師。

  薪酬待遇

  作為IT類職業中的“大熊貓”,大數據工程師的收入待遇可以說達到了同類的頂級。根據顏莉萍的觀察,國內IT、通訊、行業招聘中,有10%都是和大數據相關的,且比例還在上升。顏莉萍表示,“大數據時代的到來很突然,在國內發展勢頭激進,而人才卻非常有限,現在完全是供不應求的狀況。”在美國,大數據工程師平均每年薪酬高達17.5萬美元,而據了解,在國內頂尖互聯網類公司,同一個級別大數據工程師的薪酬可能要比其他職位高20%至30%,且頗受企業重視。
技術分享圖片
  職業發展路徑

  由於大數據人才數量較少,因此大多數公司的數據部門一般都是扁平化的層級模式,大致分為數據分析師、資深研究員、部門總監3個級別。大公司可能按照應用領域的維度來劃分不同團隊,而在小公司則需要身兼數職。有些特別強調大數據戰略的互聯網公司則會另設最高職位—如阿裏巴巴的首席數據官。“這個職位的大部分人會往研究方向發展,成為重要數據戰略人才。”顏莉萍說。另一方面,大數據工程師對商業和產品的理解,並不亞於業務部門員工,因此也可轉向產品部或市場部,乃至上升為公司的高級管理層。

  互聯網是當下流行趨勢,且未來可期。大數據的發展亦是時代發展的必然,如果大家還想要了解更多大數據的相關問題,歡迎加入qq群:458345782,有大量幹貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大數據講師給大家免費授課,給大家分享目前國內最完整的大數據高端實戰實用學習流程體系

零基礎大數據學習的10大思維原理和方法全部都在這