1. 程式人生 > >Thinking in BigData(二)大資料時代下的變革

Thinking in BigData(二)大資料時代下的變革

大資料時代的思維變革

        A Revolution That Will Transform How We Live, Work, and Think.

       不期而遇的一本《大資料時代》將我引進大資料的領域。這個浪裡淘沙的時代,我們都站在這個時代改革的前沿,而作為網際網路最具爆發力的一種媒介,它給我傳遞著什麼資訊?如果說我們錯過了2000年左右的網際網路浪潮,錯過電商競爭的時代,但我們趕上了雲端計算和大資料的興起,這將是一次難得的轉型與立足機會。而它的到來,會給我們帶來什麼轉變?

       就像在《大資料時代》中的開篇引言:

       “一場生活、工作與思維的大變革。大資料開啟了一次重大的時代轉型。就像望遠鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測微生物一樣,大資料正在改變我們的生活以及理解世界的方式,成為新發明和新服務的源泉,而更多的改變正蓄勢待發……”。

       商業、公共衛生、思維、時代轉型,生存方式,乃至方方面面。在過去的一年中,這三個也猶如星星之火以致燎原之勢。在我們炒大資料概念的同時,我們更關心的是:什麼事大資料?大資料的核心是什麼?、大資料能產生什麼樣的價值?那就隨著我的理解,開始我們的大資料之旅。

       大資料時代的思維變革:1、更多。2、更雜。3、更好。

1、更多

       由傳統的隨機樣本預測,到全體預測的轉變。

       當資料處理技術已經發生了翻天覆的變化時,在大資料時代進行抽樣分析就像在汽車時代騎馬一樣。一切都改變了,我們需要的是所有的資料,“樣本=總體”。

       傳統“樣本”資料是我們基於傳統的統計學,利用小樣本事件來預測全集發生的概率。而在大資料的思維中,既然是“樣本”,那定時存在誤差,有誤差定會的預測結果產生影響,那就不能稱之為準確。隨著資訊資料採集的便捷性,資料的規模也遠遠超過我們的想象。取樣分析的精確性隨著取樣隨機性的增加而大幅提高,但與樣本數量的增加關係卻不大,而樣本的選擇的隨機性比樣本數量更重要。但這又提出了新的問題,如何有效的選擇樣本,如何選擇樣本和全域性資料更匹配。在我們遇到各種各樣的問題的同時,增加樣本空間,看似一個解決問題的辦法,但這同樣會出現上面的問題。那我們接下來要做什麼?大資料是指不再採用隨機分析法,而是採用所有資料的方法。其實,這樣的處理方法,在具體實現的過程中也會遇到一些問題,但相比於隨機抽取“樣本”,準確率已不可同日而語。

2、更雜

       不再是精確性,而是混雜性。

       執迷於精確性是資訊缺乏時代和模擬時代的產物。只有5%的資料是結構化且能適用於傳統資料分析利用的。如果不接受混亂,剩下95%的非結構化資料都無法被利用,只有接受不精確性,我們才能開啟一扇從未涉足的世界的窗戶。

       “大資料”通常用概率說話,而不是板著“確鑿無疑”的面孔。整個社會要習慣這種思維需要很長的時間,其中也會出現一些問題。但現在,有必要指出的是,當我們檢視擴大資料規模的時候,要學會擁抱混亂。這裡談到資料的混雜,必然會牽扯到混雜資料的儲存。傳統關係型資料庫已經無法滿足我們的需求,隨之NoSql(非關係型資料)應運而生。隨著待處理資料量逐漸增多,大家越來越需要一種在叢集環境中易於程式設計且執行效率高的大資料處理技術,NoSql。NoSql不在侷限於傳統關係型資料庫的條條框框,而只是一個key,一個vlaue,最大的特點准許資料的冗餘與混雜。這裡不再多探討非關係型資料庫的特點。

       大資料要求我們有所改變,我們必須能夠接受混亂和不確定性。確定性似乎一直是我們生活的支撐,就像我們常說“丁是丁,卯是卯”。但認為每個問題只有一個答案的想法已經站不住腳了,不管我們承認不承認。一旦我們承認了這個事實甚至擁護這個事實的話,我們離真相又近了一步。

3、更好

       不是因果關係,而是相關關係

       知道“是什麼”就夠了,沒必要知道“為什麼”。在大資料時代,我們不必非得知道現象背後的原因,而是要資料自己“發聲”。

       其實上述前兩個思想的重大轉變導致第三個變革,這個變革有望顛覆很多傳統觀念。而這些傳統觀念更加基本,往往被認為是社會建立的基礎:找到一切事情發生背後的原因。而在更多的時候,尋找資料間的關聯並利用這種關聯就足夠了。這種關聯,決定了預測的關鍵。相關關係的核心是量化兩個資料值之間的數理關係。相關關係強調的是指一個數據值增加時,另一個數據只很有可能隨著增加。例如谷歌流感趨勢:在一個特定的地理位置,越多的人通過谷歌搜尋特定的詞條,該地區就有更多的人患了流感。相反,相關關係弱就一位置當一個數據值增加時,另一個數據值不會發生變化。例如:我們可以尋找關於個人的鞋碼和幸福的相關關係,但會發現幾乎扯不上什麼關係。

       當我們找到一個現象的良好的關聯物,相關關係可以幫助我們捕捉現在和預測未來。如果,A和B經常一起發生,我們只需要注意到B發生了,就可以預測A也發生了。當我們不在為有了想法,然後才收集資料去測試想法的可行性的時候。我們已經有了太多的資料和更好的工具,我們要找到之間的相關性,就變得更容易、更快。這也意味著我們必須關注:當資料點以數量級方式增長的時候,我們會觀察到許多似是而非的相關關係。而如何獲得可利用的相關關係,就是我們再進一步探討的問題了。建立在相關關係分析法基礎上的預測是大資料的核心。

       在大資料的背後,我們關注的“是什麼”,而不再是“為什麼”。我們跳開追本溯源的探究,開始了不在糾結與因果的論斷,從顛覆了傳統的理念,從關係入手,開啟資料大資料的探索。

結論:

       大資料,改變人類探索世界的方法。我們需要改變我們的操作方式,使用我們能收集到的所有資料,而不僅僅是使用樣本。我們不能再把精確性當做我們探究的重心,我們需要接受混亂和錯誤的存在。另外,我們應該側重於分析相關關係,而不再尋求每個預測背後的原因。使我們不再受限於傳統的思維模式和特定領域裡隱含的固有偏見,大資料才能為我們提供更多更新的深刻洞見。大資料時代將要釋放出的巨大價值使得我們選擇大資料的理念和方法不再是一種權衡,而是通往未來的必然轉變。但是在我們到達目的地之前,我們有必要了解怎樣才能到達。在高科技行業裡的很多人認為是依靠新的工具,從高速晶片到高效軟體等。當然,這可以理解為因為他們自己是工具創造者。這個問題固然重要,但不是我們要考慮的問題。大資料趨勢的深層原因,就是海量資料的儲存以及越來越多的事物是以什麼樣的資料形式存在的。這就引入到下一個話題。

大資料時代的商業變革

1、      資料化

       一切皆可“量化”。

       大資料發展的核心動力來源於人類測量、記錄和分析世界的渴望。資訊科技變革隨處可見,但是如今的資訊科技變革的重點在“T”(技術)上,而不是在“I”(資訊)上。現在,我們是時候把聚光燈打向“I”,開始關注資訊本身了。

       資料化,不是數字化。資料化與數字化大相徑庭。數字化指的的是模擬資料轉換成用0和1表示的二進位制,這樣電腦就可以處理這些資料了。而資料化,是一種把現象轉變為可製表分析的量化形式的過程。為了得到可量化的資訊,我們要知道如何計量:為了資料化量化了的資訊,我們要知道怎麼記錄計量的結果。量化,是資料化的核心。計算機帶來了數字測量和儲存裝置,這樣就大大提高了資料化的效率。計算機可以通過數學分析挖掘出比資料更大的價值。數字化帶來了資料化,但是數字化無法取代資料化。當文字變成資料,當方位變成資料,溝通變成資料,你就可以想象,一切都可以資料化了。而這中,我們很難想象的資料,正在日復一日的擴大,我們很難想象的擴大,隨之帶來的就是儲存,處理和展示等一系列問題。我們姑且不去考慮這背後,會產生什麼樣的聯動效應。我們閉上眼,就花花的字元,就在你眼前浮現,這個世界也就在你的眼前。

       一旦世界被資料化,就只有你想不到,而沒有資訊做不到的事情了。我們跨過艱辛的人工分析過程後去揭示隱藏在資料中的價值。而今天,擁有了資料分析工具(統計學和演算法)以及必需的裝置(資訊處理器和儲存器),我們就可以在更多領域、更快、更大規模地進行資料處理了。當你拋開傳統的思維模式,將世界看作資訊,看做可以理解的資料海洋,為我們提供了一個從未有過的審視的視角,去滲透到生活的每一個角落。資料化的影響會使水渠和報紙的影響微乎其微,同時,通過賦予人類資料化世間萬物的工具,它也對網際網路的地位提出了挑戰。但目前,它的主要用途還是在商業領域。談到商業,第一問題就是:價值。

2、價值

       “取之不盡,用之不竭”的資料創新。

       資料就像一個神奇的礦山,當它的首要價值被髮掘後仍能不斷地給予。它的真實價值就像漂浮在海洋中的冰山,第一時間看到的只是冰山一角,而絕大部分都隱藏在其表面之下。

       在數字化時代,資料支援交易的作用被掩蓋,資料只是被交易的物件。而在大資料時代,事情再次發生變化。資料的價值從它最基本的用途變為未來的潛在用途。這一轉變意義重大,它影響了企業評估其擁有的資料及訪問者的方式,促使甚至是迫使公司改變他們的商業模式,同時也改變了組織者看待和使用資料的方式。在大資料時代,我們更強調的是資料的“潛在價值”。當我們明白,你所看到的只是冰山一角的時候,我們就應該明白,那些創新型企業如何能夠提取其潛在價值並獲得潛在的巨大利益。總之,在我們判斷資料的價值的時候,我們需要考慮到未來它可能被使用的各種方式,而非僅僅考慮其目前的用途。

       資料的價值體現在其所有可能用途的總和。這些似乎無限潛在用途的選擇,不再是指傳統意義上的利用選擇,而是實際意義上可能產生價值的選擇。這些選擇的總和加在一起就是資料的價值,就是資料的“潛在價值”。同時,我們不再是資料的單遍掃描,而是資料的再利用、資料重組利用、擴充套件資料利用、資料折舊利用、資料的廢除利用、開放資料的利用、資料的估值利用等。

       當我們不在站在冰面上看問題的時候,解決問題的方式可能會變得更開闊。而資料價值的關鍵就是看似無限的再利用,即潛在價值的利用。資料積累的過程固然重要,但是遠遠不夠,因為大部分資料的價值體現在它的使用過程中,而不是僅僅的佔有資料本身。

3、      角色定位

       資料、技術與思維的三足鼎立。

       當年,微軟以1.1億美元的價格收購了大資料公司Farecast,而兩年後谷歌則以7億美元的價格購買了給Farecast提供資料的ITA Software公司。如今,我們正處在大資料時代的早期,思維和技術是最有價值的,但是最終大部分的價值還是必須從資料本身中挖掘。

       上面我們談到如何通過創新用途,挖掘出資料新的價值,主要是指我們所說的潛在價值。如今,我們把重點轉移到使用資料的公司和它們如果通過資料產生價值如何融入大資料價值鏈中。

      大資料價值鏈3大構成:

(1)      基於資料本身的公司:這些公司擁有大量資料或至少可以收集到大量資料卻不一定有從資料提取價值或使用催生創新思想的技能。最好的例子就是Twitter,它擁有海量資料這一點毋庸置疑的,但它的資料是通過兩個獨立的公司授權給別人使用的。

(2)      基於技能的公司:它們通常是諮詢公司、技術供應商或第三方資料分析公司。它們掌握了專業的技能但並不一定擁有資料或提出資料創新性用途的才能。比方說:沃爾瑪和Pop-Tarts這兩個零售商是藉助Teradata的分析來獲得營銷點子,Teradata就是一家大資料分析公司。

(3)      基於思維的公司:Jetpac的聯合利華的創始人,皮特-華登(PeteWarden),就是通過想法獲得價值的一個例子。Jetpac通過使用者分享到網上的旅行照片來為人們推薦下次旅行的目的地。對於某些公司來說,資料和技能並不是成功的關鍵。讓這些公司脫穎而出的是其創始人和員工的創新思維,他們有的是挖掘資料的新價值的獨特想法。

       所謂的大資料思維,是指一種意識,認為公開的資料一旦處理得當就能為千百萬人急需解決的問題提供答案。資料最終的歸宿就是個人,個人的價值。我們處在的不再是思考所謂的可行,而是思考所有的可能。大資料思維,必然會引起一些人的恐慌,也必然引起一些公司的倒閉與轉型。傳統行業最終都會轉變為大資料行業,無論是金融服務業、醫藥行業還是製造業。當然,大資料不會讓所有行業的中等規模的公司消亡,但是肯定會給可以被大資料分析所取代的中等規模的公司帶來巨大的威脅。

       當我們正在憧憬大資料給我們帶來的變革的時候,擔憂依然存在。隱私問題,就是不可避免的。在大資料時代,如何關注使用者隱私保護,當我們的資訊暴露在公開的環境下,我想會是怎樣的可怕。這是更是值得我們思考的問題,而這也是大資料給我們帶來的不良影響。

大資料時代的管理變革

1、風險

       讓資料主宰一切的隱患。

       我們時時刻刻都暴露在“第三隻眼”之下:亞馬遜監視著我們的購物習慣,谷歌監視著我們的網頁瀏覽習慣,微博似乎什麼都知道,不僅竊取到我們心中的“TA”,還有我們的社交關係網。在大資料時代,不管告知與許可、模糊化還是匿名化,所有的隱私策略都失效了。現如今很多使用者都覺得自己的隱私已經受到了威脅,當大資料變得更加普遍的時候,情況將更加不堪設想。現在我們會談到資料可以預測一個人是否要犯罪,是否有一些企圖,在大資料時代的情況下,這一切都變得不再那麼難以想象。預測的目的,不是因為所做而受到懲罰,而是因為將做,即使他們實際上並沒有去做。

       在我們談到大資料時代,暴露我們的隱私的情況下,人們為此感到擔憂。其實在另一方面,通過大資料預測也可以為我們打造一個更安全、更高效的社會,但是卻也否定了我們之所以為人的重要組成部分——自由選擇的能力和對自己的行為負責的能力。大資料成為了集體選擇的工具,但也放棄了我們自由的意志。

       大資料的不利影響不是大資料本身的缺陷,而是我們濫用大資料預測所導致的結果。大資料預測是建立在相關性基礎上的。讓人們為還未實施的未來行為買單是帶來不利影響的主要原因。因為我們把個人罪責判定建立在大資料預測的基礎上是不合理的。

       利益和風險就好比一把雙刃劍,我們不能期待佔有所有的利益之後,而不承擔利益後的風險。當我們在這兩項中間抉擇的時候,我們選擇的是什麼?在大資料為監測我們的生活提供了便利,同時也讓保護隱私的法律失去了應有的效力。面對大資料,保護隱私的核心技術不再適用了。同樣通過大資料預測,對我們的未來想法而非實際的行為採取懲罰,也讓我們誠惶誠恐。那些嚐到大資料益處的人,可能會把大資料運用到它不適用的領域,而且會產生過分依賴對大資料分析結果的信賴。隨著大資料預測的改進,我們會越來越想從大資料中掘金,最終導致一種盲目崇拜,畢竟它是無所不能的。

       在杜絕對資料的過分依賴,是我們在大資料無所不能的面前能提醒自己的一句法則。而是正確的利用取之有道,而不是成為資料的奴隸。

2、      掌控

       責任與自由並舉的資訊管理。

       當世界開始邁向大資料時代時,社會也將經歷類似的地殼運動。在改變人類基本的生活與思考方式的同時,大資料早已在推動人類資訊管理準則的重新定位。然而,不同於印刷革命,我們沒有幾個世紀的時間去適應,我們也許就只有幾年的時間。

       大資料時代的到來,也將徹底改變傳統管理的模式:

變革1:個人隱私保護,從個人許可到資料使用者承擔責任

       將責任從民眾轉移到資料使用者。因為資料使用者比任何人都明白他們想要如何利用資料。他們評估(或請專家評估)如何避免商業機密的洩露。在他們產生價值之後,他們理所當然要對自己的行為負責。

變革2:個人動因與預測風險

       在大資料時代,關於工作的概念需要重新定義以維護個人動因的想法:人們選擇自我行為的自由意志。簡單地說,就是個人可以並應該為他們的行為而非傾向負責。有了大資料,我們就能預測人的行為,而且還很準確,這就誘導我們依據預測的行為而非實際的行為對人們進行評定。

變革3:擊碎黑盒子,大資料演算法師的崛起

       大資料的運作是在一個超出我們正常理解的範圍之上的。大資料要求每一個新的人群來扮演這種角色——演算法工程師。他們存在有兩種方式:一、機構外部演算法師。二、內部演算法師。他們就猶如公司內部的會計人員和進行鑑證的外部審計師。這些新的專業人員都是電腦科學、數學和統計學領域的專家。他們擔當大資料分析和預測的評估專家。同時他們必須保證公正和保密。他們以評估資料來源的挑選,分析和預測工具的選取,甚至包括運演算法則和模型,以及計算結果的是否合理。一旦出現爭議,他們有權考察和分析結果相關的運演算法則、統計方法以及資料集是否正確。

變革4:反資料壟斷托拉斯

       資料之於資訊社會就如燃料之於工業革命,是人們進行創新的力量源泉。沒有大量鮮活的資料和健全的市場,這些創新就實現不了。隨著大資料時代下管理的轉變,我們相信,大資料不利的影響會得到控制。然而,隨著尚未成熟的大資料產業的不斷髮展,另一個重要的挑戰將會是如何保護極具競爭力的市場。我們必須防止21世界的資料大亨,它相當於19世界壟斷美國的鐵路、鋼鐵和電報網路的托拉斯。

結語:

       正在發生的未來:

       大資料並不是一個充斥著演算法和機器的冰冷世界,人類的作用依然無法被完全代替。大資料為我們打開了一道門,它提供的不是最終的答案,而只是參考答案,幫助我麼是暫時的,而更加美好的方法和答案還在不久的未來。

       接下來,我們將更加深入的探討大資料是如何執行的?以及大資料將會在哪些具體的領域產生改變以及如何實施它們?

           Write in Beijing    

        總結參考文獻《大資料時代》

Copyright ©BUAA