1. 程式人生 > >《大資料時代(BIG DATA)》

《大資料時代(BIG DATA)》

第一部分:大資料的時代思維變革

  • 不是隨機樣本,而是全體資料

    • 小資料時代的隨機取樣,最少的資料獲得最多的資訊
    • 取樣分析的精確性隨著取樣隨機性的增加而大幅提高,但與樣本數量的增加關係不大。簡單解釋是,當樣本數量到達某個值之後,我們從新個體身上得到的資訊會越來越少,就如同經濟學中的邊際效應遞減一樣。所以可以認為樣本選擇的隨機性比樣本數量更重要
    • 隨即取樣是在不可收集和分析全部資料的情況下的選擇,存在許多缺陷,比如實現取樣的隨機性非常困難,比如考察子類別。
    • 全資料模式,樣本=總體
    • 大資料不同與隨即取樣,大資料採用了所有資料的方法。
    • 比如谷歌通過分析整個美國幾十億條網際網路檢索記錄預測流感趨勢。
  • 不是精確性,而是混雜性

    • 允許不精確
    • 對於“小資料”而言,最基本、最重要的要求就是減少錯誤,保證質量。比如追求更高精度的對時間、空間的測量。
    • 在新情況下,允許不精確的出現已經成為一個新的亮點。放鬆了容錯的標準,人們可以掌握更多的資料,利用這些資料做更多新的事情
  • 不是因果關係,而是相關關係

    • 知道人們為什麼會對某些資訊感興趣是可能是有用的,但這個問題目前並不是很重要。但是,知道“是什麼”可以創造點選率,這種洞察力足以重塑很多行業,不僅僅只是電子商務。
    • 通過給我們找到一個現象的良好的關聯物相關關係可以幫助我們捕捉現在和預測未來。
    • 建立在人的偏見基礎上的關聯物監測法已經不再可行,因為資料庫太大,考慮的領域太複雜。取而代之的是機器分析。
    • 大資料的相關關係分析法更準確、更快,而且不易受偏見的影響。
    • 建立在相關關係分析法的基礎上的預測是大資料的核心。
    • 通過找出一個關聯物並監控它,我們就能預測未來
    • 但當收集、儲存和分析資料的成本比較高時,應該適當地丟棄一些資料。
    • 相關關係很有用,不僅僅是因為它能為我們提供新的視角,而且提供的視角都很清晰。而我們一旦把因果關係考慮進來,這些視角就有可能被矇蔽掉。
    • 不受限於傳統的思維模式和特定領域裡隱含的固有偏見,大資料才能為我們提供如此多新的深刻認同。

第二部分:大資料時代的商業變革

  • 資料化,一切皆可“量化”

    • 莫里的導航圖說明遠在資訊數字化之前,對資料的運用就開始了。
    • 資料化是指一種把現象轉變為可指標分析的量化形式的過程。
    • 數字化是指把模擬資料轉換成0和1表示的二進位制碼的過程。
    • 計量和記錄一起促成了資料的誕生,它們是資料化最早的根基。
    • 數字化帶來了資料化,但數字化無法取代資料化。
    • 當文字變成資料,則人可用之閱讀,機器可用之分析
    • 當方位變成資料,我們可以預測人類行動,預知並避開交通擁堵。
    • 有了大資料的幫助,我們不再會將世界看做是一連串我們認為或是自然或是社會現象的實踐,我們會意識到本質上世界是由資訊構成的。
    • 將世界看做資訊,看做可以理解的資料的海洋,為我們提供了一個從未有過的審視現實的視角。它是一種可以滲透到所有生活領域的世界觀
  • “取之不盡,用之不竭”的資料創新

    • 資料的基本用途為資訊的收集和處理提供了依據。
    • 不同於物質性的東西,資料的價值不會隨著它的使用而減少,而是可以不斷地處理
    • 資料再利用:資料的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而絕大部分則隱藏在表面之下。
    • 重組資料:隨著大資料的出現,資料的總和比部分更有價值。當我們將多個數據集中的總和重組在一起時,重組總和本身的價值也比單個總和更大。
    • 可擴充套件資料:鼓勵相同資料集的多種用途。
    • 資料的折舊值:即使資料用於基本用途的價值會減少,但潛在價值卻依然強大。
    • 資料廢氣:當用戶指出電腦化服務誤解了他們的意思時,他們實際上有效地“訓練”了這個系統,讓它變得更好。
    • 開放資料:“開放政府資料”的倡導者主張,政府只是他們所收集資訊的託管人,私營企業和社會對資料的利用會比政府更具創新性。
  • 資料、技術和思維的三足鼎立

    • 大資料價值鏈的三大構成:基於資料的公司(Twitter)、基於技能的公司(Teradata)、基於思維的公司(Jetpac)。
    • 大資料掌控公司:接觸到資料、有權使用資料或者授權給他人。
    • 大資料技術公司:擁有技術和專業技能的公司。
    • 大資料思維公司和個人:有著大資料思維的公司和個人,他們的優勢在於他們思考的只有可能,而不考慮所謂的可行
    • 大資料思維,是指一種意識,認為公開的資料一旦處理得當就能為千百萬人急需解決的問題提供答案。
    • 資料中間商:它們會從各種地方收集資料進行整合,然後再提取有用的資訊進行利用。
    • 大資料公司的多樣性表明了資料價值的轉移
    • 隨著資料價值轉移到資料擁有者手上,傳統的商業模式也被顛覆了。
    • Roadnet和Inrix說明了資料中間商能夠聚合各個資料擁有者的資料並使這些聚合的資料發揮更大的能量。
    • 行業專家和技術專家的光芒都會因為統計學家和資料分析家的出現而變暗,因為後者不受舊觀念的影響,能夠聆聽資料發出的聲音。

第三部分:大資料時代的管理變革

  • 讓資料主宰一切的隱憂

    • 隨著儲存成本繼續暴跌而分析工具越來越先進,採集和儲存資料的數量和規模將爆發式地增長。如果說在網際網路時代我們的隱私受到了威脅,那麼大資料還會帶來更多的威脅。畢竟,大資料的核心思想就是用規模劇增來改變現狀
    • 資料的價值不在單純來源於它的基本用途,而更多源於它的二次利用
    • 大資料時代,很多資料收集的時候並無意用作其它用途,而最終卻產生了許多創新性的用途。
    • 在大資料時代用技術方法來保護隱私是天方夜譚。有意識地避免某些資訊可能會起反作用。而匿名化在大量多種資料的分析下不起任何作用。
    • 出現以上的無效性是因為兩個因素:我們收集到的資料越來越多,我們會結合越來越多不同來源的資料。
    • 大資料可以幫助預測罪犯,但如果這樣,人們不是因為所做而受到懲罰,而是因為將做,即使他們事實上並沒有犯罪。
    • 在由“小資料”時代向大資料時代轉變的過程中,我們對一些資訊的侷限性必須給予高度的重視。資料的質量可能會很差;可能是不客觀的;可能存在分析錯誤或具有誤導性;更糟糕的是,資料可能根本達不到量化它的目的。這樣很可能會導致“資料獨裁”。
    • 其實在很多時候,卓越的才華並不依賴於資料(比如喬布斯依賴於自己的直覺而不是資料)。
    • 只要得到了合理的應用,而不單純知識為了“傲據”而“資料”,大資料就會變成強大的武器。
    • 大資料誘使我們犯下羅伯克·麥克納馬拉(越戰中痴迷戰場統計資料)所犯的罪行,也讓我們盲目相信資料的力量和潛能而忽略了它的侷限性
  • 責任與自由並舉的資訊管理

    • 管理變革1:個人隱私保護,從個人許可到讓資料使用者承擔責任。社會必須平衡資料二次應用的優勢與過度披露所帶來的風險。為實現這一平衡,監管機構可以決定不同種類的個人資料必須刪除的時間。再利用的時間框架則取決於資料內在風險和社會價值觀的不同。
    • 管理變革2:個人動因VS預測分析。當政府或機構依賴大資料預測來做出關乎我們個人利益的決策時,那就需要特定的防護措施:公開原則公正原則可反駁原則、最重要的是個人動因能夠防範“資料獨裁”。
    • 管理變革3:擊碎黑盒子,大資料演算法師的崛起。大資料的運作是在一個超出我們正常理解範圍之上的。所以,大資料需要被監測並保持透明度。這就需要新型技術和機構來為眾多領域提供支援,防止人群被錯誤誘導
    • 管理變革4:反資料壟斷大亨。防止資料被某些大公司所壟斷

結語,正在發生的未來。

  • 凡是過去,皆為序曲。歷史最悠久的做事方法並不是最好的。
  • 大資料時代是名副其實的“資訊社會”。大資料給我們帶來了巨大的風險,但我們可以建立規範自身的新準則
  • 更大的資料來自人本身。在一個利用資料做出決定的資料裡,人類的直覺、常識和意外運氣就顯得十分重要。因為科技永遠無法揭示人類的偉大
  • 大資料提供的不是最終答案,而只是參考答案,為我們提供暫時的幫助,以便等待更好的方法和答案出現。這也提醒我們在使用這個工具的時候,應當懷有謙恭之心。銘記人性之本