《大資料時代(BIG DATA)》

阿新 • • 發佈：2019-01-24

第一部分：大資料的時代思維變革

不是隨機樣本，而是全體資料
- 小資料時代的隨機取樣，最少的資料獲得最多的資訊
- 取樣分析的精確性隨著取樣隨機性的增加而大幅提高，但與樣本數量的增加關係不大。簡單解釋是，當樣本數量到達某個值之後，我們從新個體身上得到的資訊會越來越少，就如同經濟學中的邊際效應遞減一樣。所以可以認為樣本選擇的隨機性比樣本數量更重要。
- 隨即取樣是在不可收集和分析全部資料的情況下的選擇，存在許多缺陷，比如實現取樣的隨機性非常困難，比如考察子類別。
- 全資料模式，樣本=總體
- 大資料不同與隨即取樣，大資料採用了所有資料的方法。
- 比如谷歌通過分析整個美國幾十億條網際網路檢索記錄預測流感趨勢。
不是精確性，而是混雜性
- 允許不精確
- 對於“小資料”而言，最基本、最重要的要求就是減少錯誤，保證質量。比如追求更高精度的對時間、空間的測量。
- 在新情況下，允許不精確的出現已經成為一個新的亮點。放鬆了容錯的標準，人們可以掌握更多的資料，利用這些資料做更多新的事情
不是因果關係，而是相關關係
- 知道人們為什麼會對某些資訊感興趣是可能是有用的，但這個問題目前並不是很重要。但是，知道“是什麼”可以創造點選率，這種洞察力足以重塑很多行業，不僅僅只是電子商務。
- 通過給我們找到一個現象的良好的關聯物。相關關係可以幫助我們捕捉現在和預測未來。
- 建立在人的偏見基礎上的關聯物監測法已經不再可行，因為資料庫太大，考慮的領域太複雜。取而代之的是機器分析。
- 大資料的相關關係分析法更準確、更快，而且不易受偏見的影響。
- 建立在相關關係分析法的基礎上的預測是大資料的核心。
- 通過找出一個關聯物並監控它，我們就能預測未來。
- 但當收集、儲存和分析資料的成本比較高時，應該適當地丟棄一些資料。
- 相關關係很有用，不僅僅是因為它能為我們提供新的視角，而且提供的視角都很清晰。而我們一旦把因果關係考慮進來，這些視角就有可能被矇蔽掉。
- 不受限於傳統的思維模式和特定領域裡隱含的固有偏見，大資料才能為我們提供如此多新的深刻認同。

第二部分：大資料時代的商業變革

資料化，一切皆可“量化”
- 莫里的導航圖說明遠在資訊數字化之前，對資料的運用就開始了。
- 資料化是指一種把現象轉變為可指標分析的量化形式的過程。
- 數字化是指把模擬資料轉換成0和1表示的二進位制碼的過程。
- 計量和記錄一起促成了資料的誕生，它們是資料化最早的根基。
- 數字化帶來了資料化，但數字化無法取代資料化。
- 當文字變成資料，則人可用之閱讀，機器可用之分析。
- 當方位變成資料，我們可以預測人類行動，預知並避開交通擁堵。
- 有了大資料的幫助，我們不再會將世界看做是一連串我們認為或是自然或是社會現象的實踐，我們會意識到本質上世界是由資訊構成的。
- 將世界看做資訊，看做可以理解的資料的海洋，為我們提供了一個從未有過的審視現實的視角。它是一種可以滲透到所有生活領域的世界觀。
“取之不盡，用之不竭”的資料創新
- 資料的基本用途為資訊的收集和處理提供了依據。
- 不同於物質性的東西，資料的價值不會隨著它的使用而減少，而是可以不斷地處理。
- 資料再利用：資料的真實價值就像漂浮在海洋中的冰山，第一眼只能看到冰山一角，而絕大部分則隱藏在表面之下。
- 重組資料：隨著大資料的出現，資料的總和比部分更有價值。當我們將多個數據集中的總和重組在一起時，重組總和本身的價值也比單個總和更大。
- 可擴充套件資料：鼓勵相同資料集的多種用途。
- 資料的折舊值：即使資料用於基本用途的價值會減少，但潛在價值卻依然強大。
- 資料廢氣：當用戶指出電腦化服務誤解了他們的意思時，他們實際上有效地“訓練”了這個系統，讓它變得更好。
- 開放資料：“開放政府資料”的倡導者主張，政府只是他們所收集資訊的託管人，私營企業和社會對資料的利用會比政府更具創新性。
資料、技術和思維的三足鼎立
- 大資料價值鏈的三大構成：基於資料的公司(Twitter)、基於技能的公司(Teradata)、基於思維的公司(Jetpac)。
- 大資料掌控公司：接觸到資料、有權使用資料或者授權給他人。
- 大資料技術公司：擁有技術和專業技能的公司。
- 大資料思維公司和個人：有著大資料思維的公司和個人，他們的優勢在於他們思考的只有可能，而不考慮所謂的可行。
- 大資料思維，是指一種意識，認為公開的資料一旦處理得當就能為千百萬人急需解決的問題提供答案。
- 資料中間商：它們會從各種地方收集資料進行整合，然後再提取有用的資訊進行利用。
- 大資料公司的多樣性表明了資料價值的轉移。
- 隨著資料價值轉移到資料擁有者手上，傳統的商業模式也被顛覆了。
- Roadnet和Inrix說明了資料中間商能夠聚合各個資料擁有者的資料並使這些聚合的資料發揮更大的能量。
- 行業專家和技術專家的光芒都會因為統計學家和資料分析家的出現而變暗，因為後者不受舊觀念的影響，能夠聆聽資料發出的聲音。

第三部分：大資料時代的管理變革

讓資料主宰一切的隱憂
- 隨著儲存成本繼續暴跌而分析工具越來越先進，採集和儲存資料的數量和規模將爆發式地增長。如果說在網際網路時代我們的隱私受到了威脅，那麼大資料還會帶來更多的威脅。畢竟，大資料的核心思想就是用規模劇增來改變現狀。
- 資料的價值不在單純來源於它的基本用途，而更多源於它的二次利用。
- 大資料時代，很多資料收集的時候並無意用作其它用途，而最終卻產生了許多創新性的用途。
- 在大資料時代用技術方法來保護隱私是天方夜譚。有意識地避免某些資訊可能會起反作用。而匿名化在大量多種資料的分析下不起任何作用。
- 出現以上的無效性是因為兩個因素：我們收集到的資料越來越多，我們會結合越來越多不同來源的資料。
- 大資料可以幫助預測罪犯，但如果這樣，人們不是因為所做而受到懲罰，而是因為將做，即使他們事實上並沒有犯罪。
- 在由“小資料”時代向大資料時代轉變的過程中，我們對一些資訊的侷限性必須給予高度的重視。資料的質量可能會很差；可能是不客觀的；可能存在分析錯誤或具有誤導性；更糟糕的是，資料可能根本達不到量化它的目的。這樣很可能會導致“資料獨裁”。
- 其實在很多時候，卓越的才華並不依賴於資料（比如喬布斯依賴於自己的直覺而不是資料）。
- 只要得到了合理的應用，而不單純知識為了“傲據”而“資料”，大資料就會變成強大的武器。
- 大資料誘使我們犯下羅伯克·麥克納馬拉（越戰中痴迷戰場統計資料）所犯的罪行，也讓我們盲目相信資料的力量和潛能而忽略了它的侷限性。
責任與自由並舉的資訊管理
- 管理變革1：個人隱私保護，從個人許可到讓資料使用者承擔責任。社會必須平衡資料二次應用的優勢與過度披露所帶來的風險。為實現這一平衡，監管機構可以決定不同種類的個人資料必須刪除的時間。再利用的時間框架則取決於資料內在風險和社會價值觀的不同。
- 管理變革2：個人動因VS預測分析。當政府或機構依賴大資料預測來做出關乎我們個人利益的決策時，那就需要特定的防護措施：公開原則、公正原則、可反駁原則、最重要的是個人動因能夠防範“資料獨裁”。
- 管理變革3：擊碎黑盒子，大資料演算法師的崛起。大資料的運作是在一個超出我們正常理解範圍之上的。所以，大資料需要被監測並保持透明度。這就需要新型技術和機構來為眾多領域提供支援，防止人群被錯誤誘導。
- 管理變革4：反資料壟斷大亨。防止資料被某些大公司所壟斷。

結語，正在發生的未來。

凡是過去，皆為序曲。歷史最悠久的做事方法並不是最好的。
大資料時代是名副其實的“資訊社會”。大資料給我們帶來了巨大的風險，但我們可以建立規範自身的新準則。
更大的資料來自人本身。在一個利用資料做出決定的資料裡，人類的直覺、常識和意外運氣就顯得十分重要。因為科技永遠無法揭示人類的偉大。
大資料提供的不是最終答案，而只是參考答案，為我們提供暫時的幫助，以便等待更好的方法和答案出現。這也提醒我們在使用這個工具的時候，應當懷有謙恭之心。銘記人性之本。

《大資料時代(BIG DATA)》

第一部分：大資料的時代思維變革不是隨機樣本，而是全體資料小資料時代的隨機取樣，最少的資料獲得最多的資訊取樣分析的精確性隨著取樣隨機性的增加而大幅提高，但與樣本數量的增加關係

被神話的大資料——從大資料（big data）到深度資料（deep data）思維轉變

自從阿法狗戰勝人類頂級棋手之後，深度學習、人工智慧變得再一次火熱起來。有些人認為，深度學習的再一次興起是源於硬體的提升、資料量的增多以及高效演算法的研究。這並不完全精確，有一個基本的誤解是更大的資料會產生更好的機器學習結果。然而，更大的資料池/倉

大資料（Big Data）掃盲

大資料（Big Data）大資料，官方定義是指那些資料量特別大、資料類別特別複雜的資料集，這種資料集無法用傳統的資料庫進行儲存，管理和處理。大資料的主要特點為資料量大（Volume），資料類別複雜（Variety），資料處理速度快（Velocity）和資料真實性高（Veracity），合起來被稱為4V。大

如何評價《Big Data：大資料時代》這本書？

花了三天的零碎時間大致看完了舍恩伯格的《大資料時代：生活、工作、思維的大變革》。我看推薦說這是“迄今為止最好的一本大資料專著”。目前公司在搞Hadoop、大資料應用，外面各類零碎的資料也非常多，那麼想我應該去看一下這“最好”的專著吧。買回來看完的感覺是平平而已。個人看法，在五分制下，大概也就是最多打三分。這

大資料時代，如何提升格局

大資料時代，格局非常重要，想學習大資料技術的小夥伴，一定要認真閱讀此文其實大資料時代的人才只分為三種：做事的人、做式的人、做局的人。道生一，一生二，二生三，三生萬物。這三種人，組建起了一個龐大的社會體系。先看做事的人。把一件事情最好是一個人的基本能力，它遵循的是“事道”，講究

資料脫敏平臺-大資料時代的隱私保護利器

什麼是資料脫敏又稱資料漂白、資料去隱私化或資料變形。是對核心業務資料中敏感的資訊，進行變形、轉換、混淆，使得對業務資料中的身份、組織等隱私敏感資訊進行去除或掩蓋，以保護資料能被合理、安全地利用。 ◆ ◆ ◆ 資料脫敏的重要性 1）敏

大資料時代，IT行業的熱門崗位有哪些？

雲端計算、大資料、BYOD、社交媒體、3D印表機、物聯網……在網際網路時代，各種新詞層出不窮，令人應接不暇。這些新的技術、新興應用和對應的IT發展趨勢，使得IT人必須瞭解甚至掌握最新的IT技能。另一方面，雲端計算和大資料乃至其他助推各個行業發展的IT基礎設施的新一輪部署與運維，都將帶來更多的I

從定性遙感到定量遙感——大資料時代的空間資料科學（轉）

原文地址：http://blog.sciencenet.cn/blog-3247241-1073425.html 定性遙感類似於看圖識物，通過將遙感影像當做特殊的“圖片”，通過諸如計算機的影象識別、分類的方法去進行分析和處理得到我們所需要的Knowledge。比如簡單的土地利用分類、面向物件的分割與分類

大資料時代的資訊保安

全世界目前已有超過40億網民，龐大的網民數意味著海量的資訊數，也意味著資訊主體權益易受威脅和侵害。美國最大的社交平臺FACEBOOK就曾發生了個人資訊洩密事件。有公司利用這些個人資料通過演算法來判斷個人的政治立場，並推斷投票結果，這就侵犯了個人的隱私權。個人資訊作為重要的資料資源，已經成為大資料時代重要的

大資料時代的地理資訊科學與科研能力培養

大資料時代的地理資訊科學與科研能力培養 @劉瑜_北大GISer 學者簡介：劉瑜，北京大學遙感與地理資訊系統研究所教授。目前主要研究方向包括：1)地理 […] A- A+ 地理之道&

你所不知的大資料時代

你所不知的大資料時代一、什麼叫大資料大資料（Big Data）或稱海量資訊，指的是規模巨大的資訊量通過主流軟體工具，在合理時間內達到擷取、管理、處理、並整合成幫助企業經營決策、提高核心競爭力的資訊。移動網際網路風生水起，讓資料變得豐富多樣，質感鮮明，顯示出它的移動性、碎片化和私密性。資料能夠轉化為

大資料時代的“人工智慧與人”

大資料時代的“人工智慧與人” 10月31日人工智慧發展現狀和趨勢第九次集體學習時指出,在移動網際網路、大資料、超級計算、感測網、腦科學等新理論、新技術的驅動下,人工智慧加速發展,呈現出深度學習、跨界融合、人機協同、群智開放、自主操控等新特徵,正在對經濟發展、社會進步、國際政治經濟格局等方

大資料時代，IT行業的熱門崗位有哪些？9大前景分析！

最近幾年，特別是今年，好像經常聽到一句話：兄弟，今年生意真難做。是啊，時代在發展，市場也在變，很多人的處境越發艱難，只有適應了市場的變化才能生存。大資料的市場前景廣闊，而技術能否達到預期的效果，關鍵是在於能否找到適合資訊社會需求的應用模式。而無論是在競爭還是合作的過程中，如果沒有切實的應用，大

大資料時代，你的角色是什麼？

大資料時代，不懂點資料分析都不好意思告訴別人你混網際網路、混大都市的，在大資料的環境下，我把市場上的分析師分為幾類一、資料變現者這類人一直在公司從事這業務分析的角色，他們一直在嘗試用資料去改變業務決策的流程變更和機遇，驅動這企業的北極星指標，更多做的事

京東推薦系統架構揭祕：大資料時代下的智慧化改造

在電商領域，推薦的價值在於挖掘使用者潛在購買需求，縮短使用者到商品的距離，提升使用者的購物體驗。京東推薦的演進史是絢麗多彩的。京東的推薦起步於2012年，當時的推薦產品甚至是基於規則匹配做的。整個推薦產品線組合就像一個個鬆散的原始部落一樣，部落與部落之前沒有任何工程、演算法的交集。201

大資料時代，誰的眼神鎖定你？

資料時代當前，歡迎來到楚門的世界。雙十一餘韻未歇，剛處理完一波售後及退件等“剁手後遺症”的各方人馬也已經為再戰雙十二做好了準備。截至 12 日零點，天貓雙十一成交額達 2135 億元。與此同時，據國家郵政局監測資料顯示，主要電商企業 11 日全天共產生快遞物流訂單

大資料時代如何保證網路安全

大資料時代，每個人的生活中都不存在所謂的絕對“祕密”，通過網路上的資料資訊可以分析出一個人生活的各種痕跡。因此，保障大資料資訊保安至關重要。針對網路安全存在的問題，控制訪問網路許可權、強化資料加密和智慧終端加固不失為保障資訊保安的有效手段。　　（一）控制訪問許可權　　訪問控制是保障網路安

大資料，是個沒有感情的殺手？一文解析大資料時代的利和弊

01 瘮人的大資料上個月小柒邀請閨蜜們來家喝茶聊天，大家討論去海邊的旅遊計劃。聊著聊著，小愛同學突然插話:“我也要去”，嚇得我趕緊拔掉了小愛的插頭。姐妹們各回各家，小柒躺下刷手機，今日頭條給我推送了剛才討論的海邊民宿，頓時睡意全無…… 週末去上海學習了兩天《資訊科技與管理》

大資料時代，資料架構的演繹發展歷程

首先從企業資訊化發展階段時，資料平臺結構的程度來看。個人依照企業資訊化，將資料平臺階段劃分為：只有業務資料庫——>中間庫——>完善資料倉庫(DW)——>資料集市(Data Mart)，順序與階段並不絕對正確，可能有組合，可能所在階段不完全一致。以下先看各個資料

大資料時代，Python是最好的語言！

隨著大資料瘋狂的浪潮，新生代的工具Python得到了前所未有的爆發。簡潔、開源是這款工具吸引了眾多粉絲的原因。目前Python最熱的領域，非資料分析和挖掘莫屬了。從以Pandas為代表的資料分析領域開始，便是Python的天下；一邊以實際專案實操，一邊跟著已有的資料學習，再輔以相關的理論知識，勢必將集Pyth

《大資料時代(BIG DATA)》

第一部分：大資料的時代思維變革

第二部分：大資料時代的商業變革

第三部分：大資料時代的管理變革

結語，正在發生的未來。

相關推薦