1. 程式人生 > >2018如何避開大資料的四大誤區 大資料

2018如何避開大資料的四大誤區 大資料

人們正在進入一個由資料驅動的“資料時代”,但是資料真的是萬能的嗎?

人在網際網路時代,大資料已充斥了我們生活和工作的方方面面。有了大資料,人們對於經濟社會的認識與把握進入到一個全新的時代,即進入到一個較資訊經濟更高位階的新階段,也就是“數字經濟”。日前釋出的《中國數字經濟發展白皮書(2017)》中指出,2016年中國數字經濟總量達到22.6萬億元,同比名義增長接近19%,佔GDP的比重超過30%,同比提升2.8個百分點。數字經濟已成為近年來帶動經濟增長的重要動力,“大資料”、“人工智慧”已經深深改變了當代人的生活方式。

數字經濟時代,似乎“誰”“掌握”了大資料,就能夠對經濟活動乃至經濟社會做到“全知”,進而能夠“預知”經濟社會的未來,甚或能夠“全能性”地主宰經濟社會,但其實這些都是關於“大資料”的認識誤區。

誤區一:大資料終將主宰經濟社會,消除個體差異,成就一元化的經濟體系。

網路經濟時代,人們在經濟社會中的諸種活動通過網路賬戶體系來實現,這些活動也就是所謂的網路賬戶活動,其基本內容更多地體現為賬戶間的關係。這些賬戶活動及其賬戶關係是由數字網路程式所設定的、驅動的,且被實時地記錄下來。這就形成了所謂的“大資料”。因此,大資料來源於大量的網路賬戶的活動及其有效的記錄,簡言之,大資料是網路賬戶資料。

在這裡插入圖片描述

很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大資料學習扣群:805127855,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系

有人認為,大資料意味著“全知”,進而“全知”意味著“全能”,發展開去,大資料終將主宰經濟社會,消除個體差異,成就一元化的經濟體系。這是關乎大資料最大的謬誤。

“大資料”是“經濟自由”所投射下的數字影像,它無法反噬掉“經濟自由”,成為經濟社會的主宰。經濟社會中的大資料,是經濟活動的網路化、賬戶化、數字化的產物,是經濟人自由意志的集合對映。換言之,沒有高度的經濟自由,沒有充分而多樣化的經濟選擇,就無所謂“大資料”。

大資料就是社會經濟活動的一層“資料化的外衣”而已,不管它多麼服帖、合體或隨心,活動著的是裡面的“身體”,且這個“身體活動”是自由意志所決定的。如果認為掌握了大資料就能影響乃至決定人們的經濟決策,將自身的意志貫徹到別人的頭上去,這就是本末倒置了。

誤區二:大資料是全量資料,能夠預知未來。

“大資料”並不能“全能性”地預設未來,但是能否“先知”般地預知未來?同樣,做不到。因為,大資料在時間上是有約束條件的。依憑歷史資料,能夠預知未來嗎?

大資料是全量資料,源於事實,也是事實,它並非既有經濟理論變數性的函式分析,並不能在時間軸上理所應當地延展開去。在時間軸上,大資料終歸是區域性的,遠非全量,它是實然的,是已發生的,即其性質上仍然是歷史資料而已。

大資料本身不是先知,也沒有誰能通過大資料成為先知。基於大資料並不能建構所謂的“歷史規律”,更談不上把同大資料有所謂“關係”的某人或某類人嵌入到這一所謂的歷史規律中去,進而使其發揮主觀能動性,擔綱某種角色。歷史資料對於未來有一定的作用,但是根本上講,歷史資料並不能決定未來。沒人能夠憑依大資料而可預知未來,成為先知。

誤區三:大資料包攬一切資訊。

資料的標準化與格式化,決定了大資料不是“全息”的。

全知是指在一定標準或口徑下的全量資料,但並不意味著包攬所有資訊。資訊的完整性是一個抽象而複雜的問題。資料資訊往往是靜態的,是在一定時間點下的結論,其被有效地獲取甚或表達出來,就意味著一部分資訊是確定的、靜態的,而另一部分則是不確定、動態的。這就好像貓的眼睛一樣,當你用相機去拍攝它時,它便發生變化,也就是必然丟失掉或隱去一部分資訊。所以,全知是就物件自身而言的,並非是與物件有關的全部資訊而言的。 在這裡插入圖片描述

現實中,人們對於大資料的感受確是非常豐滿有力、醒目而刺激的,這種情況一時間使人們感性上誤以為這就是全息的。事實上,這種情形以往也反覆出現過,有如第一次聽到電話聽筒裡傳來另一端親友的話語,便以為那是真聲音。

誤區四:把“大資料”當作“小資料”用,分析採用部分區域性資料。

經濟社會中,如果取得的資料樣本有限,就需要確立有效的分析框架,建立模型,確立函式關係,做迴歸分析。然而,如果樣本不僅是充分的,而且是完整的,是全量的,那麼資料分析就要擺脫既有的舊模式了。從全樣本的大資料中,收窄樣本數量,只選取部分樣本用來分析,是一種縮量的方法,縮量樣本分析後的結論又要適用於總量,這就是對大資料的“小用”。 在這裡插入圖片描述

舉例來說,如果能夠獲得一個城鎮全部機動車以及全部外埠入城車輛的執行狀況,我們就可依所設議題來直接抓取資料,獲得結論。抽樣建模分析及其迴歸分析,就不僅累贅,而且極有可能鑄成大錯。簡單來說,大資料,就是扳手指頭數不過來的狀況,交給機器與程式去“扳”,不僅數得過來,而且數出來了。大資料往往更多地可以直接抓取並使用,而非在數理化、模型化、函式化等“加工”後再使用。很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大資料學習扣群:805127855,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系

大資料具有完整性和全域性性的特質,如果採用部分區域性資料,然後試圖得出超出部分區域性資料範圍的結論,這種既有的思維慣性,並不適用watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2NxYWNyaDI3OTg=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)於大資料的邏輯和現實。大資料不能當作小資料用,小資料終歸拼不出完整的大資料。