如何應對大數據時代
阿新 • • 發佈:2018-05-06
大數據;D3;JavaScript近些年來,大數據逐步滲透到現實生活,從醫療到信貸,可謂是各個行業。
單從“大數據”這個詞語來看,說明數據量很大。如果這些數據結果,不做處理,以單純數字呈現,相信你看的超不過10秒中,你會頭皮發麻。你都頭皮發麻了,那我們的客戶豈不更發麻,如果這個問題解決不了,將非常影響大數據的發展。由此一個職業必將會興起,就是數據可視化工程師,而它的職責就是將大數據的結果做的一目了然,降低客戶的閱讀時間和閱讀門檻。
此教程將會盡快的完善起來,形成培養數據可視化工程師的經典網絡教程。
現在我們進入課程,如何應對大數據時代!我總結了三條有效的秘籍。
三條秘籍:
● 拋棄不精準的樣本數據,統計分析全部數據
截止到現在,我們獲取收集的數據仍很有限,因此更多的是“隨機采樣分析”。
隨機采樣分析的定義:對一個生物的總體,機會均等地抽取樣本,估計其總體的某種生物學特性的方法。
按照隨機的原則,即保證總體中每個單位都有同等機會被抽中的原則抽取樣本的方法。
優點:在根據樣本資料推論總體時,可用概率的方式客觀地測量出推論值的可靠程度,從而使這種推論建立在科學的基礎上。正因為此,隨機采樣分析在社會調查和社會研究中應用比較廣。
缺點:只適用於總體單位數量有限的情況,否則編號工作繁重;對於復雜的總體,樣本的代表性難以保證;不能利用總體的已知信息等。在市場調研範圍有限,或調查對象情況不明,難以分類。並且必須對總體各單位的情況有較多的了解,否則無法作出科學的分類。而這一點在實際調查之前又往往難以做到,從而導致樣本的代表性較差。
例如,要想知道中國公民對某項政策的滿意度,不可能對所有中國公民做問卷調查。通常的做法是隨機找10000個人,用這10000個人的滿意度來代表所有人的。
為了使結果盡可能準確,我們會設計盡可能精確的問卷,並使樣本足夠隨機。
這就是“小數據時代”的做法,在不可能搜集全部數據的情況下,隨機采樣分析在各領域取得了巨大的成功。
但是,問題也就來了:
1.依賴隨機性,而隨機性很難做到。例如,使用固定電話隨機打給10000戶人家,這樣也是缺乏隨機性的,因為沒有考慮到年輕人都使用手機的情況。
2.遠看不錯,一旦聚焦到某一點,就模糊了。例如,我們用10000個人來代表全國,這1000個人是隨機從全國選取的。但是,如果用此結果來判斷西藏的滿意度,卻是缺乏精確的。也就是說,分析結果不能適用於局部。
3.采樣的結果只能回答你事先設計好的問題,不能回答你突然意識到的問題。
而在”大數據時代“,樣本=總體。如今,我們已經有能力搜集到全面而完整的數據。
通常我們所說的大數據就是建立在掌握所有數據、至少也是盡可能多的數據的基礎上的。
● 著眼數據的完整性和復雜性,弱化單條數據的精確性
在“小數據”時代,我們首先要解決的就是減少測量的錯誤,因為本身收集的信息比較少,所以要保證結果盡可能的準確就必須先保證記錄的信息是正確的,否則細微的錯誤會被無限放大。由此我們必須先要優化測量工具。而現代科學就是這麽發展過來的,制定溫度的國際單位的物理學家開爾文曾說過:“測量就是認知”。要成為一名優秀的科學工作者必須要能準確收集和管理數據。
在“大數據”時代,我們可以輕而易舉地獲得全部數據,並且數目龐大到上萬億個數據,也正因為此,如果追求每一個數據的精確性,將不可想象的。弱化了數據的精確性,那麽數據的混雜性也就不可避免。
然而,如果數據量足夠大時,它所帶來的混亂也不一定會帶來不好的結果。也正是這個原因,我們放松了數據的標準,所能搜集的數據就多了起來,我們就可以用這些數據來做更多的事。
舉一個例子:
要測一個一畝土地的含鹽量,如果只有一個測量儀,那必須保證這個測量儀精確且能一直工作。但是如果每平米土地就有一個測量儀,則雖然有些測量數據是錯誤的,但是所有數據合起來卻能得到一個更準確的結果。
因此,“大數據”通常用更有說服力的概率說話,而不是依賴測量工具的精準。這就要求我們重新審視獲取收集數據的思路。由於數據量特別大,我們放棄了個體精確性,當然也無法實現個體精確性。
比如,我們在電腦存儲上可以看到,所有的文件可以通過一個路徑找到它,例如,要找一首歌曲,必須先找到一個分區,然後再找到其文件夾,最後逐步找到所需要的歌曲,而這就是傳統的方法。如果電腦上的分區或者文件夾較少,可以這麽查找,但如果有1億個分區呢?10億個文件夾呢?網絡上的數據可遠比個人電腦上的文件多,動則數十億,如果使用清晰的分類,那麽不僅分類的人會瘋,查詢的人也會瘋。因此,現在互聯網上廣泛使用”標簽“,通過標簽來檢索圖片、視頻、音樂等。當然,有時人們會錯標一個標簽,這讓習慣精確性的人很痛苦,但是,接受”混亂“也給我們帶來了好處:
由於擁有了比”分類”數量多得多的標簽,我們就能夠獲得更多的內容。
可以通過標簽組合來過濾內容。
又例如,如果我們要搜索“白鴿”。而“白鴿”所關聯的信息又有很多:比如一種動物,又或者是一個品牌,還可以是一個名人。一旦我們按照傳統的分類法,“白鴿”就會被分到動物類,品牌類,名人類。導致一個結果就是查詢的人不知道它還有其他的分類,還有可能就是只想查“白鴿”這種動物,所以就不會到品牌類或者名人類裏查詢。但是,如果使用”標簽“,輸入”白鴿“+”動物“,即可查到想要的結果;輸入”白鴿“+”品牌“即可查到想要的結果;輸入”白鴿“+”名人“即可查到想要的結果。
由此可見,使用”標簽“代替”分類“,雖然有很多不精確的數據,但是得力於大量的標簽,使得我們搜索更為方便。
● 思考數據的關聯性,放棄單一的因果性
首要研究數據的本身,不必再深究數據的形成的原因,讓數據自身發言。
舉個例子:
沃爾瑪是世界上最大的零售商,掌握了大量的零售數據。通過銷售數據分析,沃爾瑪得到,每當季節性颶風來臨之前,手電筒和蛋撻的銷售量都會增加。由此,當季節性颶風來臨時,沃爾瑪會把庫存的蛋撻放在靠近颶風用品的位置,促進顧客購買。
肯定會有人問“為什麽颶風一來,人們都要買蛋撻呢?”
而這個“為什麽”,是因果關系。而這個“因”,分析起來極難、並且很復雜,即便最後得出來了,意義也不大。對沃爾瑪來說,當颶風來臨時,擺好蛋撻,就行了。這就是數據自身發言。
而我們知道颶風與蛋撻有關,並且能賺錢就可以了。
這就是應對大數據時代的方式,即思考數據的關聯性,放棄單一的因果關系。
這種方式能夠幫助我們更好地理解世界。有時候,因果關系還會給我們帶來一些錯誤的認知。
例如:
我們從父母那裏得知,天冷時要帶帽子和手套,否則就會感冒。但是,感冒的成因並非如此。又或者我們在餐館裏吃飯,突然肚子疼,可以想到原因食物有問題。可實際上很可能是接觸到外界病菌的關系。
關聯性在分析問題時提供了新的視角,讓我們明白數據自身的發言。但是,因果性也不應該完全放棄,而是要以科學的關聯性的立場來審視。
單從“大數據”這個詞語來看,說明數據量很大。如果這些數據結果,不做處理,以單純數字呈現,相信你看的超不過10秒中,你會頭皮發麻。你都頭皮發麻了,那我們的客戶豈不更發麻,如果這個問題解決不了,將非常影響大數據的發展。由此一個職業必將會興起,就是數據可視化工程師,而它的職責就是將大數據的結果做的一目了然,降低客戶的閱讀時間和閱讀門檻。
此教程將會盡快的完善起來,形成培養數據可視化工程師的經典網絡教程。
現在我們進入課程,如何應對大數據時代!我總結了三條有效的秘籍。
三條秘籍:
● 拋棄不精準的樣本數據,統計分析全部數據
截止到現在,我們獲取收集的數據仍很有限,因此更多的是“隨機采樣分析”。
按照隨機的原則,即保證總體中每個單位都有同等機會被抽中的原則抽取樣本的方法。
優點:在根據樣本資料推論總體時,可用概率的方式客觀地測量出推論值的可靠程度,從而使這種推論建立在科學的基礎上。正因為此,隨機采樣分析在社會調查和社會研究中應用比較廣。
缺點:只適用於總體單位數量有限的情況,否則編號工作繁重;對於復雜的總體,樣本的代表性難以保證;不能利用總體的已知信息等。在市場調研範圍有限,或調查對象情況不明,難以分類。並且必須對總體各單位的情況有較多的了解,否則無法作出科學的分類。而這一點在實際調查之前又往往難以做到,從而導致樣本的代表性較差。
為了使結果盡可能準確,我們會設計盡可能精確的問卷,並使樣本足夠隨機。
這就是“小數據時代”的做法,在不可能搜集全部數據的情況下,隨機采樣分析在各領域取得了巨大的成功。
但是,問題也就來了:
1.依賴隨機性,而隨機性很難做到。例如,使用固定電話隨機打給10000戶人家,這樣也是缺乏隨機性的,因為沒有考慮到年輕人都使用手機的情況。
2.遠看不錯,一旦聚焦到某一點,就模糊了。例如,我們用10000個人來代表全國,這1000個人是隨機從全國選取的。但是,如果用此結果來判斷西藏的滿意度,卻是缺乏精確的。也就是說,分析結果不能適用於局部。
而在”大數據時代“,樣本=總體。如今,我們已經有能力搜集到全面而完整的數據。
通常我們所說的大數據就是建立在掌握所有數據、至少也是盡可能多的數據的基礎上的。
● 著眼數據的完整性和復雜性,弱化單條數據的精確性
在“小數據”時代,我們首先要解決的就是減少測量的錯誤,因為本身收集的信息比較少,所以要保證結果盡可能的準確就必須先保證記錄的信息是正確的,否則細微的錯誤會被無限放大。由此我們必須先要優化測量工具。而現代科學就是這麽發展過來的,制定溫度的國際單位的物理學家開爾文曾說過:“測量就是認知”。要成為一名優秀的科學工作者必須要能準確收集和管理數據。
在“大數據”時代,我們可以輕而易舉地獲得全部數據,並且數目龐大到上萬億個數據,也正因為此,如果追求每一個數據的精確性,將不可想象的。弱化了數據的精確性,那麽數據的混雜性也就不可避免。
然而,如果數據量足夠大時,它所帶來的混亂也不一定會帶來不好的結果。也正是這個原因,我們放松了數據的標準,所能搜集的數據就多了起來,我們就可以用這些數據來做更多的事。
舉一個例子:
要測一個一畝土地的含鹽量,如果只有一個測量儀,那必須保證這個測量儀精確且能一直工作。但是如果每平米土地就有一個測量儀,則雖然有些測量數據是錯誤的,但是所有數據合起來卻能得到一個更準確的結果。
因此,“大數據”通常用更有說服力的概率說話,而不是依賴測量工具的精準。這就要求我們重新審視獲取收集數據的思路。由於數據量特別大,我們放棄了個體精確性,當然也無法實現個體精確性。
比如,我們在電腦存儲上可以看到,所有的文件可以通過一個路徑找到它,例如,要找一首歌曲,必須先找到一個分區,然後再找到其文件夾,最後逐步找到所需要的歌曲,而這就是傳統的方法。如果電腦上的分區或者文件夾較少,可以這麽查找,但如果有1億個分區呢?10億個文件夾呢?網絡上的數據可遠比個人電腦上的文件多,動則數十億,如果使用清晰的分類,那麽不僅分類的人會瘋,查詢的人也會瘋。因此,現在互聯網上廣泛使用”標簽“,通過標簽來檢索圖片、視頻、音樂等。當然,有時人們會錯標一個標簽,這讓習慣精確性的人很痛苦,但是,接受”混亂“也給我們帶來了好處:
由於擁有了比”分類”數量多得多的標簽,我們就能夠獲得更多的內容。
可以通過標簽組合來過濾內容。
又例如,如果我們要搜索“白鴿”。而“白鴿”所關聯的信息又有很多:比如一種動物,又或者是一個品牌,還可以是一個名人。一旦我們按照傳統的分類法,“白鴿”就會被分到動物類,品牌類,名人類。導致一個結果就是查詢的人不知道它還有其他的分類,還有可能就是只想查“白鴿”這種動物,所以就不會到品牌類或者名人類裏查詢。但是,如果使用”標簽“,輸入”白鴿“+”動物“,即可查到想要的結果;輸入”白鴿“+”品牌“即可查到想要的結果;輸入”白鴿“+”名人“即可查到想要的結果。
由此可見,使用”標簽“代替”分類“,雖然有很多不精確的數據,但是得力於大量的標簽,使得我們搜索更為方便。
● 思考數據的關聯性,放棄單一的因果性
首要研究數據的本身,不必再深究數據的形成的原因,讓數據自身發言。
舉個例子:
沃爾瑪是世界上最大的零售商,掌握了大量的零售數據。通過銷售數據分析,沃爾瑪得到,每當季節性颶風來臨之前,手電筒和蛋撻的銷售量都會增加。由此,當季節性颶風來臨時,沃爾瑪會把庫存的蛋撻放在靠近颶風用品的位置,促進顧客購買。
肯定會有人問“為什麽颶風一來,人們都要買蛋撻呢?”
而這個“為什麽”,是因果關系。而這個“因”,分析起來極難、並且很復雜,即便最後得出來了,意義也不大。對沃爾瑪來說,當颶風來臨時,擺好蛋撻,就行了。這就是數據自身發言。
而我們知道颶風與蛋撻有關,並且能賺錢就可以了。
這就是應對大數據時代的方式,即思考數據的關聯性,放棄單一的因果關系。
這種方式能夠幫助我們更好地理解世界。有時候,因果關系還會給我們帶來一些錯誤的認知。
例如:
我們從父母那裏得知,天冷時要帶帽子和手套,否則就會感冒。但是,感冒的成因並非如此。又或者我們在餐館裏吃飯,突然肚子疼,可以想到原因食物有問題。可實際上很可能是接觸到外界病菌的關系。
關聯性在分析問題時提供了新的視角,讓我們明白數據自身的發言。但是,因果性也不應該完全放棄,而是要以科學的關聯性的立場來審視。
引來一個新的問題:大數據時代如何做到數據一目了然?答案在這裏
如何應對大數據時代