1. 程式人生 > >資料、資訊、知識《智慧時代--大資料和智慧革命重新定義未來》

資料、資訊、知識《智慧時代--大資料和智慧革命重新定義未來》

上一篇部落格已經講了什麼是資料,人們常常將資料和資訊混同起來,那麼資訊是什麼?資訊是關於世界、人和事的描述,它比資料來的抽象。資訊既可以是我們人類創造的,如通話記錄,也可以是天然存在的客觀事實,如地球質量。但資訊有時候隱藏在事物的背後,需要挖掘和測量才能看到。

        那麼資料和資訊有什麼不同?資料最大的作用是承載資訊,但不是所有的資料都承載了有用的資訊。資料是人造物,所以不一定真實,沒有資訊的資料也沒有太多的意義。其次,有用的資料和無用的資料通常是混在一起的,所以我們需要處理資料,濾掉沒有用的噪聲和刪除有害的資料。善用資料,才能發現數據背後的資訊。

       資料+資訊》知識。對資料和資訊進行處理後,就可以獲得知識。知識具有抽象性、系統性的特徵。比如,通過測量星球位置和對應的時間,就能得到資料;通過這些資料就能得到星球運動的軌跡,就是資訊;通過資訊總結出開普勒三定律,就是知識。

        早起人類得到的資料很大程度上來源於對現象的觀察,從觀察中總結資料。但在過去,資料的作用往往被忽視,原因有1、過去資料量不足,積累大量的資料需要的時間太長,以至於在短時間內作用不明顯。2、資料和想獲得的資訊之間的聯絡是間接的,它要通過不同資料之間的相關性才能體現出。

        所以,資料的相關性是很重要的。很多時候,我們無法直接獲得資訊(比如疫情傳播情況),但我們可以將相關聯的資訊(比如各地搜尋情況)量化,然後通過數學模型,間接的得到所要的資訊。

上圖是使用者在不同時間點對某個電視節目的搜尋量

帕特爾問為什麼會出現四個高峰,作者說因為美國跨了四個時區,節目播出各差一個小時,他說,其實通過它以及各個時區的人口,可以瞭解到不同電視節目在不同時區的收視率。帕特爾將搜尋量和收視率聯絡起來了。後來他的成果被開發為Google的一款產品:Google趨勢。如果僅僅看搜尋趨勢的變化,沒多大意思,但如果把搜尋和其他事情關聯起來,就能發現很重要的資訊,這其中就要通過數學模型。而各種數學模型都離不開概率論和統計學。

        統計學中資料採集上有兩個要點:量和質。想獲得準確的統計結果,資料量需要充足,需要多少統計量才是準確的,就需要定量分析。其次,取樣的資料要具有代表性。有時候,不是資料量大,統計結果就準確。統計的資料必須和我們想統計的目標相一致。

        在大多數的複雜應用中,需要通過資料建立一個數學模型,以便在實際應用中使用。首先採用什麼樣的模型,其次,模型的引數是多少,即機器學習。只要資料量足夠,就可以用若干個簡單的模型取代上一個複雜的模型。這種方法稱為資料驅動方法。因為它是首先有大量的資料,而不是預設的模型,然後用很多簡單的模型去契合資料。這種找到的模型與真實的會有一定的偏差,但誤差允許的範圍內,從結果上看是等效的。