1. 程式人生 > >統計學與大資料分析

統計學與大資料分析

統計學

在談大資料分析之前我想應該說一說統計學。統計學到底是怎樣一種學問呢。先看看我們的周圍,其實有無限多的資料。所謂資料呢就是一系列數字的集合或者符號的集合體。我們傻傻的看著這些資料也看不出什麼。所以我們會看一些資料的個數,平均,傾向,分類等才能瞭解資料的性質。

那麼看數字資料,基本上會有一定的不確定性,比如學校的考試大家得分都是一樣的話算平均值,排名次就根本沒有意義了。統計學就是一個被體系化的方法論,它用來檢視零散的有不確定性資料的性質,從大的資料(總體)取出一部分(樣本),檢視它的性質,推測原來的大的資料的性質等。

統計學體系可以分為兩大類,一個是描述統計學,另一個是推論統計學。把一些資料收集到一起,作圖作表,求平均值或者看傾向這些叫做描述統計學。從總體取出一部分樣本,通過樣本的特點去推論總體的特點,這種推論的統計叫做推論統計學。

為什麼統計學現在這麼火

由於大資料的出現統計學更加引人注目。理由很簡單,就是利用統計學方法分析大資料,在計劃經營戰略,市場戰略,開發新產品,新業務的時候取得了有效成果。經營不只是靠感覺,靠經驗,靠勇氣的東西了,而是根據以資料為基礎的科學分析方法來進行決策。

其實統計學與數學在對立的位置。統計學與數學感覺上很相似,不過他們正好是相反的學問。為什麼這麼說,數學在大多數情況下有公理,有定理,能得到確切的答案,是一種演繹倫理。而統計學是從數個零散的資料當中推論出總體性質的歸納推理的方式。英國的約翰·格朗特(1620-1674)在 1662年發表了《關於死亡公報的自然和政治觀察》的論著。書中分析了60年間倫敦居民死亡的原因及人口變動的關係,首次提出通過大量觀察,可以發現新生兒性別比例具有穩定性和不同死因的比例等人口規律,對死亡率與人口壽命作了分析,從而統計學才引起了普遍的關注。近些年,由於資訊科技的發展迅速,通過分析大量資料有助於企業的經營,從而統計學得到了人們的注目。

大資料時代的統計學

當我們進入大資料時代之後統計學有了什麼樣的變化呢?如果我們能夠分析總體的話就沒有必要分析一部分的樣本了。但是在調查市場的時候我們仍然採取抽查樣本的方法。做市場調查的時候我們不可能調查所有的人,所以我們會調查一部分,比如調查1000人來推斷總體的市場。但是除了樣本以外我們不知道其他使用者擁有什麼樣的特性,在過去的10年,20年裡大量生產廉價的產品就能賣出去。不過在今天,消費需求越來越多樣化,我們不得不分層瞭解市場,掌握目標群體的需求才能賣出去。並且網際網路的發展不斷再給消費市場帶來變化,所以企業更是要時刻改變自己的經營戰略。

在大資料時代最重要的是瞭解消費者想要的是什麼。從以前的性別,年齡,居住地等這些資料來分析消費者的需求並不能實現一對一的市場營銷。所以市場出現的根據個人的購買歷史來顯示廣告,來推薦產品,來實現一對一的買賣。我相信今後這樣的市場營銷會更多,AI(人工智慧)系統也會大量地在市場營銷中被應用。