資料分析方法論(一)
1)統計分析方法論:
描述統計、假設檢驗、相關分析、方差分析、迴歸分析、聚類分析、判別分析、主成分與因子分析、時間序列分析、決策樹等;
2)營銷管理分析方法論:
SWOT、4P、PEST、SMART、5W2H、User behavior等。一、統計分析方法論:
1.描述統計(Descriptive statistics):
描述統計是通過圖表或數學方法,對資料資料進行整理、分析,並對資料的分佈狀態、數字特徵和隨機變數之間關係進行估計和描述的方法。
目的是描述資料特徵,找出資料的基本規律。
描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。 ?
1.1、資料的頻數分析:利用頻數分析和交叉頻數分析來檢驗異常值。此外,頻數分析也可以發現一些統計規律。
1.2、資料的集中趨勢分析:資料的集中趨勢分析是用來反映資料的一般水平,常用的指標有平均值、中位數和眾數等。
1)平均值:是衡量資料的中心位置的重要指標,反映了一些資料必然性的特點,包括算術平均值、加權算術平均值、調和平均值和幾何平均值。
2)中位數:是另外一種反映資料的中心位置的指標,其確定方法是將所有資料以由小到大的順序排列,位於中央的資料值就是中位數。
3)眾數:是指在資料中發生頻率最高的資料值。
如果各個資料之間的差異程度較小,用平均值就有較好的代表性;而如果資料之間的差異程度較大,特別是有個別的極端值的情況,用中位數或眾數有較好的代表性。
1.3、資料的離散程度分析:資料的離散程度分析主要是用來反映資料之間的差異程度,常用的指標有方差和標準差。方差是標準差的平方,根據不同的資料型別有不同的計算方法。
1.4、資料的分佈:常用偏度-峰度法需要用偏度和峰度兩個指標來檢查樣本是否符合正態分佈。偏度衡量的是樣本分佈的偏斜方向和程度;而峰度衡量的是樣本分佈曲線的尖峰程度。一般情況下,如果樣本的偏度接近於0,而峰度接近於3,就可以判斷總體的分佈接近於正態分佈。
1.5、繪製統計圖:用圖形的形式來表達資料。
2.假設檢驗:是數理統計學中根據一定假設條件由樣本推斷總體的一種方法。具體作法是:根據問題的需要對所研究的總體作某種假設,記作H0;選取合適的統計量,這個統計量的選取要使得在假設H0成立時,其分佈為已知;由實測的樣本,計算出統計量的值,並根據預先給定的顯著性水平進行檢驗,作出拒絕或接受假設H0的判斷。常用的假設檢驗方法有u—檢驗法、t檢驗法、χ2檢驗法(卡方檢驗)、F—檢驗法,秩和檢驗等。
3.相關分析:相關分析是研究現象之間是否存在某種依存關係,並對具體有依存關係的現象探討其相關方向以及相關程度,是研究隨機變數之間的相關關係的一種統計方法。常見的有線性相關分析、偏相關分析和距離分析
4.方差分析(Analysis of Variance,簡稱ANOVA):又稱“變異數分析”或“F檢驗”,用於兩個及兩個以上樣本均數差別的顯著性檢驗。 由於各種因素的影響,研究所得的資料呈現波動狀。造成波動的原因可分成兩類,一是不可控的隨機因素,另一是研究中施加的對結果形成影響的可控因素。
5.迴歸分析:線性迴歸,曲線迴歸,二元logistic迴歸,多元logistic迴歸。
5.1、線性迴歸:線性迴歸是利用數理統計中迴歸分析,來確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。迴歸分析中,只包括一個自變數和一個因變數,且二者的關係可用一條直線近似表示,這種迴歸分析稱為一元線性迴歸分析。如果迴歸分析中包括兩個或兩個以上的自變數,且因變數和自變數之間是線性關係,則稱為多元線性迴歸分析。
5.2、曲線迴歸:兩個變數間呈現曲線關係的迴歸。
5.3、二元logistic迴歸、多元logistic迴歸:Logistic迴歸主要用於因變數為分類變數(如疾病的緩解、不緩解,評比中的好、中、差等)的迴歸分析,自變數可以為分類變數,也可以為連續變數。他可以從多個自變數中選出對因變數有影響的自變數,並可以給出預測公式用於預測。
因變數為二分類的稱為二項logistic迴歸,因變數為多分類的稱為多元logistic迴歸。
6.聚類分析:主要解決的是在“物以類聚、人以群分”,基於使用者間彼此距離的長短來對使用者進行聚類劃分的方法依然是當前最流行的方法。首先確定選擇哪些指標對使用者進行聚類;然後在選擇的指標上計算使用者彼此間的距離,距離的計算公式很多,最常用的就是直線距離(把選擇的指標當作維度、使用者在每個指標下都有相應的取值,可以看作多維空間中的一個點,使用者彼此間的距離就可理解為兩者之間的直線距離。);最後聚類方法把彼此距離比較短的使用者聚為一類,類與類之間的距離相對比較長。
6.1、k-means:從N個文件隨機選取K個文件作為質心,對剩餘的每個文件測量其到每個質心的距離,並把它歸到最近的質心的類,重新計算已經得到的各個類的質心,迭代2~3步直至新的質心與原質心相等或小於指定閾值,演算法結束。
6.2、分層:層次聚類(Hierarchical Clustering)是聚類演算法的一種,通過計算不同類別資料點間的相似度來建立一棵有層次的巢狀聚類樹。在聚類樹中,不同類別的原始資料點是樹的最低層,樹的頂層是一個聚類的根節點。建立聚類樹有自下而上合併和自上而下分裂兩種方法。
6.3、FCM:是一種基於劃分的聚類演算法,它的思想就是使得被劃分到同一簇的物件之間相似度最大,而不同簇之間的相似度最小。模糊C均值演算法是普通C均值演算法的改進,普通C均值演算法對於資料的劃分是硬性的,而FCM則是一種柔性的模糊劃分。