1. 程式人生 > >數據分析基礎概念

數據分析基礎概念

數據分析

互聯網進一步聚合,對大數據的分析必然會成為一個關鍵的策略部門的工作。

像很多事物先是存在,然後再變得合理一樣,數據分析師也會因為一些公司的實際需求而存在,然後從事的工作與技能也會不斷地變得豐富與完善。

說到數據分析,小程會想起Sherlock Home,破案是需要分析數據的:
技術分享圖片

但作為一般的技術人員,讀者並不需要像電視劇的人物那麽“聰明”,只需要掌握一般的知識與技能就有可能勝任工作了,然後才是不斷的能力提升。

已經有一些機構根據自己的理解,定義了數據分析師應該掌握的技能,比如下面這個來自網上的圖片:
技術分享圖片

這個圖有一定的合理性,立誌成為數據分析師的讀者,可以參考一下其中提到的技能要求。

作為數據分析的開篇,本文介紹幾個在數據分析時經常會說到的概念。

以下介紹的概念,讀者有可能會覺得枯燥,建議跳讀即可。

(1)平均數

平均數,指得是算術平均值,也就是總和除以個數(或其它單位的和)。平均值,是經常用到的概念,比如“平均每個同學可以分到2個蘋果手機”、“下載的平均速度是1MB/s”、“一個月的花費平均是4千塊”。

均值有一個缺陷就是在極端情況存在時,也就是極大與極小都很離譜時,平均出來的值就變得不合理,這也是投票取平均分時,可能會考慮把最高分與最低分去掉再作平均的原因。

對於這種缺陷的例子,可以看看下面來自網絡的圖片:
技術分享圖片

招聘者告訴讀者,就職的話平均工資有1800,而實際當讀者就的是員工一職時,工資就只有800了。

這個也是平均值謬誤的一個例子。

再看另一張圖:

技術分享圖片

不同等級的收入差距很大,假如收集到若幹家庭的收入,並取平均數來代表普遍家庭收入的話,就是不靠譜的,富人把窮人平均了。

對於這種統計,可以去掉極端值再統計,或者取每個區間的比例,或者用下面介紹的中值或眾數。

(2)中位數

中位數是大小值的分隔值,出現極大值或極小值都不影響到中位數,所以在這種極端的情況下,中位數是可用的一個參考值。

對於奇數個數的數值序列(已排序),中位數就是中間那個值。對於偶數個數的,中位數就是中間兩個值的和除以2。

比如:1,2,3,4,5 中位數是3。

比如:1, 2, 3, 4, 5, 6 中位數是(3+4)/2=3.5。

(3)眾數

眾數,就是出現次數最多的值。可能一個眾數都沒有,也可能有多個眾數。

比如:1, 1, 2, 5, 3, 5, 1 眾數是1。

比如:5, 4, 6, 2, 5, 6 眾數是5跟6。

眾數就是“大家都這樣”,是具有一定參考意義的。

(4)絕對數與相對數

絕對數是沒有對比的數,比如天氣是27度、一個班有50名學生、月薪是5萬塊,等等。

相對數是一個比值,比如提升了10%、體重不到某人的一半、比例是1:3,等等。

簡單來說,絕對數是自然數,而相對數一般是百分比(或能轉為百分比)。

(5)百分比與百分點

成本上漲了80%、速度下降了30%,這些都是百分比,這是一個經常出現的形式。

一個點,或一個百分點,就是1%。

一般在百分比的幅度變化時,使用百分點,比如從3%到5%,提升了2個百分點。

(6)比例與比率

部分占總體的比重,為比例。比如失敗率是0.01%(占失敗與成功的總和)、男同事占所有同事的70%,等等。

比率,是各部分的比,比如女學員與男學員的比率是1:3,等等。

(7)倍數與番數

一般在上漲的情景,用倍數,比如漲了2倍。而在下降的情景要用百分比,比如收入減少了30%,當然在上漲的時候也可以使用百分比,比如參會人數增加了300%。

番數,表示2的N次方。

純收益番了一番,表示增加1倍(2的1次方,也就是原來的2倍)。

番了兩番,表示變成了4倍(2的2次方);番3番,表示8倍,等等。

(8)同比與環比

同比,用於比較,比如現在是5月,同比於去年的5月,這個月的重大故障下降了30%。

環比,用於趨勢,比如環比上一周、環比上一個月,這一周或這一個月是怎麽樣的。


總結一下,本文簡單介紹了數據分析中經常會遇到的概念,比如平均數、百分比、番數、同比與環比等。

數據分析基礎概念