25、python資料分佈分析、百分比佔比(%表示)
分佈分析: 是指根據分析目的,將資料(定量資料)進行等距或者不等距的分組,進行各組分佈規律的一種分析方法。
案例:
import pandas
data=pandas.read_csv(
'D:\\DATA\\pycase\\5.3\\data.csv'
)
# 檢視年齡的分佈情況
import numpy
aggResult=data.groupby(
by=['年齡']
)['年齡'].agg({
'人數': numpy.size
})
# 分組檢視
# bins 分組的劃分陣列
bins=[
min(data.年齡)-1,20,30,40,max(data.年齡)+1
]
# 分組的自定義標籤
labels=[
'20歲以及以下','21歲到30歲','31歲到40歲','41歲以上'
]
data['年齡分層']=pandas.cut(
data.年齡,
bins,
labels=labels
)
# 根據年齡分層進行分佈分析
aggResult=data.groupby(
by=['年齡分層']
)['年齡'].agg({
'人數': numpy.size
})
# 使用百分比的形式進行資料的展示
# 第一種
pAggResult=round(
aggResult/aggResult.sum(),
2,
)*100
# 第二種
pAggResult['人數'].map('{:,.2f}%'.format)