1. 程式人生 > >pandas dataframe 操作技巧 總結

pandas dataframe 操作技巧 總結

fonts dsi end 時長 die xlabel 比例 nco .fig

#中文
myfont = FontProperties(fname=r‘C:\Windows\Fonts\simhei.ttf‘, size=14)
import seaborn as sns
sns.set(font=myfont.get_name())

file = open(".xlsx", "rb")
data = pd.read_excel(file, sep="\t")
data = data.loc[(data[‘時間‘] > 0) & (data[‘時間‘] < 4320)]
drop_feat = ["編號",..., "狀態"]
feat = [i for i in data.columns if i not in drop_feat]
data = data[feat]
print(data.isnull().sum() / len(data)) #看缺失比例,字段

# 讀取文檔以及,過濾填充數據, 篩選數據
# ddie = data.loc[(data[‘等級‘] == "Ⅲ") | (data[‘等級‘] == "Ⅳ")]
data = ddie.groupby([‘時段‘, ‘分類‘]).mean().reset_index()
dataForsize = ddie.groupby([‘時段‘, ‘分類‘]).size().reset_index()

dmean1 = data.loc[(data[‘類‘] == ‘‘) | (data[‘‘] == ‘‘)]
dsize1 = dataForsize.loc[(dataForsize[‘類‘] == ‘統‘) | (dataForsize[‘‘] == ‘‘)]
dmean1 = dmean1.groupby([‘掛‘]).mean() # 分組後 平均

dsize1 = dsize1.groupby([‘掛‘])[0].agg(sum) # 計 分組後 求和

# xx = list(range(0, 24)) 技巧得 x軸 連續坐標
y1 = dmean1["時間"]
x1 = y1._index._data  技巧 對應的 索引 不連續坐標 , 方法論:debug查 屬性

plt.figure(figsize=(16,5))
plt.plot(x1, y1,color=‘blue‘)
plt.plot(x3, y3,color=‘red‘)
for i, (_x, _y) in enumerate(zip(x1, y1)):
plt.text(_x, _y, dsize1[x1[i]],
color=‘blue‘, fontsize=12) # 關鍵 dsize1[x1[i]] 是從連續的i找不連續的x[i]的坐標來得到不連續的y值
plt.xticks(np.arange(24))
label = [ "其它"]
plt.legend(label, loc=0, ncol=2)
plt.xlabel(" 0-23小時")
plt.ylabel("時長")
plt.show()

pandas dataframe 操作技巧 總結