python對醫院2018年銷售資料進行資料分析

阿新 • • 發佈：2021-06-18

一、資料描述

1、資料欄位及解釋

購藥時間：朝陽醫院藥物賣出時間
社保卡號：每個人的社保卡號
商品編碼
商品名稱：各商品的名稱
銷售數量
應收金額
實收金額

2、匯入資料

1 import pandas as pd
2 data = pd.read_csv(r'Drug.csv')
3 data
4 data.describe()

通過描述統計資訊可以看到，“銷售數量”、“應收金額”、“實收金額”這三列資料的最小值出現了負數，這明顯不符合常理，資料中存在異常值的干擾，因此要對資料進一步處理，以排除異常值的影響：

1 pop = data.loc[:,'銷售數量'] > 0
2 data = data.loc[pop,:]
3 data.describe()

從資料輸出結果可知，一共統計了6577份銷售記錄。其中，有2367鍾商品，銷售數量最大達到一次50份。

二、提出問題

1、藥品的銷售量是否與商品價格有關；

2、藥品的銷售量是否與藥品的種類有關；

3、藥品的銷售數量是否與社保卡減少的價格有關；

三、資料清洗和預處理

1、查詢缺失值

 1 pd.isnull(data).sum()

2、處理缺失值

刪除檔案中的缺失值

1 data = data.dropna(subset=['銷售時間','社保卡號'], how='any')
2 data

與初始表相比，明顯6574行的資料被刪除了。

3、進行資料清洗，將資料按時間排序

在“銷售時間

”這一列資料中存在星期這樣的資料，但在資料分析過程中不需要用到，因此要把銷售時間列中日期和星期使用split函式進行分割，分割後的時間，返回的是Series資料型別：

 1  def splitSaletime(timeColSer):
 2       timeList=[]
 3       for value in timeColSer:
 4           dateStr=value.split(' ')[0] #用空格進行分割
 5          timeList.append(dateStr)
 6      timeSer=pd.Series(timeList)    # 
將列表轉行為一維資料Series型別
 7      return timeSer
 8  #獲取“銷售時間”這一列
 9  timeSer = data.loc[:,'銷售時間']
10  #對字串進行分割，提取銷售日期
11  dateSer = splitSaletime(timeSer)
12  #修改銷售時間這一列的值
13  data.loc[:,'銷售時間'] = dateSer
14  data.head()
15  data.loc[:,'銷售時間']=pd.to_datetime(data.loc[:,'銷售時間'],format='%Y-%m-%d', errors='coerce')
16  print(data.dtypes)

1 data.isnull().sum()

此時時間是沒有按順序排列的，所以還是需要排序一下，排序之後索引會被打亂，所以也需要重置一下索引。
其中by:表示按哪一列進行排序，ascending=True表示升序排列，ascending=False表示降序排列

 1 data = data.sort_values(by='銷售時間', ascending=True)
 2 data = data.reset_index(drop=True)
 3 data

四、資料視覺化

1、分析每天的消費金額

 1   import matplotlib.pyplot as plt
 2   import matplotlib
 3   #畫圖時用於顯示中文字元
 4   from pylab import mpl
 5   mpl.rcParams['font.sans-serif'] = ['SimHei'] # SimHei是黑體的意思
 6   #在操作之前先複製一份
 7   #在操作之前先複製一份資料，防止影響清洗後的資料
 8   groupDF = data  
 9   #將'銷售時間'設定為index
10   groupDF.index = groupDF['銷售時間']
11   print(groupDF.head())
12   gb = groupDF.groupby(groupDF.index)
13   print(gb)
14   dayDF = gb.sum()
15   print(dayDF)
16   #畫圖
17   plt.plot(dayDF['實收金額'])
18   plt.title('按天消費金額')
19   plt.xlabel('時間')
20   plt.ylabel('實收金額')
21   plt.show()

2、分析每月的消費金額

 1   #將銷售時間聚合按月分組
 2   gb = groupDF.groupby(groupDF.index.month)
 3   print(gb)
 4   monthDF = gb.sum()
 5   print(monthDF)
 6   plt.plot(monthDF['實收金額'])
 7   plt.title('按月消費金額')
 8   plt.xlabel('時間')
 9   plt.ylabel('實收金額')
10   plt.show()

結果顯示，7月消費金額最少，這是因為7月份的資料不完整，所以不具參考價值。

1月、4月、5月和6月的月消費金額差異不大.
2月和3月的消費金額迅速降低，這可能是2月和3月處於春節期間，大部分人都回家過年的原因。

3、分析藥品銷售情況

1   #聚合統計各種藥品數量
2   medicine = groupDF[['商品名稱','銷售數量']]
3   bk = medicine.groupby('商品名稱')[['銷售數量']]
4   re_medicine = bk.sum()
5   #對銷售藥品數量按將序排序
6   re_medicine = re_medicine.sort_values(by='銷售數量', ascending=False)
7   re_medicine.head()

擷取銷售數量最多的前十種藥品，並用條形圖展示結果：

1   top_medicine = re_medicine.iloc[:10,:]
2   top_medicine
3   # 資料視覺化，用條形圖展示前十的藥品
4   top_medicine.plot(kind = 'bar')
5   plt.title('銷售前十的藥品')
6   plt.xlabel('藥品')
7   plt.ylabel('數量')
8   plt.show()

4、每天的消費金額分佈情況

每天的消費金額分佈情況：一橫軸為時間，縱軸為實收金額畫散點圖。

1  plt.scatter(data['銷售時間'],data['實收金額'])
2  plt.title('每天銷售金額')
3  plt.xlabel('時間')
4  plt.ylabel('實收金額')
5  plt.show()

結論：從散點圖可以看出，每天消費金額在500以下的佔絕大多數，個別天存在消費金額很大的情況。

五、總結

對於銷售量排在前幾位的藥品，醫院應該時刻關注，保證藥品不會短缺而影響患者。得到銷售數量最多的前十種藥品的資訊，這些資訊也會有助於加強醫院對藥房的管理。

從結果可以看出，每天消費總額差異較大，除了個別天出現比較大筆的消費，大部分人消費情況維持在1000-2000元以內。

python對醫院2018年銷售資料進行資料分析

一、資料描述 1、資料欄位及解釋購藥時間：朝陽醫院藥物賣出時間社保卡號：每個人的社保卡號

利用python對excel中一列的時間資料更改格式操作

問題場景：需要將下列的交期一列的資料格式更改成2019/05/10 存貨編碼尺寸數量交期

在SQL中對同一個欄位不同值,進行資料統計操作

應用場景：需要根據印章的不同狀態，統計不同狀態下印章數量。剛開始百度，確實寫搜到了不同的答案，但只能怪自己對sql語法解讀不夠，還是沒寫出來，導致寫出了下面錯誤的寫法。

python 對一幅灰度影象進行直方圖均衡化

from PIL import Image from pylab import * from numpy import * def histeq(im,nbr_bins = 256): \"\"\"對一幅灰度影象進行直方圖均衡化\"\"\"

拓端tecdat|Python用LSTM長短期記憶神經網路對不穩定降雨量時間序列進行預測分析

原文連結：http://tecdat.cn/?p=23544 原文出處：拓端資料部落公眾號下面是一個關於如何使用長短期記憶網路（LSTM）來擬合一個不穩定的時間序列的例子。

疫情在校學生之——用python對某校園熱水服務app進行測試，實現自動免費用水（僅供參考）

寫在前面的過場話：本文只是對某校園熱水服務app做個測試，其實本人並沒有做大壞事，並未傳播相關技術，文章以下內容的敏感部分會打碼，並且相關廠商已經正在進行漏洞修復，大家看看就好。文章後會提供“Python簡

[筆記]使用Python一步一步地來進行資料分析

原文 http://www.cnblogs.com/nxld/p/6058998.html 你已經決定來學習Python，但是你之前沒有程式設計經驗。因此，你常常對從哪兒著手而感到困惑，這麼多Python的知識需要去學習。以下這些是那些開始使用Python資料分

mysql生成批量資料進行資料測試

1.1目的在MySQL很多測試場景，需要人工生成一些測試資料來測試。本文提供一個構造MySQL大表儲存過程，可以生成包含使用者名稱，手機號碼，出生日期等欄位。也可以通過濾重來使得手機號碼不重複，模擬現實場景。

python 對任意資料和曲線進行擬合併求出函式表示式的三種解決方案

第一種是進行多項式擬合，數學上可以證明，任意函式都可以表示為多項式形式。具體示例如下。

python資料處理——對pandas進行資料變頻或插值例項

這裡首先要介紹官方文件，對python有了進一步深度的學習的大家們應該會發現，網上不管csdn或者簡書上還是什麼地方，教程來源基本就是官方文件，所以英語只要還過的去，推薦看官方文件，就算不夠好，也可以只看它裡面

用Python把20年的GDP、人口以及房價資料進行了視覺化

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

Python對商店資料進行lstm和xgboost銷售量時間序列建模預測分析

原文連結：http://tecdat.cn/?p=17748 在資料科學學習之旅中，我經常處理日常工作中的時間序列資料集，並據此做出預測。

使用機器學習和Python對約會資料進行排序

作者|Marco Santos 編譯|Flin 來源|towardsdatascience 在無休止地瀏覽成百上千個交友檔案，卻沒有一個與之匹配之後，人們可能會開始懷疑這些檔案是如何在手機上出現的。所有這些配置檔案都不是他們要找的型別。他們

python 對資料夾下的所有圖片進行重新命名

技術標籤：深度學習深度學習python影象處理在做深度學習的相關專案時，經常需要對圖片資料集進行重新命名。這裡通過python實現遍歷資料夾圖片並重命名，並提供了完整程式碼，大家可以根據自己的需求靈活修改。

Python利用XGBoost庫，對資料進行分類預測

from sklearn.datasets import load_iris import xgboost as xgb import pandas as pd from xgboost import plot_importance

python使用pymysql對資料進行增刪改查

import pymysql db = pymysql.connect(host=\'***.***.***.160\', user=\'root\', passwd=\'Ca8th**#Python\', db=\'fusion_media\',

Python對系統資料進行採集監控——psutil

大家好，我是辰哥～今天給大家介紹一個可以獲取當前系統資訊的庫——psutil

用Python對Excel資料進行分列處理

split用法以下例項展示了 split() 函式的使用方法： #!/usr/bin/python3 str = \"this is string example....wow!!!\"print (str.split( )) # 以空格為分隔符print (str.split(\'i\',1)) # 以 i 為分隔符print (st

使用Python對Instagram進行資料分析

Instagram是最大的照片分享社交媒體平臺，每月有5億活躍使用者，每天會上傳9500萬張照片和視訊到Instagram上。它有大量的資料和巨大的潛力。這篇文章將教會你如何使用Instagram作為資料的來源，以及如何將它作為你的

SQL對資料進行按月統計或對資料進行按星期統計的例項程式碼

　對於所有的需求，當你不知道怎麼處理的時候，你就先用最簡單的方法，或者說的明白一點，用最原始的方法，先實現業務需求再說。　　

python對醫院2018年銷售資料進行資料分析

3、分析藥品銷售情況

4、每天的消費金額分佈情況

相關推薦