資料分析：某地醫院藥品銷售業務資料分析

阿新 • • 發佈：2020-04-06

資料分析：某地醫院藥品銷售業務資料分析

本篇文章以朝陽醫院2018年銷售資料為例，目的是瞭解朝陽醫院在2018年裡的銷售情況幾個業務指標

月均消費次數
月均消費金額
客單價
消費趨勢

資料分析的步驟：提出問題→理解資料→資料清洗→構建模型→資料視覺化

一.確定業務問題

我們知道，資料分析是指用適當的統計分析方法對收集來的大量資料進行分析，提取有用資訊和形成結論而對資料加以詳細研究和概括總結的過程。

那麼，與之對應的資料分析基本過程包括：獲取資料、資料清洗、構建模型、資料視覺化以及消費趨勢等

二：資料概覽

# 2018年朝陽醫院資料消費金額趨勢圖
import matplotlib.pyplot as plt
from pandas import Series,DataFrame
import pandas as pd
import numpy as np

fileNameStr='F:\\Downloads\朝陽醫院2018年銷售資料.xlsx'
xls=pd.ExcelFile(fileNameStr,dtype='object')
salesDf = xls.parse('Sheet1',dtype='object')
salesDf.info()

列印結果

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6578 entries, 0 to 6577
Data columns (total 7 columns):
購藥時間    6576 non-null object
社保卡號    6576 non-null float64
商品編碼    6577 non-null float64
商品名稱    6577 non-null object
銷售數量    6577 non-null float64
應收金額    6577 non-null float64
實收金額    6577 non-null float64
dtypes: float64(5), object(2)
memory usage: 359.8+ KB

資料概覽

salesDf.head()

列印結果

    購藥時間	社保卡號	商品編碼	商品名稱	銷售數量	應收金額	實收金額
0	2018-01-01 星期五	001616528	236701	強力VC銀翹片	6	82.8	69
1	2018-01-02 星期六	001616528	236701	清熱解毒口服液	1	28	24.64
2	2018-01-06 星期三	0012602828	236701	感康	2	16.8	15
3	2018-01-11 星期一	0010070343428	236701	三九感冒靈	1	28	28
4	2018-01-15 星期五	00101554328	236701	三九感冒靈	8	224	208

# 行、列數
salesDf.shape
(6578, 7)

salesDf.index
RangeIndex(start=0, stop=6578, step=1)
s

salesDf.columns
Index(['購藥時間', '社保卡號', '商品編碼', '商品名稱', '銷售數量', '應收金額', '實收金額'], dtype='object')

salesDf.count()
購藥時間    6576
社保卡號    6576
商品編碼    6577
商品名稱    6577
銷售數量    6577
應收金額    6577
實收金額    6577
dtype: int64

資料缺失：總共有6578行7列資料，但是“購藥時間”和“社保卡號”這兩列只有6576個數據，而“商品編碼”一直到“實收金額”這些列都是隻有6577個數據，資料中存在缺失值，可以推斷出資料中存在一行缺失值，此外“購藥時間”和“社保卡號”這兩列都各自存在一個缺失資料。

在任何資料分析的操作步驟中，為保證資料分析準確性，資料清洗步驟就顯得尤為重要。

三.資料清洗

資料清洗過程，或稱資料預處理，主要包括以下幾個步驟

選擇子集
列名重新命名
刪除缺失資料
資料型別轉換
資料排序
異常值處理

1選擇子集

在我們獲取到的資料中，可能資料量非常龐大，並不是每一列都有價值都需要分析，這時候就需要從整個資料中選取合適的子集進行分析，這樣能從資料中獲取最大價值。

2列名重新命名

在資料分析過程中，有些列名和資料容易混淆或產生歧義，不利於資料分析，這時候需要把列名換成容易理解的名稱，可以採用rename函式實現：

salesDf.rename(columns ={'購藥時間':'銷售時間'},inplace=True)  #inplace=True，資料框本身會改動
salesDf.head()

列印結果

    銷售時間	社保卡號	商品編碼	商品名稱	銷售數量	應收金額	實收金額
0	2018-01-01 星期五	1.616528e+06	236701.0	強力VC銀翹片	6.0	82.8	69.00
1	2018-01-02 星期六	1.616528e+06	236701.0	清熱解毒口服液	1.0	28.0	24.64
2	2018-01-06 星期三	1.260283e+07	236701.0	感康	2.0	16.8	15.00
3	2018-01-11 星期一	1.007034e+10	236701.0	三九感冒靈	1.0	28.0	28.00
4	2018-01-15 星期五	1.015543e+08	236701.0	三九感冒靈	8.0	224.0	208.00

3 缺失資料處理

任何一個得到的資料都很有可能會有缺失值，刪除列（銷售時間，社保卡號）中為空的行，使用dropna刪除缺失資料

print('刪除缺失值前大小',salesDf.shape)

# how='any' 給定的任何一列中有缺失值就刪除
salesDf=salesDf.dropna(subset=['銷售時間','社保卡號'],how='any')
print('刪除缺失後大小',salesDf.shape)

列印結果

刪除缺失值前大小 (6578, 7)
刪除缺失後大小 (6575, 7)

4 資料型別處理

在匯入的時候為了防止有些資料匯入不進來，所以強制所有資料都是object型別，但在實際分析上這樣是不可能的。

通過觀察，銷售數量，應收金額，實收金額，應該改成float型別，銷售時間應該清理後改成時間型別，對於改變成float型別的幾列，使用astype函式，程式碼如下。

salesDf['銷售數量']=salesDf['銷售數量'].astype('float')
salesDf['應收金額']=salesDf['應收金額'].astype('float')
salesDf['實收金額']=salesDf['實收金額'].astype('float')
print('轉換後的資料型別：\n',salesDf.dtypes)

列印結果

`轉換後的資料型別：
     銷售時間     object
    社保卡號     object
    商品編碼     object
    商品名稱     object
    銷售數量    float64
    應收金額    float64
    實收金額    float64
    dtype: object

而銷售時間那一列，則需要進行處理後才能轉換為時間型別，把銷售時間的日期和星期分開

分割時間列，定義函式：分割銷售日期，獲取銷售日期

def splitSaletime(timeColSer):
    timeList=[]
    for value in timeColSer:
        #例如2018-01-01 星期五，分割後為：2018-01-01
        dateStr=value.split(' ')[0]
        timeList.append(dateStr)
    
    timeSer=pd.Series(timeList)
    return timeSer

獲取“銷售時間”這一列，對字串進行分割，獲取銷售日期


timeSer=salesDf.loc[:,'銷售時間']

dateSer=splitSaletime(timeSer)

修改銷售時間這一列的值

列印結果

dateSer[0:3]

    0    2018-01-01
    1    2018-01-02
    2    2018-01-06
    dtype: object

獲取分割之後的銷售日期，少了星期時間字元

salesDf.loc[:,'銷售時間']=dateSer

salesDf.head()

列印結果

    銷售時間	社保卡號	商品編碼	商品名稱	銷售數量	應收金額	實收金額
0	2018-01-01	001616528	236701	強力VC銀翹片	6.0	82.8	69.00
1	2018-01-02	001616528	236701	清熱解毒口服液	1.0	28.0	24.64
2	2018-01-06	0012602828	236701	感康	2.0	16.8	15.00
3	2018-01-11	0010070343428	236701	三九感冒靈	1.0	28.0	28.00
4	2018-01-15	00101554328	236701	三九感冒靈	8.0	224.0	208.00

5 資料排序

使用sort_values進行排序，by：按哪幾列排序，ascending=True 表示升序排列，ascending=False表示降序排列

#按銷售時間進行升序排列
salesDf=salesDf.sort_values(by='銷售時間',ascending=True)

#檢視排序後的前10行
salesDf.head(10)

列印結果

    銷售時間	社保卡號	商品編碼	商品名稱	銷售數量	應收金額	實收金額
0	2018-01-01	001616528	236701	強力VC銀翹片	6.0	82.8	69.0
3436	2018-01-01	0010616728	865099	硝苯地平片(心痛定)	2.0	3.4	3.0
1190	2018-01-01	0010073966328	861409	非洛地平緩釋片(波依定)	5.0	162.5	145.0
3859	2018-01-01	0010073966328	866634	硝苯地平控釋片(欣然)	6.0	111.0	92.5
3888	2018-01-01	0010014289328	866851	纈沙坦分散片(易達樂)	1.0	26.0	23.0
894	2018-01-01	0013331728	861405	苯磺酸氨氯地平片(絡活喜)	2.0	69.0	62.0
893	2018-01-01	0011743428	861405	苯磺酸氨氯地平片(絡活喜)	1.0	34.5	31.0
4368	2018-01-01	00103283128	870921	卡託普利片	1.0	2.4	2.2
4562	2018-01-01	0010074599128	874684	厄貝沙坦氫氯噻嗪片(依倫平)	5.0	118.0	118.0
5039	2018-01-01	0010017493928	868042	馬來酸左旋氨氯地平片(玄寧)	1.0	46.0	46.0

重新命名行名（index），使用reset_index修改成從0到N按順序排序的索引值index

salesDf=salesDf.reset_index(drop=True)

檢視資料 salesDf.head(6)

    銷售時間	社保卡號	商品編碼	商品名稱	銷售數量	應收金額	實收金額
0	2018-01-01	001616528	236701	強力VC銀翹片	6.0	82.8	69.0
1	2018-01-01	0010616728	865099	硝苯地平片(心痛定)	2.0	3.4	3.0
2	2018-01-01	0010073966328	861409	非洛地平緩釋片(波依定)	5.0	162.5	145.0
3	2018-01-01	0010073966328	866634	硝苯地平控釋片(欣然)	6.0	111.0	92.5
4	2018-01-01	0010014289328	866851	纈沙坦分散片(易達樂)	1.0	26.0	23.0
5	2018-01-01	0013331728	861405	苯磺酸氨氯地平片(絡活喜)	2.0	69.0	62.0

6 異常值處理

檢視彙總資料描述，其中銷售數量值不能小於0

salesDf.describe()

列印結果

    銷售數量	應收金額	實收金額
count	6549.000000	6549.000000	6549.000000
mean	2.384486	50.449076	46.284370
std	2.375227	87.696401	81.058426
min	-10.000000	-374.000000	-374.000000
25%	1.000000	14.000000	12.320000
50%	2.000000	28.000000	26.500000
75%	2.000000	59.600000	53.000000
max	50.000000	2950.000000	2650.000000

通過條件判斷來刪除異常值

querySer=salesDf.loc[:,'銷售數量']>0

print('刪除異常值前：',salesDf.shape)
salesDf=salesDf.loc[querySer,:]
print('刪除異常值後：',salesDf.shape)

# 列印結果
刪除異常值前： (6549, 7)
刪除異常值後： (6506, 7)

資料的預處理工作完成，接下來分析業務的各個指標

四構建資料模型

1.月份數

業務指標1:月均消費次數=總消費次數 / 月份數

在計算總的消費次數當中將每個人每天的不同消費記錄作為消費一次,用drop_duplicates去掉同一天同一個人的重複消費記錄

根據列名（銷售時間，社群卡號），如果這兩個列值同時相同，只保留1條，將重複的資料刪除


kpi1_Df=salesDf.drop_duplicates(subset=['銷售時間', '社保卡號'])

#總消費次數
totalI=kpi1_Df.shape[0]

print('總消費次數=',totalI)
# 列印結果：總消費次數= 5342

# 計算月份數

#按銷售時間升序排序
kpi1_Df=kpi1_Df.sort_values(by='銷售時間',ascending=True)

#重新命名行名,索引排序
kpi1_Df=kpi1_Df.reset_index(drop=True)

kpi1_Df.head()

列印結果

    銷售時間	社保卡號	商品編碼	商品名稱	銷售數量	應收金額	實收金額
0	2018-01-01	001616528	236701	強力VC銀翹片	6.0	82.8	69.0
1	2018-01-01	0012697828	861464	複方利血平片(複方降壓片)	4.0	10.0	9.4
2	2018-01-01	0010060654328	861458	複方利血平氨苯蝶啶片(北京降壓0號)	1.0	10.3	9.2
3	2018-01-01	0011811728	861456	酒石酸美託洛爾片(倍他樂克)	1.0	7.0	6.3
4	2018-01-01	0013448228	861507	苯磺酸氨氯地平片(安內真)	1.0	9.5	8.5

計算總月份數，第一行時間與結尾時間之差除以30取整

startTime=kpi1_Df.loc[0,'銷售時間']
#最大時間值
endTime=kpi1_Df.loc[totalI-1,'銷售時間']


#天數
daysI=(endTime-startTime).days
#月份數: 運算子“//”表示取整除 
#返回商的整數部分，例如9//2 輸出結果是4
monthsI=daysI//30
print('月份數：',monthsI)

月份數： 6

2.月均消費次數

業務指標2：月均消費次數=總消費次數 / 月份數

計算月均消費次數

kpi1_I=totalI // monthsI
print('業務指標2：月均消費次數=',kpi1_I)

# 列印結果
業務指標2：月均消費次數= 890

3.月均消費金額

指標3：月均消費金額 = 總消費金額 / 月份數

#總消費金額
totalMoneyF=salesDf.loc[:,'實收金額'].sum()
#月均消費金額
monthMoneyF=totalMoneyF / monthsI
print('業務指標3：月均消費金額=',monthMoneyF)

業務指標3：月均消費金額= 50668.35166666666

4.客單價

指標4：客單價=總消費金額 / 總消費次數

客單價（per customer transaction）是指商場（超市）每一個顧客平均購買商品的金額，客單價也即是平均交易金額。

'''
totalMoneyF：總消費金額
totalI：總消費次數
'''
pct=totalMoneyF / totalI
print('客單價：',pct)
客單價： 56.909417821040805

5.消費趨勢圖

#在進行操作之前，先把資料複製到另一個數據框中，防止對之前清洗後的資料框造成影響
groupDf=salesDf
#第1步：重新命名行名（index）為銷售時間所在列的值
groupDf.index=groupDf['銷售時間']
groupDf.head()

列印結果


    銷售時間	社保卡號	商品編碼	商品名稱	銷售數量	應收金額	實收金額
銷售時間							
2018-01-01	2018-01-01	001616528	236701	強力VC銀翹片	6.0	82.8	69.0
2018-01-01	2018-01-01	0010616728	865099	硝苯地平片(心痛定)	2.0	3.4	3.0
2018-01-01	2018-01-01	0010073966328	861409	非洛地平緩釋片(波依定)	5.0	162.5	145.0
2018-01-01	2018-01-01	0010073966328	866634	硝苯地平控釋片(欣然)	6.0	111.0	92.5
2018-01-01	2018-01-01	0010014289328	866851	纈沙坦分散片(易達樂)	1.0	26.0	23.0

分組

gb=groupDf.groupby(groupDf.index.month)
gb
# 列印結果
<pandas.core.groupby.DataFrameGroupBy object at 0x000000000ED4CC18>

#第3步：應用函式，計算每個月的消費總額
mounthDf=gb.sum()
mounthDf

列印結果

	銷售數量	應收金額	實收金額
銷售時間			
1	2527.0	53561.6	49461.19
2	1858.0	42028.8	38790.38
3	2225.0	45318.0	41597.51
4	3005.0	54296.3	48787.84
5	2225.0	51263.4	46925.27
6	2328.0	52300.8	48327.70
7	1483.0	32568.0	30120.22

選取每個月的應收金額和實收金額的消費總額

mounthDf=DataFrame(mounthDf,columns=['應收金額','實收金額'])
mounthDf

列印結果

	應收金額	實收金額
銷售時間		
1	53561.6	49461.19
2	42028.8	38790.38
3	45318.0	41597.51
4	54296.3	48787.84
5	51263.4	46925.27
6	52300.8	48327.70
7	32568.0	30120.22

五資料視覺化

from pylab import *  
mpl.rcParams['font.sans-serif'] = ['SimHei']  #防止中文亂碼

mounthDf.plot(title='2018年朝陽醫院資料消費金額趨勢圖',figsize=(15,8),fontsize=20)

我們可以發現，週五週六的銷售總額要顯著的的高於其他日期，即週五週六應該前來買藥的人更多，銷售的藥品更多。

1月和第七月消費總金額是最高的，在第七月消費金額最低。

醫藥銷售量和天氣變化有一定的影響，尤其在冬季天氣寒冷和初春季節，容易受到天氣影響，氣溫變化大，市民容易感冒，從而在醫藥行業銷售更多了醫藥，銷售量上升，在氣溫平穩時期銷售量下降。

醫藥銷售金額會受到節日、天氣、重大活動等因素的影響。

六資料建模



# 2018年朝陽醫院資料消費金額趨勢圖
import matplotlib.pyplot as plt
from pandas import Series,DataFrame
import pandas as pd
import numpy as np
from pylab import *  
mpl.rcParams['font.sans-serif'] = ['SimHei']  #防止中文亂碼

fileNameStr='F:\\Downloads\朝陽醫院2018年銷售資料.xlsx'
xls=pd.ExcelFile(fileNameStr,dtype='object')
salesDf = xls.parse('Sheet1',dtype='object')
    

def splitSaletime(timeColSer):
    timeList=[]
    for value in timeColSer:
        #例如2018-01-01 星期五，分割後為：2018-01-01
        dateStr=value.split(' ')[0]
        timeList.append(dateStr)
    
    timeSer=pd.Series(timeList)
    return timeSer


salesDf.rename(columns ={'購藥時間':'銷售時間'},inplace=True)  #inplace=True，資料框本身會改動

#how='any' 給定的任何一列中有缺失值就刪除
salesDf=salesDf.dropna(subset=['銷售時間','社保卡號'],how='any')

salesDf['銷售數量']=salesDf['銷售數量'].astype('float')
salesDf['應收金額']=salesDf['應收金額'].astype('float')
salesDf['實收金額']=salesDf['實收金額'].astype('float')


timeSer=salesDf.loc[:,'銷售時間']

dateSer=splitSaletime(timeSer)

salesDf.loc[:,'銷售時間']=dateSer


salesDf.loc[:,'銷售時間']=pd.to_datetime(salesDf.loc[:,'銷售時間'],
                                    format='%Y-%m-%d', errors='coerce')
salesDf=salesDf.dropna(subset=['銷售時間','社保卡號'],how='any')

#按銷售時間進行升序排列
salesDf=salesDf.sort_values(by='銷售時間',ascending=True)

salesDf=salesDf.reset_index(drop=True)

# 刪除異常值
querySer=salesDf.loc[:,'銷售數量']>0

salesDf=salesDf.loc[querySer,:]

kpi1_Df=salesDf.drop_duplicates(subset=['銷售時間', '社保卡號'])

#總消費次數
totalI=kpi1_Df.shape[0]


#按銷售時間升序排序
kpi1_Df=kpi1_Df.sort_values(by='銷售時間',ascending=True)

#重新命名行名,索引排序
kpi1_Df=kpi1_Df.reset_index(drop=True)

startTime=kpi1_Df.loc[0,'銷售時間']
#最大時間值
endTime=kpi1_Df.loc[totalI-1,'銷售時間']


#天數
daysI=(endTime-startTime).days
#月份數: 運算子“//”表示取整除 
#返回商的整數部分，例如9//2 輸出結果是4
monthsI=daysI//30

# 業務指標2：月均消費次數
kpi1_I=totalI // monthsI

#總消費金額
totalMoneyF=salesDf.loc[:,'實收金額'].sum()
#業務指標3：月均消費金額
monthMoneyF=totalMoneyF / monthsI

'''
totalMoneyF：總消費金額
totalI：總消費次數
'''
pct=totalMoneyF / totalI

#在進行操作之前，先把資料複製到另一個數據框中，防止對之前清洗後的資料框造成影響
groupDf=salesDf
#第1步：重新命名行名（index）為銷售時間所在列的值
groupDf.index=groupDf['銷售時間']

gb=groupDf.groupby(groupDf.index.month)

#第3步：應用函式，計算每個月的消費總額
mounthDf=gb.sum()

mounthDf=DataFrame(mounthDf,columns=['應收金額','實收金額'])

mounthDf.plot(title='2018年朝陽醫院資料消費金額趨勢圖',figsize=(15,8),fontsize=20)

b一隻阿

資料分析：某地醫院藥品銷售業務資料分析

資料分析：某地醫院藥品銷售業務資料分析本篇文章以朝陽醫院2018年銷售資料為例，目的是瞭解朝陽醫院在2018年裡的銷售情況幾個業務指標月均消費次數月均消費金額客單價消費趨勢資料分析的步驟：提出問題→理解資料→資料清洗→構建模型→資料視覺化一.確定業務問題我們知道，資料分析是指

微服務架構案例(03)：資料庫選型簡介，業務資料規劃設計

更新進度(共6節)： 01：專案技術選型簡介，架構圖解說明 02：業務架構設計，系統分層管理 03：資料庫選型，業務資料設計規劃一、資料庫選擇 1、資料庫分類資料庫型別常見資料庫關係型 MySQL、Oracle、DB2、SQLServer等。非關係型 Hbase、Red

人人都是資料分析師：Tableau應用實戰(四)高階資料操作

本章主要介紹如何建立分層結構、組、集、引數、計算欄位、參考線與參考區間，以及如何靈活運用它們來建立檢視。 *6.1節和6.2節描述了分層結構和組，兩者經常結合使用以實現對資料的上鑽和下鑽操作；6.3 節描述了集的建立與使用方法；6.4節描述了引數的建立和使用方法；6.5節介紹瞭如何

《機器學習實戰》第2章閱讀筆記3 使用K近鄰演算法改進約會網站的配對效果—分步驟詳細講解1——資料準備：從文字檔案中解析資料（附詳細程式碼及註釋）

本篇使用的資料存放在文字檔案datingTestSet2.txt中，每個樣本資料佔據一行，總共有1000行。樣本主要包含以下3中特徵：（1）每年獲得飛行常客里程數（2）玩視訊遊戲所耗時間百分比（3）每週消費的冰淇淋公升數在使用分類器之前，需要將處理的檔案格式

大資料培訓：小白如何學好大資料

　　來源：千鋒大資料如何學好大資料?那麼首先我們要想我們為什麼會選擇學習大資料?大資料發展前景怎麼樣?學完大資料後就業機會多不多?這些都是我們需要了解的，那麼就跟大家簡單的說一說，我們為何要選擇學習大資料?And如何學好大資料呢? 隨著

年薪百萬大資料工程師：告訴大家如何學習大資料

作為二千零一十七世紀流行的技術，大量的資料越來越受到人們的重視。對於一個想進入大資料的朋友來說，他想知道的是：什麼是大資料學習？今天，我們將與大家分享資料，並分享一篇關於大資料學習內容系統的文章。大資料技術體系過於複雜，資料採集，涵蓋了基本的資料處理、分散式儲存、N

Android訊息機制分析：Handler、Looper、MessageQueue原始碼分析

1.前言關於Handler訊息機制的部落格實際上是非常多的了。之前也是看別人的部落格過來的，但是過了一段時間之後，一些細節也就忘了。所以，就自己擼一篇，權當筆記，方便以後翻閱。這篇文章主要是分析Handler訊息機制原理以及收集一些面試題來講解，

【開發工具】JAVA效能分析：5、超詳細的JProfilerCPU分析（官方中文版）

CPU Profiling——CPU分析當JProfiler測量方法呼叫的執行時間及其呼叫堆疊時，我們稱之為“CPU分析”。該資料以各種方式呈現。根據您嘗試解決的問題，一個或另一個簡報將是最有幫助的。預設情況下不記錄CPU資料，您必須開啟CPU記錄才能捕獲有趣的用例。一、取樣與儀表——S

原始碼分析：Android 的onTouch事件傳遞機制分析

當用戶觸控式螢幕幕的時候，最先接受到觸控事件的是Activity的dispatchTouchEvent(). 我們就從這裡開始分析事件的分發 Activity原始碼看下Activity的dispatchTouchEvent()原始碼。

大資料概念：史上最全大資料解析

　　現如今，我們身邊很多人對一些熱門的新技術、新趨勢往往趨之若鶩卻又很難說得透徹，比如大資料，如果被問大資料和你有什麼關係，估計很少能說出一二三來。究其原因，一是因為大家對新技術有著相同的原始渴求，至少知其然，在聊天時不會顯得很“土鱉”；二是在工作和生活環境中

資料結構：結構體在繼承中資料記憶體排列探究

下面以一個例子來說明（為了方便，結構體命名方面就馬虎點了）：#ifndef _STRUCTTEST_H_ #define _STRUCTTEST_H_ typedef struct tag_Base { int s32Count; char byNone; bool

Python網路爬蟲實戰：抓取和分析天貓胸罩銷售資料

本文實現一個非常有趣的專案，這個專案是關於胸罩銷售資料分析的。Google曾給出了一幅世界女性胸部尺寸分佈地圖，從地圖中可以明顯看出中國大部分地區呈現綠色（表示平均胸部尺寸為A罩杯），少部分地區呈現藍色（表示平均胸部尺寸為B罩杯）現在李寧老師也來驗證一下這個

商業智慧與業務分析：BI適合您的資料戰略

傳統上，企業將資料戰略集中在商業智慧（BI）上，但預測和規範分析平臺的興起，部分歸功於機器學習和人工智慧，正在改變這個方程式。即使是商業智慧本身也在不斷髮展，這也是以前業務分析平臺獨有的功能。分析師和顧問同意，理解商業智慧和其他分析平臺之間的區別，

python資料分析：商品資料化運營（中）——基於引數優化的Gradient Boosting的銷售預測

本案例需要使用超引數交叉檢驗和優化方法GridSearchCV以及整合迴歸方法GradientBoostingRegressor GridSearchCV與GradientBoostingRegressor GridSearchCV GridSearchCV用於系統地遍歷多種

Python網絡爬蟲實戰：根據天貓胸罩銷售數據分析中國女性胸部大小分布

直方圖回調 ams find tags ram 可視化分析 discus 綜合應用本文實現一個非常有趣的項目，這個項目是關於胸罩銷售數據分析的。是網絡爬蟲和數據分析的綜合應用項目。本項目會從天貓抓取胸罩銷售數據，並將這些數據保存到SQLite數據庫中，然後對數據進行清洗

Python網絡爬蟲實戰：天貓胸罩銷售數據分析

顯示來講數據顯示 display colors python網絡 java 讀者 rep 本文實現一個非常有趣的項目，這個項目是關於胸罩銷售數據分析的。是網絡爬蟲和數據分析的綜合應用項目。本項目會從天貓抓取胸罩銷售數據，並將這些數據保存到SQLite數據庫中，然後對數據

大資料學習：抓不住業務痛點，談什麼技術價值

在很多大資料公司裡，不論大資料專案的大小，技術部門和業務部門總有或多或少的矛盾。本文由科多大資料的張老師分享。我們深知：技術服務於業務，業務驅動技術去發展，兩者密不可分。換句話來說，技術幫助業務去解決問題，業務給技術一個機會去證明價值，兩者相輔相成。不過在大多數公司裡，技術的存在感會弱於業務，

資料基礎---《利用Python進行資料分析·第2版》第8章資料規整：聚合、合併和重塑

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。在許多應用中，資料可能分散在許多檔案或資料庫中，儲存的形式也不利於分析。本章關注可以聚合、合併、重塑資料的方法。首先

誰說菜鳥不會資料分析（入門篇）----- 學習筆記5（資料展現：圖表）

1、圖表作用：表達形象化、突出重點、體現專業化 2、圖示型別： 3、通過關係選擇圖表 4、圖表製作5步法 5、圖表：圖所不能說的話突出單元格顯示：絕對值專案選取：相對值資料條：量綱不同圖示集：企業運營指標發展態勢監控迷你圖

3D點雲資料分析：pointNet++論文分析及閱讀筆記

PointNet的缺點： PointNet不捕獲由度量空間點引起的區域性結構，限制了它識別細粒度圖案和泛化到複雜場景的能力。利用度量空間距離，我們的網路能夠通過增加上下文尺度來學習區域性特徵。點集通常採用不同的密度進行取樣，這導致在統一密度下訓練的網路的效能大大降低。

資料分析：某地醫院藥品銷售業務資料分析