利用Python進行資料分析——基礎示例

阿新 • • 發佈：2019-02-05

import json
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

1.USA.gov Data from Bitly

此資料是美國官方網站從使用者那蒐集到的匿名資料。

path='datasets/bitly_usagov/example.txt'
data=[json.loads(line) for line in open(path)]
df=pd.DataFrame(data)

df.info()

tz欄位包含的是時區資訊。

df.loc[:,'tz'].value_counts 
()[:10]

根據info()與value_counts()的返回結果來看，tz列存在缺失值與空值，首先填充缺失值，然後處理空值：

clean_tz=df.loc[:,'tz'].fillna('missing')
clean_tz.loc[clean_tz=='']='unkonwn'
clean_tz.value_counts()[:5]

plt.clf()
subset=clean_tz.value_counts()[:10]
subset.plot.barh()
plt.show()

a欄位包含的是瀏覽器、裝置與應用等資訊。

df.loc[:,'a'].sample 
(10)

假設我們需要統計windows與非windows的相關量，我們要抓取a欄位中的’Windows’字串。因為a欄位同樣存在缺失值，這裡我們選擇丟棄缺失值：

clean_df=df[df.loc[:,'a'].notnull()]

mask=clean_df.loc[:,'tz']==''
clean_df.loc[:,'tz'].loc[mask]='unkonwn'

mask=clean_df.loc[:,'a'].str.contains('Windows')
clean_df.loc[:,'os']=np.where(mask,'Windows','not Windows' 
)

clean_df.drop('a',axis=1,inplace=True)

by_tz_os=clean_df.groupby(['tz','os'])
tz_os_counts=by_tz_os.size().unstack().fillna(0)

indexer=tz_os_counts.sum(axis=1).argsort()        #返回排序後的索引列表
tz_os_counts_subset=tz_os_counts.take(indexer[-10:])        #取得索引列表的後十條

tz_os_counts_subset

plt.clf()
tz_os_counts_subset.plot.barh()
plt.show()

因為不同地區的數量差異懸殊，如果我們要更清楚得檢視系統差異，還需要將資料進行歸一化：

tz_os_counts_subset_norm=tz_os_counts_subset.values/tz_os_counts_subset.sum(axis=1).values.reshape(10,1)        #轉換成numpy陣列來計算百分比
tz_os_counts_subset_norm=pd.DataFrame(tz_os_counts_subset_norm,
                                      index=tz_os_counts_subset.index,
                                      columns=tz_os_counts_subset.columns)

plt.clf()
tz_os_counts_subset_norm.plot.barh()
plt.show()

# MovieLens

rating_col=['UserID','MovieID','Rating','Timestamp']
user_col=['UserID','Gender','Age','Occupation','Zip-code']
movie_col=['MovieID','Title','Genres']
ratings=pd.read_table('datasets/movielens/ratings.dat',header=None,sep='::',names=rating_col,engine='python')
users=pd.read_table('datasets/movielens/users.dat',header=None,sep='::',names=user_col,engine='python')
movies=pd.read_table('datasets/movielens/movies.dat',header=None,sep='::',names=movie_col,engine='python')

ratings.sample(3)

users.sample(3)

movies.sample(3)

data=pd.merge(pd.merge(ratings,users),movies)
data.sample(3)

data.info()

加入需要獲得不同性別對於各電影的平均打分，使用透視表就可以直接得到結果：

mean_ratings=data.pivot_table('Rating',index='Title',columns='Gender',aggfunc='mean')
mean_ratings[:5]

電影中會存在冷門作品，我們看一下評分資料中各電影被評價的次數都有多少：

by_title=data.groupby('Title').size()
by_title.describe()

我們以二分位點為分割線，取出評分數量在二分位點之上的電影：

mask=by_title>=250        #注意by_title是一個Series
active_titles=by_title.index[mask]
mean_ratings=mean_ratings.loc[active_titles,:]

下面列出女性觀眾最喜愛的電影：

top_female_tarings=mean_ratings.sort_values(by='F',ascending=False)[:10]
top_female_tarings

下面來看一下男女對於各影片的評分差異：

mean_ratings.loc[:,'diff']=mean_ratings.loc[:,'F']-mean_ratings.loc[:,'M']
sorted_by_diff=mean_ratings.sort_values(by='diff',ascending=False)
sorted_by_diff[:10]

sorted_by_diff[-10:]

接下來我們統計那些評分爭議較大的影片，rating的方差越大說明爭議越大：

rating_std=data.pivot_table('Rating',index='Title',aggfunc='std').loc[active_titles,:]
rating_std.sort_values(by='Rating',ascending=False)[:10]

# US Baby Names

years=range(1880,2017)
subsets=[]
column=['name','gender','number']

for year in years:
    path='datasets/babynames/yob{}.txt'.format(year)
    df=pd.read_csv(path,header=None,names=column)
    df.loc[:,'year']=year        #此處注意year這一列的值為整數型別
    subsets.append(df)

names=pd.concat(subsets,ignore_index=True)        #拼接多個df並重新編排行號

names.info()

names.sample(5)

我們先根據此資料來大致觀察一下每年的男女出生情況：

birth_by_gender=pd.pivot_table(names,values='number',index='year',columns='gender',aggfunc='sum')
plt.clf()
birth_by_gender.plot(title='Total births by sex and year')
plt.show()

我們在資料中增加一個比例係數，這個比例能顯示某個名字在這一年內佔某個性別的比例：

def add_prop(group):
    group.loc[:,'prop']=group.loc[:,'number']/group.loc[:,'number'].sum()
    return group

names_with_prop=names.groupby(['year','gender']).apply(add_prop)        #注意groupby與pivot_table的區別

names_with_prop.groupby(['year','gender'])['prop'].sum()[:6]        #正確性檢查,注意groupby與pivot_table的區別

下面取出按year與gender分組後的最受歡迎的前100個名字：

def get_top(group,n=100):
    return group.sort_values(by='number',ascending=False)[:n]

groupby_obj=names_with_prop.groupby(['year','gender'])
top100=groupby_obj.apply(get_top)
top100.reset_index(drop=True,inplace=True)        #丟棄因分組產生的行索引
top100[:5]

接下來我們使用這些最常見的名字來做更深入的分析：

total_birth=pd.pivot_table(top100,values='number',index='year',columns='name')
total_birth.fillna(0,inplace=True)

我們選取幾個非常具有代表性的名字，來觀察這些名字根據年份的變化趨勢：

subset=total_birth.loc[:,['John','Harry','Mary','Marilyn']]
subset.plot(subplots=True,title='Number of birth per year')
plt.show()

可以看出這幾個名字在特定的時期出現了井噴現象，但越靠近現在的時間段，這些名字出現的頻率越低，這可能說明家長們給寶寶起名字不再隨大流。下面來驗證這個想法：

基本思想是使用名字頻率的分位數，資料的分位數能大致體現出資料的分佈，如果資料在某一段特別密集，則某兩個分位數肯定靠的特別近，或者分位數的序號會偏離標準值非常遠。

先以男孩為例，取兩個年份來簡單驗證下以上猜想：

boys=top100[top100.loc[:,'gender']=='M']
boys[boys.loc[:,'year']==1940].sort_values(by='prop').loc[:,'prop'].describe()

由上述資料可以看到，prop的最大值為0.05，說明最常見的名字的可觀測率為5%，而且prop的均值處於[75%,max]區間內，說明絕大多數的新生兒共享一個很小的名字池。

boys[boys.loc[:,'year']==2016].sort_values(by='prop').loc[:,'prop'].describe()

在2016年，prop的最大值降到了0.01，均值處於[50%,75%]區間內，這說明新生兒的取名更多樣化了。

下面我們來計算佔據新生兒前25%的名字數量：

def get_quantile_index(group,q=0.25):
    group=group.sort_values(by='prop',ascending=False)
    sorted_arr=group.loc[:,'prop'].cumsum().values
    index=sorted_arr.searchsorted(0.25)+1        #0為起始的索引
    return index

diversity=top100.groupby(['year','gender']).apply(get_quantile_index)
diversity=diversity.unstack()

plt.clf()
diversity.plot(title='number of popular names in top 25%')
plt.show()

可以明顯看出時間線越靠近現在，前25%的新生兒名字數量也越多，這確實說明家長們給寶寶起名字更多樣化了。並且還注意到女孩名字的數量總是多於男孩。

下面分析名字的最後一個字母：

get_last_letter=lambda x:x[-1]
last_letters=names.loc[:,'name'].map(get_last_letter)        #返回一個Series
last_letters.name='last_letter'

letter_table=pd.pivot_table(names,values='number',index=last_letters,columns=['gender','year'],aggfunc='sum')
letter_table.fillna(0,inplace=True)

取出三個年份來進行粗略分析：

subset=letter_table.reindex(columns=[1910,1960,2010],level='year')        #重索引
subset.fillna(0,inplace=True)
letter_prop_subset=subset/subset.sum(axis=0)

plt.clf()
fig,axes=plt.subplots(2,1,figsize=(10,8))
letter_prop_subset.loc[:,'M'].plot(kind='bar',rot=0,ax=axes[0],title='Boy')
letter_prop_subset.loc[:,'F'].plot(kind='bar',rot=0,ax=axes[1],title='Girl')
plt.show()

從上面的粗略分析可以看到幾個明顯的情況：
- 在boy的資料裡，以字母n為結尾的名字在1960年後出現了爆炸式增長
- 對girl而言，字母a結尾的名字較常見，而字母e結尾的名字則越來越少

下面分別針對boy與girl挑選出最常見的名字尾字母，繪製出這些字母以隨時間的變化曲線：

letter_prop=letter_table/letter_table.sum(axis=0)

boy_letter=letter_prop.loc[['d','n','y'],'M']
boy_letter_ts=boy_letter.T

girl_letter=letter_prop.loc[['a','e','y'],'F']
girl_letter_ts=girl_letter.T

plt.clf()
fig,axes=plt.subplots(2,1,figsize=(10,8))
boy_letter_ts.plot(ax=axes[0],title='Boy')
girl_letter_ts.plot(ax=axes[1],title='Girl')
plt.show()

根據一個有趣的發現，表明有些男孩的名字正逐漸轉向被更多的女孩使用，比如說Lesley和Leslie，下面就篩選出包含lesl的名字來驗證這個說法：

uni_names=names.loc[:,'name'].unique()        #返回一個numpy陣列
uni_names=pd.Series(uni_names)
mask=uni_names.str.lower().str.contains('lesl')        #ser->str->ser->str-bool_ser
lesl=uni_names[mask]

mask=names.loc[:,'name'].isin(lesl)
lesl_subset=names[mask]

lesl_table=pd.pivot_table(lesl_subset,values='number',index='year',columns='gender',aggfunc='sum')
lesl_table.fillna(0,inplace=True)
lesl_table.loc[:,'M_prop']=lesl_table.loc[:,'M']/lesl_table.sum(axis=1)
lesl_table.loc[:,'F_prop']=lesl_table.loc[:,'F']/lesl_table.sum(axis=1)

plt.clf()
lesl_table.loc[:,['M_prop','F_prop']].plot(style={'M_prop':'k-','F_prop':'k--'})
plt.show()

USDA Food Database

db=json.load(open('datasets/usda_food/database.json'))
len(db)

6636

db[0]

這裡每個條目包含的資訊太多，不給出截圖了。

可以看到資料中每個條目包含以下資訊：
- description
- group
- id
- manufacturer
- nutrients：營養成分，字典的列表
- portions
- tags

因為nutrients項是一個字典的列表，如果將db直接轉化為dataframe的話這一項就會被歸到一個列中，非常擁擠。為了便於理解，建立兩個df，一個包含除了nutrients之外的食物資訊，而另一個包含id與nutrients資訊，然後再將兩者根據id合併。

keys=['description','group','id']
food_df=pd.DataFrame(db,columns=keys)

df.info()

food_df.sample(5)

subsets=[]

for item in db:
    id=item['id']
    df=pd.DataFrame(item['nutrients'])
    df.loc[:,'id']=id
    subsets.append(df)

nutrients_df=pd.concat(subsets,ignore_index=True)
nutrients_df.drop_duplicates(inplace=True)

nutrients_df.info()

nutrients_df.head()

觀察到兩個表中出現了同樣的列索引，為了合併表時不出現矛盾，更改列索引名稱：

fd_col_map={
    'description':'food',
    'group':'fd_cat'
}
food_df=food_df.rename(columns=fd_col_map)

nt_col_map={
    'description':'nutrient',
    'group':'nt_cat'
}
nutrients_df=nutrients_df.rename(columns=nt_col_map)

print('{}\n{}'.format(food_df.columns,nutrients_df.columns))

data=pd.merge(food_df,nutrients_df,on='id',how='outer')

data.head()

注意這個表中，唯一具有統計意義的值是value列，其餘都是描述性資訊。

假設現在需要統計哪種食物類別擁有的營養量均值，可以先將表對nutrient與fd_cat進行分組，再進行排序輸出：

nt_result=data.loc[:,'value'].groupby([data.loc[:,'nutrient'],data.loc[:,'fd_cat']]).mean()

plt.clf()
nt_result.loc['Protein'].sort_values().plot(kind='barh')         #按蛋白質含量均值繪製圖形
plt.show()

2012 Federal Election Commission Database

fec=pd.read_csv('datasets/fec/P00000001-ALL.csv',low_memory=False)        #避免警告

fec.info()

注意到資料中沒有候選人所屬的黨派這一資訊，所以可以考慮人為加上這一資訊。首先統計出資料中有多少位候選人：

fec.loc[:,'cand_nm'].unique()

nm2pt={
    'Bachmann, Michelle': 'Republican',
    'Romney, Mitt': 'Republican',
    'Obama, Barack': 'Democrat',
    "Roemer, Charles E. 'Buddy' III": 'Republican',
    'Pawlenty, Timothy': 'Republican',
    'Johnson, Gary Earl': 'Republican',
    'Paul, Ron': 'Republican',
    'Santorum, Rick': 'Republican',
    'Cain, Herman': 'Republican',
    'Gingrich, Newt': 'Republican',
    'McCotter, Thaddeus G': 'Republican',
    'Huntsman, Jon': 'Republican',
    'Perry, Rick': 'Republican',
}
fec.loc[:,'cand_pt']=fec.loc[:,'cand_nm'].map(nm2pt)

fec.loc[:,'cand_pt'].value_counts()

據說有一個現象，律師會傾向於捐給民主黨，而經濟人士會傾向於捐給共和黨，下面就來驗證這一說法：

fec.loc[:,'contbr_occupation'].value_counts()[:10]

occ_map={
    'INFORMATION REQUESTED PER BEST EFFORTS':'UNKNOW',
    'INFORMATION REQUESTED':'UNKNOW',
    'C.E.O.':'CEO'        #這一條是在後面分析中發現的項
}
f=lambda x:occ_map.get(x,x)        #獲取x對應的value,如果沒有對應的value則返回x

fec.loc[:,'contbr_occupation']=fec.loc[:,'contbr_occupation'].map(f)

by_occupation=pd.pivot_table(fec,values='contb_receipt_amt',index='contbr_occupation',columns='cand_pt',aggfunc='sum')
by_occupation.fillna(0,inplace=True)
by_occupation.sample(5)

by_occupation.describe()

看出捐獻金額分佈的極度不平衡，我們只選出總數大於5e6的條目：

mask=by_occupation.sum(axis=1)>5e6
over5mm=by_occupation[mask]
over5mm

plt.clf()
over5mm.plot(kind='barh')
plt.show()

下面我們對Obama Barack與Romney Mitt的資料進行分析：

mask=fec.loc[:,'cand_nm'].isin(['Obama, Barack','Romney, Mitt'])
fec_subset=fec[mask]

假設需要分別統計出對這兩個人支援最大的各職業，可以這樣做：

def get_top(group,key,n=5):
    totals=group.groupby(key)['contb_receipt_amt'].sum()
    return totals.nlargest(n)

grouped=fec_subset.groupby('cand_nm')
grouped.apply(get_top,'contbr_occupation',5)

下面看各州對兩人的支援情況：

by_stat=fec_subset.groupby(['cand_nm','contbr_st'])['contb_receipt_amt'].sum(axes=0)
mask=by_stat>5e6
by_stat=by_stat[mask]

by_stat

利用Python進行資料分析——基礎示例

import json import numpy as np import pandas as pd import matplotlib.pyplot as plt 1.USA.gov Data from Bitly 此資料是美國官方網站從使用者那蒐集到

【利用python進行資料分析——基礎篇】利用Python處理和分析Excel表中資料實戰

作為一個學習用Python進行資料分析的新手來說，通過本文來記錄分享一些我在用Python中的pandas、numpy來分析Excel表中資料的資料清洗和整理的工作，目的是熟悉numpy以及pandas基礎操作，所有操作利用Excel均可以方便實現。備註：本文中使用的是ipy

資料基礎---《利用Python進行資料分析·第2版》第12章 pandas高階應用

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。前面的章節關注於不同型別的資料規整流程和NumPy、pandas與其它庫的特點。隨著時間的發展，pandas發展出了更多適

資料基礎---《利用Python進行資料分析·第2版》第6章資料載入、儲存與檔案格式

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。訪問資料是使用本書所介紹的這些工具的第一步。我會著重介紹pandas的資料輸入與輸出，雖然別的庫中也有不少以此為目的的工具

資料基礎---《利用Python進行資料分析·第2版》第4章 NumPy基礎：陣列和向量計算

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。 NumPy（Numerical Python的簡稱）是Python數值計算最重要的基礎包。大多數提供科學計算的包都是用Nu

資料基礎---《利用Python進行資料分析·第2版》第11章時間序列

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。時間序列（time series）資料是一種重要的結構化資料形式，應用於多個領域，包括金融學、經濟學、生態學、神經科學、物

資料基礎---《利用Python進行資料分析·第2版》第10章資料聚合與分組運算

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。對資料集進行分組並對各組應用一個函式（無論是聚合還是轉換），通常是資料分析工作中的重要環節。在將資料集載入、融合、準備好之

資料基礎---《利用Python進行資料分析·第2版》第8章資料規整：聚合、合併和重塑

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。在許多應用中，資料可能分散在許多檔案或資料庫中，儲存的形式也不利於分析。本章關注可以聚合、合併、重塑資料的方法。首先

資料基礎---《利用Python進行資料分析·第2版》第7章資料清洗和準備

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。在資料分析和建模的過程中，相當多的時間要用在資料準備上：載入、清理、轉換以及重塑。這些工作會佔到分析師時間的80%或更多。

資料基礎---《利用Python進行資料分析·第2版》第5章 pandas入門

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。 pandas是本書後續內容的首選庫。它含有使資料清洗和分析工作變得更快更簡單的資料結構和操作工具。pandas經常和其它工

2018最新Python資料分析實戰教程視訊 python資料分析班視訊 Python資料分析基礎教程利用Python進行資料分析

系列一：《python資料分析基礎與實踐》章節1Python概況課時2Python簡介章節2Python安裝課時3安裝Anaconda課時4使用Anaconda章節3資料準備課時5資料型別 – 布林型課時6資料型別 – 數值型課時7資料型別 – 字元型課時8資料結構 – List課時9資料結構 – Tuple

Numpy基礎 --陣列和向量計算利用Python進行資料分析讀書筆記

Numpy 陣列和向量計算程式碼下載 import numpy as np #ndarray物件陣列 NumPy陣列建立ndarray data1=[6,7.5,8,0,1] arr1=np.array(data1) a

利用Python進行資料分析(15) pandas基礎: 字串操作

字串物件方法 split()方法拆分字串： strip()方法去掉空白符和換行符： split()結合strip()使用： "+"符號可以將多個字串連線起來： join()方法也是連線字串，比較它和"+"符號的區別： in關鍵字判斷一個字串是否包含在另一個字串中： index()方法

【爬蟲資料分析精華筆記】利用Python進行資料分析從零基礎到完整實現的筆記整理

一共 15 篇隨筆，主要是為了記錄資料分析過程中的一些小 demo，分享給其他需要的網友，更為了方便以後自己檢視，15 篇隨筆，每篇內容基本都是以一句說明加一段程式碼的方式，保持簡單小巧，看起來也清晰，一共可以劃分為三個大部分：第一部分簡單介紹資料分析，以一個小例子簡

利用python進行資料分析（第二版） pdf下載

適讀人群：適合剛學Python的資料分析師或剛學資料科學以及科學計算的Python程式設計者。閱讀本書可以獲得一份關於在Python下操作、處理、清洗、規整資料集的完整說明。本書第二版針對Python 3.6進行了更新，並增加實際案例向你展示如何高效地解決一系列資料分析問題。你將在閱讀

《利用Python進行資料分析》學習記錄

第8章249頁原語句：party_counts = pd.crosstab(tips.day, tips.size) 現在的pandas似乎有個size屬性，就是計算資料的大小，而不會返回那一列具體的資料，比如這裡tips這個csv資料，其裡面包含一列size資料，現在來執行這句語句的話，

分享《利用Python進行資料分析(第二版)》高清中文版PDF+英文版PDF+原始碼

資料下載：https://pan.baidu.com/s/1K3DjJ9S1S3AxpacEElNF9Q 《利用Python進行資料分析(第二版)》【中文版和英文版】【高清完整版PDF】+【配套原始碼】《利用Python進行資料分析(第二版)》中文和英文兩版對比學習，高清完整版PDF，帶書籤，可複製貼

利用Python進行資料分析之第七章記錄2 資料規整化:清理、轉換、合併、重塑

索引上的合併 DataFrame中傳入引數left_index=True或者right_index=True（或者兩個都傳入）,表示DataFrame的index（索引）被用作兩個DataFrame連線的連線鍵，如下： dataframe1 = DataFrame({'key':

利用Python進行資料分析之第七章記錄資料規整化:清理、轉換、合併、重塑

合併資料集： pandas物件中的資料可以通過一些內建的方式進行合併： pandas.merge可根據一個或多個鍵將不同DataFrame中的行連線起來。SQL或其它關係型資料庫的使用者對此應該會比較熟悉，因為它實現的就是資料庫的連線操作。 pandas.concat可以沿著一條軸將多個

利用python進行資料分析——p26,"一定要以pylab模式”開啟如何解決

本人使用Pythonxy,(Python(x,y)-2.7.10.0.exe)，初學者面對如圖的列表，大腦空白首先，使用python IDEL，雖然有自動路徑提示，但是做不出來圖，鬱

利用Python進行資料分析——基礎示例

1.USA.gov Data from Bitly

# MovieLens

# US Baby Names

USDA Food Database

2012 Federal Election Commission Database

相關推薦