《利用python進行資料分析》讀書筆記之案例二：全美嬰兒姓名

阿新 • • 發佈：2019-01-25

這份資料包含了從1880到2010年間的嬰兒名字頻率資料，其資料形式是多個txt檔案，且用逗號分隔，可以用pandas.read_csv將其載入到DataFrame中，並且用pandas.concat將所有資料都組裝到一個DataFrame。

years=range(1880,2011)
pieces=[]
columns=['name','sex','births']
for year in years:
path='yob%d.txt'%year
frame=pd.read_csv(path,names=columns)
frame['year']=year
pieces.append(frame)
names=pd.concat(pieces,ignore_index=True)

total_births=names.pivot_table('births',index='year',columns='sex',aggfunc=sum)

def add_prop(group):
births=group.births.astype(float)
group['prop']=births/births.sum()
return group
names=names.groupby(['year','sex']).apply(add_prop)

在執行這樣的分組處理時，一般都會做一些有效性檢查，比如驗證所有分組的prop的總和是否為1

np.allcolse(names.groupby(['year','sex']).prop.sum(),1)

結果為：True

(1)需要取出該資料的一個子集：每對sex/year組合的前1000個名字：

def get_top1000(group):
    return group.sort_values(by='births',ascending=False)[:1000]
grouped=names.groupby(['year','sex'])
top1000=grouped.apply(get_top1000)

(2)分析命名的趨勢：

先是生成一張按year和name統計的總出生人數透視表：

total_births=top1000.pivot_table('births',index='year',columns='sex',aggfunc=sum)

用DataFrame的plot方法繪製幾個名字的曲線圖：

subset=total_births[['John','Harry','Marry','Marilyn']]
subset.plot(subplots=True,figsize=(12,10),grid=False)
plt.show()

從這張圖中可以看出這兩個之前比較流行的名字隨著時間的流逝已經風光不再了，所以我們需要來評估命名多樣的增長。

計算最流行的1000個名字所佔的比例，按year和sex進行聚合並繪圖：

table=top1000.pivot_table('prop',index='year',columns='sex',aggfunc=sum)

table.plot(yticks=np.linspace(0,1.2,13),xticks=range(1880,2020,10))
plt.show()

表明前1000項的名字比例在下降，名字的多樣性在增加。

《利用python進行資料分析》讀書筆記之案例二：全美嬰兒姓名

這份資料包含了從1880到2010年間的嬰兒名字頻率資料，其資料形式是多個txt檔案，且用逗號分隔，可以用pandas.read_csv將其載入到DataFrame中，並且用pandas.concat將所有資料都組裝到一個DataFrame。 years=range

Numpy基礎 --陣列和向量計算利用Python進行資料分析讀書筆記

Numpy 陣列和向量計算程式碼下載 import numpy as np #ndarray物件陣列 NumPy陣列建立ndarray data1=[6,7.5,8,0,1] arr1=np.array(data1) a

《利用Python進行資料分析》筆記及案例

《利用Python進行資料分析》本書算是資料分析領域絕對經典的一本書了，動物書系列基本都是比較值得學習的範本。針對科學計算領域的Python開源庫生態系統，在過去十幾年間得到了飛速發展，本書對剛剛接觸資料分析和統計應用的Python程式設計師，提供了集中

利用Python進行資料分析閱讀筆記（一）

資料規整化：清理，轉換，合併，重塑轉置（transpose）實現的幾種方式： import numpy as np arr = np.arange(15).reshape((3,5)) print(arr) print(arr.T) pri

《利用Python進行資料分析》筆記二

第七章----->最後資料的準備：載入、清理、轉換、重塑合併資料集pandas物件中的資料可以通過內建的方式進行合併資料庫風格的dataframe合併合併（merge）或連線（join）索引上的合併可以傳入left_index=True或right_index=True

資料集合與分組運算《利用python進行資料分析》筆記，第9章

pandas的groupby功能，可以計算分組統計和生成透視表，可對資料集進行靈活的切片、切塊、摘要等操作 GroupBy技術 “split-apply-comebine”（拆分-應用-合併） import numpy as np from pand

利用python進行資料分析學習筆記-Pandas篇

無論如何，堅持啊！ pandas的資料結構 Series obj = Series([]) #產生一個Series obj = Series({})#可以通過引入一個dict來建立一個Series 包括values和index兩個屬性，而valu

《利用Python進行資料分析》筆記---第2章--MovieLens 1M資料集

寫在前面的話：還有一定要說明的：我使用的是Python2.7，書中的程式碼有一些有錯誤，我使用自己的2.7版本調通。 # coding: utf-8 import pandas a

《利用Python進行資料分析》筆記---第9章資料聚合與分組運算

寫在前面的話：還有一定要說明的：我使用的是Python2.7，書中的程式碼有一些有錯誤，我使用自己的2.7版本調通。 # coding: utf-8 from pandas import Series, DataFrame import p

《利用python進行資料分析》讀書筆記之案例一：來自bit.ly的1.usa.gov資料

從網上下來的資料檔案，先讀取檔案中的第一行檢視是什麼資料型別 path="usagov_data.txt" open(path).readline() 結果是：從上面的資料格

《利用Python進行資料分析》第一章讀書筆記

一、重要的Python庫 1. NumPy(Python科學計算的基礎包) 2. pandas（本書用得最多pandas物件是DataFrame） 3. matplotlib（繪製資料圖表得Python庫） 4. IPython（目的是提

利用Python進行資料分析之第七章記錄2 資料規整化:清理、轉換、合併、重塑

索引上的合併 DataFrame中傳入引數left_index=True或者right_index=True（或者兩個都傳入）,表示DataFrame的index（索引）被用作兩個DataFrame連線的連線鍵，如下： dataframe1 = DataFrame({'key':

利用Python進行資料分析之第七章記錄資料規整化:清理、轉換、合併、重塑

合併資料集： pandas物件中的資料可以通過一些內建的方式進行合併： pandas.merge可根據一個或多個鍵將不同DataFrame中的行連線起來。SQL或其它關係型資料庫的使用者對此應該會比較熟悉，因為它實現的就是資料庫的連線操作。 pandas.concat可以沿著一條軸將多個

筆記1:利用python進行資料分析

#筆記1:利用python進行資料分析 numpy模組，各種函式等等因為不想使用編碼軟體，所以直接文字編輯器，cmd執行結果；提一個小技巧：cmd中複製資訊操作，右擊–》標記–》選擇需要複製的資訊(一般為白色背景)–》在複製區外右擊，之後在需要的地方-》ctrl+v 就可以了；直

《利用python進行資料分析》之整數索引

《利用python進行資料分析》之整數索引 # -*- coding: utf-8 -*- """ Created on Sat Nov 17 22:23:46 2018 @author: muli """ from pandas import Series,Dat

Python--學習筆記2 常用庫 <利用Python進行資料分析>

numpy 科學計算包：多維陣列物件；數學運算函式；隨機數；傅立葉變換可以作為演算法之間傳遞資料的容器。 pandas 快速處理結構化資料和函式。 dataframe，面向列的二維表結構，含有行標和列標。 matplotliba &nb

利用Python進行資料分析筆記－時間序列(轉換、索引、偏移)

時間序列指能在任何能在時間上觀測到的資料。很多時間序列是有固定頻率（fixed frequency）的，意思是資料點會遵照某種規律定期出現，比如每15秒，每5分鐘，或每個月。時間序列也可能是不規律的（irregular），沒有一個固定的時間規律。如何參照時間序列

初入資料分析2（《利用Python進行資料分析·第2版》筆記）

初入資料分析2 遍歷 seq=[(1,2,3),(4,5,6),(7,8,9)] for a,b,c in seq: print("a==",a,"b==",b,"c==",c) a== 1 b== 2 c== 3 a== 4 b== 5 c== 6 a==

利用python進行資料分析之繪圖和視覺化

matplotlib API入門使用matplotlib的辦法最常用的方式是pylab的ipython，pylab模式還會向ipython引入一大堆模組和函式提供一種更接近與matlab的介面，matplotlib API函式位於matplotlib.pyplot模組中，其通常的引入約定是：import

重要的Python庫（利用Python進行資料分析筆記）

NumPy(Numerical Python) 快速高效的多維陣列物件ndarray 用於對陣列執行元素級計算以及直接對陣列執行數學運算的函式線性代數運算、傅立葉變換，以及隨機數生成用於將C、C++,Fortran程式碼整合到Python的工具

《利用python進行資料分析》讀書筆記之案例二：全美嬰兒姓名

相關推薦