資料分析案例_2012聯邦選舉資料分析

阿新 • • 發佈：2019-01-29

展示一份資料分析案例解說，主要是用於說明資料分析過程。大致過程是先讀取資料為DataFrame格式，利用pandas處理需要的行或列，再用畫圖展示出來。

#2012 美國聯邦選舉資料分析 案例'''
該分析案例摘自經典資料分析書籍《利用Python進行資料分析》，本文主要是對該案例進行解說。
案例的資料來源檔案為150MB的CSV檔案 包含了贊助者的姓名、職業、僱主、地址及出資金額等
該案例主要分析了職業和僱主的贊助資訊，出資額分組，以及按州統計贊助資訊(地圖顯示功能未實現)
使用知識點read_csv檔案讀取，pandas資料處理，groupby分組和matplotlib的畫圖'''
#程式碼及解說
 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#讀取原始檔的資料
origData = pd.read_csv('data/voting_data_2012.csv')
v_data = origData
# print('Check data size:',np.shape(v_data))
#因原始資料中沒有黨派資訊，給資料增加一列黨派資訊
unique_cands = v_data.cand_nm.unique()
parties = {'Bachmann, Michelle': 'Republican' 
,
           'Cain, Herman': 'Republican',
           'Gingrich, Newt': 'Republican',
           'Huntsman, Jon': 'Republican',
           'Johnson, Gary Earl': 'Republican',
           'McCotter, Thaddeus G': 'Republican',
           'Obama, Barack': 'Democrat',
           'Paul, Ron': 'Republican' 
,
           'Pawlenty, Timothy': 'Republican',
           'Perry, Rick': 'Republican',
           "Roemer, Charles E. 'Buddy' III": 'Republican',
           'Romney, Mitt': 'Republican',
           'Santorum, Rick': 'Republican'}

v_data['party'] = v_data.cand_nm.map(parties)
# print (v_data['party'].value_counts())
# 優化資料保留出資額為正的資料, 並建立一個只保留兩位主要競選人的子集
v_data = v_data[v_data.contb_receipt_amt>0]
v_data_mrbo = v_data[v_data.cand_nm.isin(['Obama, Barack', 'Romney, Mitt'])]


#根據職業和僱主統計贊助資訊進行分析
# 對職業和僱主資訊進行處理，清理名稱相同或多種變體的形式， 採用字典dict.get()進行處理
occ_mapping = {
   'INFORMATION REQUESTED PER BEST EFFORTS' : 'NOT PROVIDED',
   'INFORMATION REQUESTED' : 'NOT PROVIDED',
   'INFORMATION REQUESTED (BEST EFFORTS)' : 'NOT PROVIDED',
   'C.E.O.': 'CEO'
}

emp_mapping = {
   'INFORMATION REQUESTED PER BEST EFFORTS' : 'NOT PROVIDED',
   'INFORMATION REQUESTED' : 'NOT PROVIDED',
   'SELF' : 'SELF-EMPLOYED',
   'SELF EMPLOYED' : 'SELF-EMPLOYED',
}

# 如果清理過程中沒有找到相應的對映則返回x
f_occ = lambda x: occ_mapping.get(x,x)
v_data.contbr_occupation = v_data.contbr_occupation.map(f_occ)
f_emp = lambda x: emp_mapping.get(x,x)
v_data.contbr_employer = v_data.contbr_employer.map(f_emp)

by_occupation = v_data.pivot_table('contb_receipt_amt',
                                index='contbr_occupation',
                                columns='party', aggfunc='sum')

#過濾資金小於200萬的資料, 並把 200萬以上畫圖顯示出來
over_2m = by_occupation[by_occupation.sum(1) > 2000000]
# print ('Sponsor more than 2M', over_2m)
over_2m.plot(kind='barh')
#構建一個函式計算出資額最高的企業和職業
def get_top_amounts(group, key, n=5):
    totals = group.groupby(key)['contb_receipt_amt'].sum()

    # return totals.order(ascending=False)[-n:] 原文該語句過時 採用下面語句代替
return sorted(totals,reverse=True)[:n]

# 按職業和僱主進行聚合  然後找出職業排名前7項和 僱主排名前10項
grouped = v_data_mrbo.groupby('cand_nm')
show_occ = grouped.apply(get_top_amounts, 'contbr_occupation', n=7)
show_emp = grouped.apply(get_top_amounts,'contbr_employer', n=10)
# print ('Top occupation',show_occ)
# print ('Top employer',show_emp)
#對出資額的進行分組
# 資金額度等級劃分
bins = np.array([0,1,10,100,1000,10000,100000,1000000,10000000])
labels = pd.cut(v_data_mrbo.contb_receipt_amt, bins)
grouped = v_data_mrbo.groupby(['cand_nm',labels])
grouped_show = grouped.size().unstack(0)
# print (grouped_show)
#對出資額求和在面元內規格化 並畫圖
bucket_sum = grouped.contb_receipt_amt.sum().unstack(0)
normed_sum = bucket_sum.div(bucket_sum.sum(axis=1), axis=0)
normed_sum[:-2].plot(kind='barh', stacked=True)
#根據州統計贊助資訊
# 獲取贊助超過100000的贊助者
grouped = v_data_mrbo.groupby(['cand_nm','contbr_st'])
totals = grouped.contb_receipt_amt.sum().unstack(0).fillna(0)
totals = totals[totals.sum(1)>100000]

#各候選人在各州與總贊助額比例
percent  = totals.div(totals.sum(1), axis=0)
print(percent)
plt.show()

資料分析案例_2012聯邦選舉資料分析

展示一份資料分析案例解說，主要是用於說明資料分析過程。大致過程是先讀取資料為DataFrame格式，利用pandas處理需要的行或列，再用畫圖展示出來。 #2012 美國聯邦選舉資料分析案例''' 該分析案例摘自經典資料分析書籍《利用Python進行資料分析》，本文主

資料分析：2012聯邦選舉委員會資料庫

# -*- coding: utf-8 -*- import pandas as pd from pandas import DataFrame, Series fec = pd.read_csv('fec/P00000001-ALL.csv') #print fec #

《利用python進行資料分析》————2012年聯邦選舉委員會資料庫

[本次資料分析所用到的資料集連結] (http://github.com/wesm/pydata-book) import pandas as pd import matplotlib.pyplot as plt import numpy as np fec = pd.read_csv(

大資料教程（8.4）移動流量分析案例

前面分享了使用mapreduce做wordcount單詞統計的實現與原理。本篇博主將繼續分享一個移動流量分析的經典案例，來幫助在實際工作中理解和使用hadoop平臺。 &n

Spark SQL一步步分析Wifi探針商業大資料案例

該專案主要實現的主要功能: 一是通過探針裝置採集可監測範圍內的手機MAC地址、與探針距離、時間、地理位置等資訊: 二是探針採集的資料可以定時傳送到服務端儲存: 三是利用大資料技術對資料進行人流量等指標的分析。最終以合理的方式展示資料處理結果。資料收集資料收集由伺服器和探針裝置

吳裕雄資料探勘與分析案例實戰（3）——python數值計算工具：Numpy

# 匯入模組，並重命名為npimport numpy as np# 單個列表建立一維陣列arr1 = np.array([3,10,8,7,34,11,28,72])print('一維陣列：\n',arr1)# 一維陣列元素的獲取print(arr1[[2,3,5,7]]) # 巢狀元組建立二維陣列ar

吳裕雄資料探勘與分析案例實戰（4）——python資料處理工具：Pandas

# 匯入模組import pandas as pdimport numpy as np # 構造序列gdp1 = pd.Series([2.8,3.01,8.99,8.59,5.18])print(gdp1)# 取出gdp1中的第一、第四和第五個元素print('行號風格的序列：\n',gdp1[[0,3,

吳裕雄資料探勘與分析案例實戰（5）——python資料視覺化

# 餅圖的繪製# 匯入第三方模組import matplotlibimport matplotlib.pyplot as plt plt.rcParams['font.sans-serif']=['Simhei']plt.rcParams['axes.unicode_minus']=Falseziti =

吳裕雄資料探勘與分析案例實戰（6）——線性迴歸預測模型

# 工作年限與收入之間的散點圖# 匯入第三方模組import pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt # 匯入資料集income = pd.read_csv(r'F:\\python_Data_analysis_and

吳裕雄資料探勘與分析案例實戰（9）——決策樹與隨機深林

# 匯入第三方模組import pandas as pd# 讀入資料Titanic = pd.read_csv(r'F:\\python_Data_analysis_and_mining\\10\\Titanic.csv')print(Titanic.shape)print(Titanic.head())#

吳裕雄資料探勘與分析案例實戰（12）——SVM模型的應用

import pandas as pd # 匯入第三方模組from sklearn import svmfrom sklearn import model_selectionfrom sklearn import metrics # 讀取外部資料letters = pd.read_csv(r'F:\\py

吳裕雄資料探勘與分析案例實戰（14）——Kmeans聚類分析

# 匯入第三方包import pandas as pdimport numpy as np import matplotlib.pyplot as pltfrom sklearn.cluster import KMeansfrom sklearn import metrics # 隨機生成三組二元正態分佈隨

資料分析案例——流量統計

使用java處理日誌檔案，完成需求。簡介 http.log日誌檔案中，是電信運營商記錄使用者上網訪問某些網站行為的日誌記錄資料，一條資料中有多個欄位用空格或製表符分隔。例如："18611132889 http://v.baidu.com/tv 20 500

大資料學習筆記(spark日誌分析案例)

前提：500w條記錄環境下（可以更多，視計算機效能而定），統計每天最熱門的top3板塊。 1、PV和UV 我們要統計的是最熱門的top3板塊，而熱門如果只是簡單地通過頁面瀏覽量（PV）或者使用者瀏覽量（UV）來決定都顯得比較片面，這裡我們綜合這兩者（0.3PV+

京東金融資料分析案例（二）

任務 5 利用 spark streaming 實時分析每個頁面點選次數和不同年齡段消費總金額步驟：編寫 Kafka produer 程式讀取hdfs上的檔案每隔一段時間產生資料，然後使用spark streaming讀取kafka中的資料進行分析

4大案例分析金融機構的大資料應用

就“大資料+金融”思維利用而言，國外金融機構有著十足豐富的體現，已經將大資料技術在風險控制、運營管理、銷售支援及商業模式創新等領域進行了全面的嘗試。案例一：匯豐銀行-風險管理匯豐銀行在防範信用卡和借記卡欺詐的基礎上，利用SAS構建了一套全球業務網路的防欺詐管理系統，

第十四篇資料分析案例

經過前面的學習，下面來看⼀些真實世界的資料集。對於每個資料集，我們會⽤之前介紹的⽅法，從原始資料中提取有意義的內容。展示的⽅法適⽤於其它資料集，也包括你的。本篇包含了⼀些各種各樣的案例資料集，可以⽤來練習。案例資料集可以在Github倉庫找到。一、來⾃Bitly的USA.gov資料 2011年，

Hadoop學習筆記—20.網站日誌分析專案案例（二）資料清洗

網站日誌分析專案案例（二）資料清洗：當前頁面一、資料情況分析1.1 資料情況回顧　　該論壇資料有兩部分：　　（1）歷史資料約56GB，統計到2012-05-29。這也說明，在2012-05-29之前，日誌檔案都在一個檔案裡邊，採用了追加寫入的方式。　　（2）自2013-05-

資料分析案例（二手車）

隨著經濟的發展，我國汽車保有量持續快速增長。二手車交易也正蓬勃發展，並湧現出瓜子、優信、人人車，等大量二手車交易網站。由於該爬蟲工具比較簡單，像消費者偏好、汽車百公里耗油量、汽車內部空間、有無發生過事故、維修情況等，就沒有進一步的挖掘。 Python與SQL程式碼實

大資料 hive 15--hive日誌分析案例

1.1 專案來源本次實踐的目的就在於通過對該技術論壇網站的tomcat access log日誌進行分析，計算該論壇的一些關鍵指標，供運營者進行決策時參考。 PS：開發該系統的目的是為了獲取一些業務相關的指標，這些指標在第三方工具中無法獲得的； 1.2 資料情況該論壇資料有兩部分

資料分析案例_2012聯邦選舉資料分析

相關推薦