資料分析：2012聯邦選舉委員會資料庫

阿新 • • 發佈：2019-02-13

# -*- coding: utf-8 -*-

import pandas as pd
from pandas import DataFrame, Series

fec = pd.read_csv('fec/P00000001-ALL.csv')
#print fec
#print fec.ix[123456]

#加入黨派
unique_cands = fec.cand_nm.unique()
#print unique_cands

parties = {'Bachmann, Michelle': 'Republican',
                  'Cain, Herman': 'Republican',
                  'Gingrich, Newt': 'Republican',
                  'Huntsman, Jon': 'Republican',
                  'Johnson, Gary Earl': 'Republican',
                  'McCotter, Thaddeus G': 'Republican',
                  'Obama, Barack': 'Democrat',
                  'Paul, Ron': 'Republican',
                  'Pawlenty, Timothy': 'Republican',
                  'Perry, Rick': 'Republican',
                  "Roemer, Charles E. 'Buddy' III": 'Republican',
                  'Romney, Mitt': 'Republican',
                  'Santorum, Rick': 'Republican',
           }
#.map 對應關係對映值，可以是函式、字典、Sreies
#print fec.cand_nm[12456:123461].map(parties)
fec['party'] = fec.cand_nm.map(parties)
#print fec['party'].value_counts()

#注意有退款
#print (fec.contb_receipt_amt > 0).value_counts()

#簡化過程，限定只有正出資
fec = fec[fec.contb_receipt_amt > 0]
#print fec

#Obama和Romney是主要選舉人
fec_mrbo = fec[fec.cand_nm.isin(['Obama, Barack', 'Romney, Mitt'])]
#print fec_mrbo


#根據職業和僱主統計贊助資訊
#算出出資總額
#print fec.contbr_occupation.value_counts()[:10]
occ_mapping = {
        'INFORMATION REQUESTED PER BEST EFFORTS': 'NOT PROVIDED',
        'INFORMATION REQUESTED': 'NOT PROVIDED',
        'INFORMATION REQUESTED (BEST EFFORTS)': 'NOT PROVIDED',
        'C.E.O.': 'CEO'
}
#如果未提供相關對映，則返回x
f = lambda x: occ_mapping.get(x, x)
fec.contbr_occupation = fec.contbr_occupation.map(f)

#同樣處理僱主資訊
emp_mapping = {
        'INFORMATION REQUESTED PER BEST EFFORTS': 'NOT PROVIDED',
        'INFORMATION REQUESTED': 'NOT PROVIDED',
        'SELF': 'self-EMPLOYED',
        'SELF EMPLOYED': 'self-EMPLOYED',
}
#如果未提供相關對映，則返回x
f = lambda x: emp_mapping.get(x, x)
fec.contbr_employer = fec.contbr_employer.map(f)

#對職業和資料進行聚合，過濾掉總額不超過200萬美元
by_occupation = fec.pivot_table('contb_receipt_amt',
                                rows = 'contbr_occupation',
                                cols = 'party', aggfunc='sum')
over_2mm = by_occupation[by_occupation.sum(1) > 2000000]
#print over_2mm

#柱狀圖
#over_2mm.plot(kind='barh')

#對Obabam和Romney總出資最高的的職業和企業
def get_top_amounts(group, key, n=5):
    totals = group.groupby(key)['contb_receipt_amt'].sum()
    
    #根據key對totals進行將序排列
    return totals.order(ascending=False)[n:]
    
#根據職業和僱主進行聚合
grouped = fec_mrbo.groupby('cand_nm')
#print grouped.apply(get_top_amounts, 'contbr_occupation', n=7)
#print grouped.apply(get_top_amounts, 'contbr_employer', n=10)

#對出資額進行分組
bins = np.array([0, 1, 10, 100, 1000, 10000, 100000, 1000000, 10000000])
labels = pd.cut(fec_mrbo.contb_receipt_amt, bins)
#print labels

#根據候選人姓名以及面元標籤對資料進行分組
grouped = fec_mrbo.groupby(['cand_nm', labels])
#print grouped.size().unstack(0)

#資料面元內規格化
bucket_sums = grouped.contb_receipt_amt.sum().unstack(0)
#print bucket_sums
#.div除法
normed_sums = bucket_sums.div(bucket_sums.sum(axis=1), axis=0)
#print normed_sums

#最大面元非個人捐贈，排除
#normed_sums[:-2].plot(kind='barh', stacked=True)

#根據州統計贊助資訊
grouped = fec_mrbo.groupby(['cand_nm', 'contbr_st'])
totals = grouped.contb_receipt_amt.sum().unstack(0).fillna(0)
totals = totals[totals.sum(1) > 100000]
#print totals[:10]

#贊助比例
percent = totals.div(totals.sum(1), axis=0)
#print percent[:10]

資料分析：2012聯邦選舉委員會資料庫

# -*- coding: utf-8 -*- import pandas as pd from pandas import DataFrame, Series fec = pd.read_csv('fec/P00000001-ALL.csv') #print fec #

《利用python進行資料分析》————2012年聯邦選舉委員會資料庫

[本次資料分析所用到的資料集連結] (http://github.com/wesm/pydata-book) import pandas as pd import matplotlib.pyplot as plt import numpy as np fec = pd.read_csv(

資料分析案例_2012聯邦選舉資料分析

展示一份資料分析案例解說，主要是用於說明資料分析過程。大致過程是先讀取資料為DataFrame格式，利用pandas處理需要的行或列，再用畫圖展示出來。 #2012 美國聯邦選舉資料分析案例''' 該分析案例摘自經典資料分析書籍《利用Python進行資料分析》，本文主

3D點雲資料分析：pointNet++論文分析及閱讀筆記

PointNet的缺點： PointNet不捕獲由度量空間點引起的區域性結構，限制了它識別細粒度圖案和泛化到複雜場景的能力。利用度量空間距離，我們的網路能夠通過增加上下文尺度來學習區域性特徵。點集通常採用不同的密度進行取樣，這導致在統一密度下訓練的網路的效能大大降低。

資料分析：北京Python開發的現狀

相信各位同學多多少少在拉鉤上投過簡歷，今天突然想了解一下北京Python開發的薪資水平、招聘要求、福利待遇以及公司地理位置。既然要分析那必然是現有資料樣本。本文通過爬蟲和資料分析為大家展示一下北京Python開發的現狀，希望能夠在職業規劃方面幫助到大家！！！爬蟲爬蟲的第一步自然是從分析請求和

python資料分析：迴歸分析

何為迴歸分析：迴歸分析（regression analysis）指的是確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。迴歸分析按照涉及的變數的多少，分為一元迴歸和多元迴歸分析；按照因變數的多少，可分為簡單迴歸分析和多重回歸分析；按照自變數和因變數之間的關係型別，可分為

Python 資料分析：第一篇準備工作

一、安裝或升級Python包 1、安裝Anaconda中的Python包conda install package_name 或者pip install package_name ⽤conda update命令升級包conda update package_name 或者pip install --upg

python資料分析：分類分析（classification analysis）

何為分類分析在機器學習和統計中，分類是基於包含其類別成員資格已知的觀察（或例項）的訓練資料集來識別新觀察所屬的一組類別（子群體）中的哪一個的問題。例如，將給定的電子郵件分配給“垃圾郵件”或“非垃圾郵件”類，並根據觀察到的患者特徵（性別，血壓，某些症狀的存在或不存在等）為給定患者分配

python資料分析：聚類分析（cluster analysis）

何為聚類分析聚類分析或聚類是對一組物件進行分組的任務，使得同一組（稱為聚類）中的物件（在某種意義上）與其他組（聚類）中的物件更相似（在某種意義上）。它是探索性資料探勘的主要任務，也是統計資料分析的常用技術，用於許多領域，包括機器學習，模式識別，影象分析，資訊檢索，生物資訊學，資料

python資料分析：關聯規則學習（Association rule learning）

何為關聯規則學習關聯規則學習是一種基於規則的機器學習方法，用於發現大型資料庫中變數之間的有趣關係。它旨在使用一些有趣的度量來識別在資料庫中發現的強規則。這種基於規則的方法在分析更多資料時也會生成新規則。假設資料集足夠大，最終目標是幫助機器模擬人類大腦的特徵提取和新未分類資料的抽象關

資料分析：分析性圖表

·ANALYTIC GRAPHS分析性圖表: 塔夫特的基本原則：明確參照物Show comparisons 這一點基本是所有科學的一個基本思想，也就是支援某一假設或某個對世界的思考之證據，一定與另一個假設是相對的 , 證據總是相對的。箱線圖 (boxplot)

資料分析：分類問題和預測--KNN演算法

資料型別可以有：數字，分類變數，二進位制，email，微博，使用者資料，json，地理位置，感測器資料等。資料定量或者定性的屬性值，比如身高，體重，年齡，性別，學科成績等。演算法簡介：分類（classification）：給定一些屬性標籤，預測它們的一些屬性。比如給定

慧數汽車大資料分析：奧迪與大眾內耗加劇，將危及大眾集團在華的戰略佈局

目前在定價、配置等各大方面，奧迪與大眾越來越接近，甚至雷同，會不會加劇兩者的內耗？衝擊到大眾在華的戰略佈局與銷量目標？一、售價大規模下滑，奧迪的整體配置水平越來越接近大眾近三四年奧迪配置水平被賓士、寶馬快速甩開的同時，越來越接近大眾的水平，2015-2018

離線資料分析：kafka+logstash+elasticsearch

elasticsearch也能夠儲存大量的資料，和hdfs相比有很大的優勢：使用hdfs進行資料分析的時候，需要將所有的資料全部都加載出來，然後用一個filter進行過濾，這個時候佔用了大量的資源。有些時候，只是從大量的資料中過濾出很少一部分資料

python資料分析：缺失值處理

缺失值處理可以使用主要以pandas缺失值處理最為常用 import pandas as pd import numpy as np from sklearn.preprocessing import Imputer df = pd.DataFrame(np.random

大資料分析：大規模價格戰能否啟用長城汽車的“SUV產品矩陣”？

2018年9月1日起的大規模價格戰，快速提升了長城汽車的市場銷量，迎來了讓多數車企非常羨慕的“金九銀十”。2019-2020年大眾的SUV戰略還會持續推進，且會強化對15萬元以內價區的佈局，銷量聚焦10-15萬元的且是SUV車市帶頭大哥的長城汽車自然是首當其衝。一、近

資料分析：當迴音哥唱music時，他在唱些什麼~~~

思路來源於此，註明出處：尊重原創 —————————————————————————————— 簡單來說，我們想分析某一位歌手所唱的所有歌曲（主流網站上可以找出來的），主要出現的詞彙是什麼（更能反映歌手的偏好）。下面開始動手做：第一個，爬資料爬資料這裡我用

資料分析：Pandas單變數圖形分析

在資料分析過程中，常常會對每個或部分特徵變數進行資料分析，而圖形展示最為直觀。今天就來學習下，如何通過pandas實現單變數的統計圖。資料集依舊是Kaggle的Give Me Some Credits。首先，讀取資料。 import pandas as pd import matplotl

資料分析：異常值檢測--箱型圖

在做資料分析時，我們免不了要檢查資料中的異常值，但是什麼樣的資料算作異常呢。有人說很大或者很小的值，那到底多大多小的值算異常。箱型圖就可以很好的解決這個問題。我們都知道折線圖、柱狀圖等，但很少使用過箱型圖。關於箱型圖，百度百科的解釋為：箱形圖（Box-plot）又稱為盒須圖、盒式圖或箱線圖，是

有關資料分析：簡單部分的技術層面已經成為過去

為什麼並非每家企業都能從資料分析中獲利或者實現影響力？每個人都在尋找資料分析的“點金術”，目前，它的衍生產品是人工智慧和機器學習。能夠完成相應功能的工具和平臺是強大的，越來越多的專案都在提供資料科學和分析技能方面的培訓。那麼，阻礙因素在哪裡呢？本質上，正是企業自身

資料分析：2012聯邦選舉委員會資料庫

相關推薦