資料分析與AI(五)pandas的資料拼接操作/美國各州人口分析/蘋果歷年股票曲線圖

阿新 • • 發佈：2019-01-25

pandas的拼接操作

pandas的拼接分為兩種:
- 級聯: pd.concat, pd.append
- 合併: pd.merge, pd.join

0. 回顧numpy的級聯

import numpy as np
import pandas as pd

from pandas import Series, DataFrame
import matplotlib.pyplot as plt

nd = np.random.randint(0,150,size=(5,4))
nd
# 結果如下:
array([[ 54,  65,  70,  31],
       [  5,  85 
,  36, 137],
       [ 87,  38,  63,  77],
       [ 89,  82,  58,  96],
       [145, 125,  89,  84]])

# 列級聯
np.concatenate([nd,nd], axis=1)
# 結果如下:
array([[ 54,  65,  70,  31,  54,  65,  70,  31],
       [  5,  85,  36, 137,   5,  85,  36, 137],
       [ 87,  38,  63,  77,  87,  38,  63,  77],
       [ 89 
,  82,  58,  96,  89,  82,  58,  96],
       [145, 125,  89,  84, 145, 125,  89,  84]])

為方便講解，我們首先定義一個生成DataFrame的函式：

def make_df(cols, index):
    data = {col:[str(col)+str(ind) for ind in index] for col in cols}

    df = DataFrame(data= data, columns = cols, index = index)

    return df

df1 = make_df(['a' 
,'b','c'],[1,2,3])
df1
# 結果如下:

這裡寫圖片描述

df2 = make_df(['a','b','c'],[4,5,6])
df2
# 結果如下:

這裡寫圖片描述

1. 使用pd.concat()級聯

pandas使用pd.concat函式，與np.concatenate函式類似，只是多了一些引數：

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
          keys=None, levels=None, names=None, verify_integrity=False,
          copy=True)

1) 簡單級聯

和np.concatenate一樣，優先增加行數（預設axis=0）

# np.concatenate(axis=1)的情況是水平級聯, np中沒有index, 和columns 所以只要行列相等就可以級聯
# 在pd中, 如果行 和 列 不一致, 但是shape(形狀)相同, 會級聯成一個更大的df, 但是不對應的值會填充NaN
pd.concat([df1, df2], axis=1)
# 結果如下:

這裡寫圖片描述
可以通過設定axis來改變級聯方向

pd.concat([df1, df2], axis=0)
# 結果如下:

這裡寫圖片描述
注意index在級聯時可以重複

df3 = make_df(['a','b','c'],[2,3,4])
df3
# 結果如下

這裡寫圖片描述

pd.concat([df1,df3],axis=1)
# 水平合併以後結果如下:

這裡寫圖片描述
也可以選擇忽略ignore_index，重新索引

# git中有 .gitignore 這個檔案, 會把寫入的檔案路徑給遮蔽, 不會被上傳到github
# add . commit push
# ignore_index 作用是對索引重新排序
pd.concat([df1,df3],axis=0, ignore_index=True)

# 在工作中, 大部分的分析資料來源於mysql,mysql中的id都是唯一的, 分表

# mysql在面試中是最重要的,分表  每個表最大的儲存限制是100w條, 一般只會使用80W條是最優的

這裡寫圖片描述
或者使用多層索引 keys

concat([x,y],keys=[‘x’,’y’])

df4 = pd.concat([df1,df3],keys=['期中','期末'])
df4
# 結果如下:

這裡寫圖片描述

2) 不匹配級聯

不匹配指的是級聯的維度的索引不一致。例如縱向級聯時列索引不一致，橫向級聯時行索引不一致
有3種連線方式：

外連線：補NaN（預設模式）

df1
# 結果如下:

這裡寫圖片描述

df5 = make_df(['c','d','e'],[3,4,5])
df5
# 結果如下:

這裡寫圖片描述

# concat預設使用的外連線
df6 = pd.concat([df1,df5],axis=0)
df6
# 結果如下:

這裡寫圖片描述

內連線：只連線匹配的項

# 回憶mysql中, outer和inner的不同
# 外連線  left 以左邊的表中的資料為核心, 右邊資料不匹配,則填充Null
# 內連線 join 兩邊表資料不完全對應的話, 會只顯示能對應上的資料
# join  預設值是outer
df6 = pd.concat([df1,df5],axis=1, join='inner')
df6

# 同mysql一致

這裡寫圖片描述

連線指定軸 join_axes

df1
# 結果如下:

這裡寫圖片描述

df5
# 結果如下:

這裡寫圖片描述

df7 = pd.concat([df1, df5], join_axes=[df1.columns])
df7

# join_axes 的值 是一個列表[df1.index]
# select df1.a, df1.b , df1.c from df1 left join df5 using(c);
# using(c) 相當於: on df1.c=df5.c

這裡寫圖片描述

3) 使用append()函式新增

由於在後面級聯的使用非常普遍，因此有一個函式append專門用於在後面新增

append 和 concat相似

df1
# 結果如下:

這裡寫圖片描述

df2
# 結果如下:

這裡寫圖片描述

# 垂直
df1.append(df2)

這裡寫圖片描述

2. 使用pd.merge()合併

merge與concat的區別在於，merge需要依據某一共同的行或列來進行合併

使用pd.merge()合併時，會自動根據兩者相同column名稱的那一列，作為key來進行合併。

注意每一列元素的順序不要求一致

1) 一對一合併

df1
# 結果如下:

這裡寫圖片描述

df2
# 結果如下:

這裡寫圖片描述

# 預設是內連線, 表的兩邊資料都不對應
pd.merge(df1,df2)
# 結果如下

這裡寫圖片描述

display(df1,df5)

這裡寫圖片描述

how的取值 : {‘left’, ‘right’, ‘outer’, ‘inner’}, default ‘inner’

pd.merge(df1,df5, how='right')
# 結果如下:

這裡寫圖片描述

pd.merge(df1,df5,how='left')
# 結果如下:

這裡寫圖片描述

2) 多對一|一對多合併

df1
# 結果如下:

這裡寫圖片描述

df8 = make_df(['c','d','e'],[1,1,1,4])
df8
# 結果如下:

這裡寫圖片描述

pd.merge(df1,df8)

# select * from df1 join df8 on df1.c= df8.c

這裡寫圖片描述

pd.merge(df1,df8, how='left')
# 結果如下:

這裡寫圖片描述

pd.merge(df1,df8,how='outer')

# 在工作中用outer , 可以自動分配

這裡寫圖片描述

pd.merge(df1,df8,how='right')
# 結果如下:

這裡寫圖片描述

3) 多對多合併

df8
# 結果如下:

這裡寫圖片描述

df8.iloc[0]['d'] = 'qwe'
df8['e'][4] = 'asd'
df9 = make_df(list('abd'),[1,1,4,4])
df9
# 結果如下;

這裡寫圖片描述

pd.merge(df9, df8)
# 結果如下:

這裡寫圖片描述

pd.merge(df9, df8,how='outer')
# 結果如下:

這裡寫圖片描述

4) key的規範化

使用on=顯式指定哪一列為key,當有多個key相同時使用

df1
# 結果如下:

這裡寫圖片描述

# on的作用是將兩個表中相同資料型別, 含義一致的欄位進行連線的
pd.merge(df1,df10, left_on='c',right_on='w')
# mysql
# select *

這裡寫圖片描述

df11 = make_df(list('bcd'),[1,2,3])
df11
# 結果如下:

這裡寫圖片描述

pd.merge(df1,df11,on='b')

# mysql中一般碰到兩個欄位相同, 但是代表的含義不一樣, 或者資料型別不同
# a.u = b.u  a.o - b.o
# select a.o a_o, b.o b_o

這裡寫圖片描述

6) 列衝突的解決

當列衝突時，即有多個列名稱相同時，需要使用on=來指定哪一個列作為key，配合suffixes指定衝突列名

可以使用suffixes=自己指定字尾

pd.merge(df1,df11,on='c',suffixes=('_up','_down'))
# 結果如下:

這裡寫圖片描述

U.S.A人口分析

United States America

import pandas as pd
from pandas import DataFrame, Series

# 先匯入資料檔案

# 各州的面積
areas = pd.read_csv('../data/state-areas.csv')
# 縮寫
abbr = pd.read_csv('../data/state-abbrevs.csv')
# 人口
pop = pd.read_csv('../data/state-population.csv')
areas.head()
pop.head()
# 結果如下:

這裡寫圖片描述

# 開始合併
abbrToPop = pd.merge(abbr,pop, left_on='abbreviation', right_on='state/region', how='outer')
abbrToPop.head()
# 合併結果如下:

這裡寫圖片描述

# 將重複的列刪除掉
# .drop()
# 一般的一執行完就列印的, 這種形式的方法不對原資料產生影響, inplace代表是否對原陣列產生影響
abbrToPop.drop(columns='abbreviation', inplace=True) # 或者abbrToPop.drop(labels='abbreviation', axis=1)
# 空資料一般會顯示NaN
abbrToPop.isnull().any()
# 結果如下:
state            True
state/region    False
ages            False
year            False
population       True
dtype: bool   # 其中返回True的欄位中存在NAN空資料, 需要進行處理

# 怎麼計算丟失資料的數量
# state  population
abbrToPop['state'].isnull().sum()
# 結果如下:  96

# 把空資料填充上, 得到NAN行的篩選條件
cond = abbrToPop['state'].isnull()

# state是州名, 如何填充
# unique()去除重複的值
abbrToPop['state/region'][cond].unique()
# 結果如下:array(['PR', 'USA'], dtype=object)

# 我們通過翻閱資料查到了PR的全稱
# Puerto Rico
# 開始賦值
cond_pr = abbrToPop['state/region'] == 'PR'
abbrToPop['state'][cond_pr] = 'Puerto Rico'
cond_usa = abbrToPop['state/region'] == 'USA'
abbrToPop['state'][cond_usa] = 'United States'
abbrToPop.isnull().any()
# 結果如下:
state           False
state/region    False
ages            False
year            False
population       True
dtype: bool   # 成功將state資料修復

abbrToPop.dropna(inplace=True)
# population 查閱資料, 我們先刪除掉
abbrToPop.isnull().sum()
# 結果:
state           0
state/region    0
ages            0
year            0
population      0
dtype: int64

# 還有一個表需要合併
areas.head()
# 結果如下

這裡寫圖片描述

# 融合面積
abbrToPopToAreas = pd.merge(abbrToPop,areas, on='state',how='outer' )
abbrToPopToAreas.head()

這裡寫圖片描述

abbrToPopToAreas.isnull().sum()
# 結果如下:
state             0
state/region      0
ages              0
year              0
population        0
area (sq. mi)    48
dtype: int64   # area欄位有48個空值

cond_area = abbrToPopToAreas['area (sq. mi)'].isnull()
total_area = areas['area (sq. mi)'].sum()
total_area  # 結果是: 3790399
# U.S.A
cond_ab = abbrToPopToAreas['state/region'] == 'USA'

abbrToPopToAreas['area (sq. mi)'][cond_ab] = total_area
abbrToPopToAreas.isnull().sum()
# 資料處理完畢後結果:
state            0
state/region     0
ages             0
year             0
population       0
area (sq. mi)    0
dtype: int64

# 現在的表已經完全融合完成了
# 現在可以進行分析了

找出2010年全民人口資料, df.query()

abbrToPopToAreas_2010 = abbrToPopToAreas.query('year == 2010 & ages == "total"')
abbrToPopToAreas_2010.head()
# 結果如下:

這裡寫圖片描述

以state作為列索引

# 工作中會使用id作為列的索引
# set_index()
abbrToPopToAreas_2010.set_index('state', inplace=True)
abbrToPopToAreas_2010.head()

這裡寫圖片描述

計算人口的密度, population / area (sq. mi)

density_2010 = abbrToPopToAreas_2010['population'] / abbrToPopToAreas_2010['area (sq. mi)']
density_2010
# 結果如下:

state
Alabama                   91.287603
Alaska                     1.087509
Arizona                   56.214497
Arkansas                  54.948667
California               228.051342
Colorado                  48.493718
Connecticut              645.600649
Delaware                 460.445752
District of Columbia    8898.897059
Florida                  286.597129
Georgia                  163.409902
Hawaii                   124.746707
Idaho                     18.794338
Illinois                 221.687472
Indiana                  178.197831
Iowa                      54.202751
Kansas                    34.745266
Kentucky                 107.586994
Louisiana                 87.676099
Maine                     37.509990
Montana                    6.736171
Nebraska                  23.654153
Nevada                    24.448796
New Hampshire            140.799273
New Jersey              1009.253268
New Mexico                16.982737
New York                 356.094135
North Carolina           177.617157
North Dakota               9.537565
Ohio                     257.549634
Oklahoma                  53.778278
Oregon                    39.001565
Maryland                 466.445797
Massachusetts            621.815538
Michigan                 102.015794
Minnesota                 61.078373
Mississippi               61.321530
Missouri                  86.015622
Pennsylvania             275.966651
Rhode Island             681.339159
South Carolina           144.854594
South Dakota              10.583512
Tennessee                150.825298
Texas                     93.987655
Utah                      32.677188
Vermont                   65.085075
Virginia                 187.622273
Washington                94.557817
West Virginia             76.519582
Wisconsin                 86.851900
Wyoming                    5.768079
Puerto Rico             1058.665149
United States             81.607845
dtype: float64

2010年的人口密度融合到表中

abbrToPopToAreas_2010['density_2010'] = density_2010
abbrToPopToAreas_2010.head()

這裡寫圖片描述

排序,找出人口密度最高的五個州¶

# sort_values 根據值來進行排序

abbrToPopToAreas_2010.sort_values(by='density_2010').tail()

這裡寫圖片描述

蘋果股票漲跌圖繪製

import pandas as pd
from pandas import Series, DataFrame
import matplotlib.pyplot as plt
import numpy as np

apple = pd.read_csv('../data/AAPL.csv')
apple.head()
# 結果如下:

這裡寫圖片描述

apple.dtypes
# 結果如下:
Date          object
Open         float64
High         float64
Low          float64
Close        float64
Adj Close    float64
Volume       float64
dtype: object  # 在這裡可以看見Date是object型別的

轉換一下data的資料型別

mysql 中有datetime pd .to_datetime()

apple['Date'] = pd.to_datetime(apple['Date'])
apple.dtypes
# 結果如下:
Date         datetime64[ns]
Open                float64
High                float64
Low                 float64
Close               float64
Adj Close           float64
Volume              float64
dtype: object    # Date的資料型別轉換為datetime64

apple.set_index('Date', inplace=True)
# 結果如下:

這裡寫圖片描述

繪製圖形

adj_plot = apple['Adj Close'].plot()
fig = adj_plot.get_figure()

# set_size_inches 設定圖片的大小, 單位是英寸
fig.set_size_inches(12,6)
# 結果如下:

這裡寫圖片描述

# 因為Volume這一列資料量級太大,不適合分析,故刪除
apple.drop('Volume', axis=1, inplace=True)
app = apple.plot()
fig1 = app.get_figure()
fig1.set_size_inches(12,6)

這裡寫圖片描述

資料分析與AI(五)pandas的資料拼接操作/美國各州人口分析/蘋果歷年股票曲線圖

pandas的拼接操作 pandas的拼接分為兩種: - 級聯: pd.concat, pd.append - 合併: pd.merge, pd.join 0. 回顧numpy的級聯 import numpy as np import pandas

Android版資料結構與演算法(五):LinkedHashMap核心原始碼徹底分析

上一篇基於雜湊表實現HashMap核心原始碼徹底分析分析了HashMap的原始碼，主要分析了擴容機制，如果感興趣的可以去看看，擴容機制那幾行最難懂的程式碼真是花費了我很大的精力。好了本篇我們分析一下HashMap的兒子LinkedHashMap的核心原始碼，提到LinkedHashMap做安卓的同學肯

機器學習與AI相關的資料

get pos 機器 post 機器學習 notes .com www .cn 機器學習與AI相關的資料： 1、 http://www.fast.ai/ 基礎學習 2、http://geek.ai100.com.cn/ 中文 3、http://geek.ai100.

Cris 的 Python 資料分析筆記 05：Pandas 資料讀取，索引，切片，計算，列整合，過濾，最值

Pandas 資料讀取，索引，切片，計算，列整合，過濾，最值文章目錄 Pandas 資料讀取，索引，切片，計算，列整合，過濾，最值 1. read_csv 函式 2. DataFrame 資料結構的常用

極客講堂之資料結構與演算法之美（一）：複雜度分析（上）

（本文根據極客講堂——資料結構與演算法之美專欄的問答區整理修改而成，如有侵權還希望聯絡我鴨~）一、什麼是複雜度分析？ 1.資料結構和演算法解決是“如何讓計算機更快時間、更省空間的解決問題”。 2.因此需從執行時間和佔用空間兩個維度來評估資料結構和演算法的效能。 3.分別

資料結構與算法系列課程之二：複雜度分析（上）

資料結構和演算法，本身就是要解決 “快” 和 “省” 的問題。考量的指標分別就是 “時間複雜度” 和 “空間複雜度”。時間複雜度表示程式碼執行時間隨著資料規模增長的變化趨勢，也叫漸進時間複雜度。空間複雜度，全稱漸進空間複雜度，表示演算法的儲存空間和資料規模之間的增長關

資料結構與演算法 (五) 選擇排序

1.演算法思想選擇排序的演算法思想是：每次從待排序的記錄中選出排序碼最小的記錄，再在剩下的記錄中選出次最小的記錄，重複這個選擇過程，直到完成全部排序 2.演算法實現 sort.h typedef int ElementType; struct

給出《Python資料分析與挖掘實戰大資料技術叢書》Aprior演算法另一種寫法

背景關聯規則應用，一般是為了尋求：已知某些項在一定概率下推匯出另一項，這樣的組合。當然在資料量比較小的時候，這樣的問題可以窮盡的，但是在資料量比較大時，搜尋將成為瓶頸。 Aprior演算法提出頻繁項

pandas 案例分析：美國各州人口資料分析

state Alabama 91.287603 Alaska 1.087509 Arizona 56.214497 Arkansas 54.948667 Calif

《資料結構與演算法》之資料結構簡介

資料結構=資料+結構，資料結構是計算機儲存、組織資料的方式。資料結構是指相互之間存在一種或多種特定關係的資料元素的集合。通常情況下，精心選擇的資料結構可以帶來更高的執行或者儲存效率。資料結構往往同高效的檢索演算法和索引技術有關。一、資料的邏輯結構：指反映資料元素之間的邏輯關係的資料結構，其中的

【Java】大話資料結構(17) 排序演算法(4) （歸併排序）資料結構與演算法合集資料結構與演算法合集

本文根據《大話資料結構》一書，實現了Java版的堆排序。更多：資料結構與演算法合集基本概念　　歸併排序：將n個記錄的序列看出n個有序的子序列，每個子序列長度為1，然後不斷兩兩排序歸併，直到得到長度為n的有序序列為止。　　歸併方法：每次在兩個子序列中找到較小的那一個賦值給合併序列（通過指標進行操

【Java】歸併排序的非遞迴實現資料結構與演算法合集資料結構與演算法合集

　　歸併排序可以採用遞迴方法（見：歸併排序），但遞迴方法會消耗深度位O(longn)的棧空間，使用歸併排序時，應該儘量使用非遞迴方法。本文實現了java版的非遞迴歸併排序。更多：資料結構與演算法合集思路分析　　遞迴排序的核心是merge(int[] arr, int start, int mid,

Spark（六）：SparkSQLAndDataFrames對結構化資料集與非結構化資料的處理

Spark（六）：SparkSQLAndDataFrames對結構化資料集與非結構化資料的處理如上轉載的這篇文章寫得不錯！！！一：簡單瞭解SparkSQL。 Spark SQL 是結構化的資料處理一個Spark模組。與基本的Spark RDD API不同，Spark S

【Java】大話資料結構(18) 排序演算法(5) （直接插入排序）資料結構與演算法合集資料結構與演算法合集

本文根據《大話資料結構》一書，實現了Java版的直接插入排序。更多：資料結構與演算法合集基本概念　　直接插入排序思路：類似撲克牌的排序過程，從左到右依次遍歷，如果遇到一個數小於前一個數，則將該數插入到左邊所有比自己大的數之前，也就是說，將該數前面的所有更大的數字都後移一位，空出來的位置放入該數。

網路爬蟲中Fiddler抓取PC端網頁資料包與手機端APP資料包

1 引言　　在編寫網路爬蟲時，第一步（也是極為關鍵一步）就是對網路的請求（request）和回覆（response）進行分析，尋找其中的規律，然後才能通過網路爬蟲進行模擬。瀏覽器大多也自帶有除錯工具可以進行抓包分析，但是瀏覽器自帶的工具比較輕量，複雜的抓包並不支援。且有時候需要編寫手機APP爬

python資料型別與c++，java資料型別區別

最近開始學習Python，都說最好的學習方式就是比較。從今天開始，用部落格來記錄Python和之前學習的C++、Java語言的區別，看看這是否是一個學習新語言的好途徑。 C++的支援的基本資料型別：bool、char、wchar_t、short、int、lon

資料結構與演算法：順序串基本操作

#include "iostream"using namespace std;#define MaxSize 100typedef struct{char data[MaxSize];int length;}SqString;void Assign(SqString &

《資料結構與演算法》-單鏈表基本操作的C語言實現

最近在學演算法內容，發現很多演算法依賴於基本的資料結構，所以從新溫習資料結構，記錄一下，以後知識點忘記可以提醒自己哪裡比較容易出錯。所用教材《資料結構與演算法分析》by Mark Allen Weiss 《資料結構》（C語言

Java資料型別與MySql中的資料型別對映

mysql資料庫 JDBC 對照型別名稱顯示長度資料庫型別 JAVA型別 JDBC型別索引(int) 描述 VARCHAR L+

資料結構與演算法之常用資料結構

# 常用資料結構 * 陣列、字串 * 連結串列 * 棧 * 佇列 * 雙端佇列 * 樹 ## 陣列、字串（Array & String） **字串轉化** 陣列和字串是最基本的資料結構，在很多程式語言中都有著十分相似的性質，而圍繞著它們的演算法面試題也是最多的。很多時候，在分析字串相關面

資料分析與AI(五)pandas的資料拼接操作/美國各州人口分析/蘋果歷年股票曲線圖

pandas的拼接操作

0. 回顧numpy的級聯

1. 使用pd.concat()級聯

1) 簡單級聯

2) 不匹配級聯

3) 使用append()函式新增

2. 使用pd.merge()合併

1) 一對一合併

how的取值 : {‘left’, ‘right’, ‘outer’, ‘inner’}, default ‘inner’

2) 多對一|一對多合併

3) 多對多合併

4) key的規範化

6) 列衝突的解決

U.S.A人口分析

找出2010年全民人口資料, df.query()

以state作為列索引

計算人口的密度, population / area (sq. mi)

2010年的人口密度融合到表中

排序,找出人口密度最高的五個州¶

蘋果股票漲跌圖繪製

轉換一下data的資料型別

mysql 中有datetime pd .to_datetime()

繪製圖形

相關推薦