資料分析——numpy庫常用基本操作
本人是一個數據分析的愛好者,由於腦子不夠靈光,所以決定通過寫部落格來記錄自己的學習過程。
百度許久,遍歷教程無數,發現做資料分析主要有一下的工具:
1、SAS:SAS(STATISTICAL ANALYSIS SYSTEM,簡稱SAS)公司開發的統計分析軟體,是一個功能強大的資料庫整合平臺。價格昂貴,銀行或者大企業才買的起,做離線的分析或者模型用。
2、SPSS:SPSS(Statistical Product and Service Solutions,統計產品與服務解決方案)是IBM公司推出的一系列用於統計學分析運算、資料探勘、預測分析和決策支援任務的產品,迄今已有40餘年的成長曆史,價格昂貴。
3、R/MATLAB:適合做學術性質的資料分析,在實際應用上需要額外轉換為Python或Scala來實現,而且MATLAB(MathWorks公司出品的商業數學軟體)是收費的。
4、Scala:是一門函數語言程式設計語言,熟練使用後開發效率較高,配合Spark適合大規模的資料分析和處理,Scala的執行環境是JVM。
5、Python:Python在資料工程領域和機器學習領域有很多成熟的框架和演算法庫,完全可以只用Python就可以構建以資料為中心的應用程式。在資料工程領域和機器學習領域,Python非常非常流行,學到的技術是自己的,免費思密達。
奈何窮光蛋一個,看來看去,之所以選擇基於Pytho進行資料分析的學習,主要還是因為免費這等接地氣的詞彙深得我心,說句實在話,學習程式設計對於我這工程類專業出身的人士,難於上青天,兩個月過去了,程式設計能力還是半桶水。好在終於是看懂了一些Python的語法,這幾天學到了numpy和pandas,基本操作記了又忘,我知道應該是我實際操作還不夠多,但我還是想做這麼一篇學習筆記記錄及鞏固所學內容。
說在前面,本筆記大多均摘自
1.建立矩陣
Numpy庫中的矩陣模組為ndarray物件,有很多屬性:T,data, dtype,flags,flat,imag,real,size,
itemsize,nbytes,ndim,shape,strides,ctypes,base等等。
1.1採用ndarray物件
import numpy as np #引入numpy庫 #建立一維的narray物件 a = np.array([1,2,3,4,5]) #建立二維的narray物件 a2 = np.array([[1,2,3,4,5],[6,7,8,9,10]]) #建立多維物件以其類推
1.2通過函式建立矩陣
1.2.1 arange
import numpy as np
a = np.arange(10) # 預設從0開始到10(不包括10),步長為1
print(a) # 返回 [0 1 2 3 4 5 6 7 8 9]
a1 = np.arange(5,10) # 從5開始到10(不包括10),步長為1
print(a1) # 返回 [5 6 7 8 9]
a2 = np.arange(5,20,2) # 從5開始到20(不包括20),步長為2
print(a2) # 返回 [ 5 7 9 11 13 15 17 19]
1.2.2 linspace
linspace()和matlab的linspace很類似,用於建立指定數量等間隔的序列,實際生成一個等差數列。
1 import numpy as np
2
3 a = np.linspace(0,10,5) # 生成首位是0,末位是10,含5個數的等差數列
4 print(a)
1.2.3 logspace
linspace用於生成等差數列,而logspace用於生成等比數列。
下面的例子用於生成首位是10的0次方,末位是10的2次方,含5個數的等比數列
1 import numpy as np
2
3 a = np.logspace(0,2,5)
4 print(a)
1.2.4 ones,zeros,eye,empty
ones建立全1矩陣
zeros建立全0矩陣
eye建立單位矩陣
empty建立空矩陣(實際有值)
import numpy as np
a_ones = np.ones((3,4)) # 建立3*4的全1矩陣
print(a_ones)
# 結果
[[ 1. 1. 1. 1.]
[ 1. 1. 1. 1.]
[ 1. 1. 1. 1.]]
a_zeros = np.zeros((3,4)) # 建立3*4的全0矩陣
print(a_zeros)
# 結果
[[ 0. 0. 0. 0.]
[ 0. 0. 0. 0.]
[ 0. 0. 0. 0.]]
a_eye = np.eye(3) # 建立3階單位矩陣
print(a_eye)
# 結果
[ 1. 0. 0.]
[ 0. 1. 0.]
[ 0. 0. 1.]]
a_empty = np.empty((3,4)) # 建立3*4的空矩陣
print(a_empty)
# 結果
[[ 1.78006111e-306 -3.13259416e-294 4.71524461e-309 1.94927842e+289]
[ 2.10230387e-309 5.42870216e+294 6.73606381e-310 3.82265219e-297]
[ 6.24242356e-309 1.07034394e-296 2.12687797e+183 6.88703165e-315]]
1.2.5 fromstring
fromstring()方法可以將字串轉化成ndarray物件,需要將字串數字化時這個方法比較有用,可以獲得字串的ascii碼序列。
1 a = "abcdef"
2 b = np.fromstring(a,dtype=np.int8) # 因為一個字元為8位,所以指定dtype為np.int8
3 print(b) # 返回 [ 97 98 99 100 101 102]
1.2.6 fromfunction
fromfunction()方法可以根據矩陣的行號列號生成矩陣的元素。
例如建立一個矩陣,矩陣中的每個元素都為行號和列號的和。
import numpy as np
def func(i,j):
return i+j
a = np.fromfunction(func,(5,6))
# 第一個引數為指定函式,第二個引數為列表list或元組tuple,說明矩陣的大小
print(a)
# 返回
[[ 0. 1. 2. 3. 4. 5.]
[ 1. 2. 3. 4. 5. 6.]
[ 2. 3. 4. 5. 6. 7.]
[ 3. 4. 5. 6. 7. 8.]
[ 4. 5. 6. 7. 8. 9.]]
#注意這裡行號的列號都是從0開始的
**
2.矩陣的操作
**
numpy中的ndarray物件過載了許多運算子,使用這些運算子可以完成矩陣間對應元素的運算。
如 +,-,*,/,%,**
2.1矩陣函式操作
2.1.1 常用數學運算(匯入numpy模組:import numpy as np)
矩陣函式 說明
np.sin(a) 對矩陣a中每個元素取正弦,sin(x)
np.cos(a) 對矩陣a中每個元素取餘弦,cos(x)
np.tan(a) 對矩陣a中每個元素取正切,tan(x)
np.arcsin(a) 對矩陣a中每個元素取反正弦,arcsin(x)
np.arccos(a) 對矩陣a中每個元素取反餘弦,arccos(x)
np.arctan(a) 對矩陣a中每個元素取反正切,arctan(x)
np.exp(a) 對矩陣a中每個元素取指數函式,ex
np.sqrt(a) 對矩陣a中每個元素開根號√x
如:求矩陣每個元素的sin值
import numpy as np
array=np.array([[1,2,3],
[4,5,6]])
print(np.sin(array))
#結果
# [[ 0.84147098 0.90929743 0.14112001]
# [-0.7568025 -0.95892427 -0.2794155 ]]
2.1.2矩陣乘法(點乘)
矩陣乘法必須滿足矩陣乘法的條件,即第一個矩陣的列數等於第二個矩陣的行數。
矩陣乘法的函式為 dot ,如果不明白點乘和叉乘可以找一本線性代數的書看看基礎。
import numpy as np
a1 = np.array([[1,2,3],[4,5,6]]) # a1為2*3矩陣
a2 = np.array([[1,2],[3,4],[5,6]]) # a2為3*2矩陣
print(a1.shape[1]==a2.shape[0]) # True, 滿足矩陣乘法條件
print(a1.dot(a2))
# a1.dot(a2)相當於matlab中的a1*a2
# 而python中的a1*a2相當於matlab中的a1.*a2
# 結果
[[22 28]
[49 64]]
2.1.3矩陣的轉置(transpose或T)
import numpy as np
array=np.array([[1,2,3],
[4,5,6]])
print(array.transpose())#或np.transpose(array)
print(array.T)
# 結果
# [[1 4]
# [2 5]
# [3 6]]
# transpose與T效果一樣
# [[1 4]
# [2 5]
# [3 6]]
2.1.4矩陣的逆
求矩陣的逆需要先匯入numpy.linalg,用linalg的inv函式來求逆。
矩陣求逆的條件是矩陣的行數和列數相同。
import numpy as np
import numpy.linalg as lg
a = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(lg.inv(a))
# 結果
[[ -4.50359963e+15 9.00719925e+15 -4.50359963e+15]
[ 9.00719925e+15 -1.80143985e+16 9.00719925e+15]
[ -4.50359963e+15 9.00719925e+15 -4.50359963e+15]]
a = np.eye(3) # 3階單位矩陣
print(lg.inv(a)) # 單位矩陣的逆為他本身
# 結果
[[ 1. 0. 0.]
[ 0. 1. 0.]
[ 0. 0. 1.]]
2.1.5最大值最小值
獲得矩陣中元素最大最小值的函式分別是max和min,可以獲得整個矩陣、行或列的最大最小值。
import numpy as np
array=np.array([[1,2,3],
[4,5,6]])
print(array.max())#結果為6
print(array.min())#結果為1
#同時還可以指定axis關鍵字,獲取行或列的最大、最小值
print(array.max(axis=0)) #x軸最大值,0,1分別代表行列
2.1.6平均值
獲得矩陣中元素的平均值可以通過函式mean()或average()。同樣地,可以獲得整個矩陣、行或列的平均值
import numpy as np
array=np.array([[1,2,3],
[4,5,6]])
print(array.mean())#結果為3.5
print(np.average(array))#結果為3.5
print(array.mean(axis=0))#行方向的平均值,同樣,0,1代表維度
2.1.7方差
方差的函式為var(),方差函式var()相當於函式mean(abs(x - x.mean())**2),其中x為矩陣。
import numpy as np
array=np.array([[1,2,3],
[4,5,6]])
print(array.var())#結果為2.91666666667
#同樣可通過axis指定維度0,1分別代表行列,
print(array.var(axis=0))
# 結果
# [ 2.25 2.25 2.25]
2.1.8標準差
標準差的函式為std()。
std()相當於sqrt(mean(abs(x - x.mean())**2)),或相當於sqrt(x.var())。
import numpy as np
array=np.array([[1,2,3],
[4,5,6]])
print(array.std())#結果為1.70782512766
#同樣可通過axis指定維度0,1分別代表行列,
print(array.std(axis=0))
# 結果
# [ 1.5 1.5 1.5]
2.1.9中位數or中值
中值指的是將序列按大小順序排列後,排在中間的那個值,如果有偶數個數,則是排在中間兩個數的平均值。
例如序列[5,2,6,4,2],按大小順序排成 [2,2,4,5,6],排在中間的數是4,所以這個序列的中值是4。
又如序列[5,2,6,4,3,2],按大小順序排成 [2,2,3,4,5,6],因為有偶數個數,排在中間兩個數是3、4,所以這個序列中值是3.5。
中值的函式是median(),呼叫方法為numpy.median(x,[axis]),axis可指定軸方向,預設axis=None,對所有數去中值。
import numpy as np
array=np.array([[1,2,3],
[4,5,6]])
print(np.median(array))#結果:3.5
#指定維度
print(np.median(array,axis=0))
#結果
# [ 2.5 3.5 4.5]
2.1.10 求和
矩陣求和的函式是sum(),可以對行,列,或整個矩陣求和。
import numpy as np
array=np.array([[1,2,3],
[4,5,6]])
print(array.sum())#結果:21
#指定維度
print(array.sum(axis=0))
#結果
# [5 7 9]
2.1.11 累計和或累加
某位置累積和指的是該位置之前(包括該位置)所有元素的和。
例如序列[1,2,3,4,5],其累計和為[1,3,6,10,15],即第一個元素為1,第二個元素為1+2=3,……,第五個元素為1+2+3+4+5=15。
矩陣求累積和的函式是cumsum(),可以對行,列,或整個矩陣求累積和。
import numpy as np
a = np.array([[1,2,3],[4,5,6]])
print(a.cumsum()) # 對整個矩陣求累積和
# 結果 [ 1 3 6 10 15 21]
print(a.cumsum(axis=0)) # 對行方向求累積和
# 結果
[[1 2 3]
[5 7 9]]
print(a.cumsum(axis=1)) # 對列方向求累積和
# 結果
[[ 1 3 6]
[ 4 9 15]]
2.2矩陣的擷取
2.2.1 按行列擷取
矩陣的擷取和list相同,可以通過[](方括號)來擷取。
import numpy as np
a = np.array([[1,2,3,4,5],[6,7,8,9,10]])
print(a[0:1]) #擷取第一行,返回 [[1 2 3 4 5]]
print(a[1,2:5]) #擷取第二行,第三、四、五列,返回 [8 9 10]
print(a[1,:]) #擷取第二行,返回 [ 6 7 8 9 10]
2.2.2按條件擷取
import numpy as np
a = np.array([[1,2,3,4,5],[6,7,8,9,10]])
b = a[a>6] # 擷取矩陣a中大於6的元素,範圍的是一維陣列
print(b) # 返回 [ 7 8 9 10]
# 其實布林語句首先生成一個布林矩陣,將布林矩陣傳入[](方括號)實現擷取
print(a>6)
# 返回
[[False False False False False]
[False True True True True]]
按條件擷取應用較多的是對矩陣中滿足一定條件的元素變成特定的值。
例如將矩陣中大於6的元素變成0。
import numpy as np
a = np.array([[1,2,3,4,5],[6,7,8,9,10]])
print(a)
#開始矩陣為
[[ 1 2 3 4 5]
[ 6 7 8 9 10]]
a[a>6] = 0
print(a)
#大於6清零後矩陣為
[[1 2 3 4 5]
[6 0 0 0 0]]
2.2.3 clip擷取
clip(矩陣,min,max)#返回值:所有小於min的值都等於min,所有大於max的值都等於max。
import numpy as np
array=np.array([[1,2,3],
[4,5,6]])
print(array.clip(2,4))
#結果
# [[2 2 3]
# [4 4 4]]
2.3 矩陣的合併
矩陣的合併可以通過numpy中的hstack方法和vstack方法實現
import numpy as np
a1 = np.array([[1,2],[3,4]])
a2 = np.array([[5,6],[7,8]])
#!注意 引數傳入時要以列表list或元組tuple的形式傳入
print(np.hstack([a1,a2]))
#橫向合併,返回結果如下
[[1 2 5 6]
[3 4 7 8]]
print(np.vstack((a1,a2)))
#縱向合併,返回結果如下
[[1 2]
[3 4]
[5 6]
[7 8]]
矩陣的合併也可以通過concatenatef方法。
np.concatenate( (a1,a2), axis=0 ) 等價於 np.vstack( (a1,a2) )
np.concatenate( (a1,a2), axis=1 ) 等價於 np.hstack( (a1,a2) )
說在最後,本人的Python環境及IDE如下:
Python環境
Anaconda(水蟒):是一個科學計算軟體發行版,集成了大量常用擴充套件包的環境,包含了 conda、Python 等 180 多個科學計算包及其依賴項,並且支援所有作業系統平臺。去官網下載就可以啦。
安裝包:pip install xxx,conda install xxx
解除安裝包:pip uninstall xxx,conda uninstall xxx
升級包:pip install upgrade xxx,conda update xxx
IDE
Jupyter Notebook:
命令:jupyter notebook
Anaconda自帶,無需單獨安裝
實時檢視執行過程
基本的web編輯器(本地)
.ipynb 檔案分享
可互動式
記錄歷史執行結果
IPython:
命令:ipython
Anaconda自帶,無需單獨安裝
Python的互動式命令列 Shell
可互動式
記錄歷史執行結果
及時驗證想法
Spyder:
命令:spyder
Anaconda自帶,無需單獨安裝
完全免費,適合熟悉Matlab的使用者
功能強大,使用簡單的圖形介面開發環境
PyCharm:
需要自行安裝:官網下載
PyCharm,JetBrains的精品,全平臺支援,不多解釋了。