2.python資料分析與展示------Numpy資料存取與函式

阿新 • • 發佈：2019-01-02

1.資料的csv檔案存取

CSV (Comma‐Separated Value,逗號分隔值) ，CSV是一種常見的檔案格式，用來儲存批量資料

csv檔案:

np.savetxt(frame, array, fmt='%.18e', delimiter=None)

•frame : 檔案、字串或產生器，可以是.gz或.bz2的壓縮檔案
•array : 存入檔案的陣列
•fmt: 寫入檔案的格式，例如：%d %.2f %.18e

•delimiter : 分割字串，預設是任何空格

import numpy as np
a=np.arange(100).reshape(5,20)
np.savetxt('a.csv' 
,a,fmt='%d',delimiter=',')
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39
40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59
60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79
80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97 
,98,99
np.savetxt('b.csv',a,fmt='%.1f',delimiter=',')
0.0,1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,9.0,10.0,11.0,12.0,13.0,14.0,15.0,16.0,17.0,18.0,19.0
20.0,21.0,22.0,23.0,24.0,25.0,26.0,27.0,28.0,29.0,30.0,31.0,32.0,33.0,34.0,35.0,36.0,37.0,38.0,39.0
40.0,41.0,42.0,43.0,44.0,45.0,46.0,47.0,48.0,49.0,50.0,51.0,52.0,53.0,54.0,55.0,56.0,57.0,58.0,59.0
60.0,61.0,62.0,63.0,64.0,65.0 
,66.0,67.0,68.0,69.0,70.0,71.0,72.0,73.0,74.0,75.0,76.0,77.0,78.0,79.0
80.0,81.0,82.0,83.0,84.0,85.0,86.0,87.0,88.0,89.0,90.0,91.0,92.0,93.0,94.0,95.0,96.0,97.0,98.0,99.0

np.loadtxt(frame, dtype=np.float, delimiter=None，unpack=False)
•frame : 檔案、字串或產生器，可以是.gz或.bz2的壓縮檔案
•dtype: 資料型別，可選

•delimiter : 分割字串，預設是任何空格

•unpack : 如果True，讀入屬性將分別寫入不同變數

b=np.loadtxt('b.csv',delimiter=',')
print(b)
# [[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. 12. 13. 14. 15. 16. 17.
#   18. 19.]
#  [20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37.
#   38. 39.]
#  [40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57.
#   58. 59.]
#  [60. 61. 62. 63. 64. 65. 66. 67. 68. 69. 70. 71. 72. 73. 74. 75. 76. 77.
#   78. 79.]
#  [80. 81. 82. 83. 84. 85. 86. 87. 88. 89. 90. 91. 92. 93. 94. 95. 96. 97.
#   98. 99.]]
b=np.loadtxt('b.csv',dtype=np.int32,delimiter=',')
print(b)
# [[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
#  [20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39]
#  [40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59]
#  [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79]
#  [80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99]]

CSV的侷限性

CSV只能有效儲存一維和二維陣列

np.savetxt() np.loadtxt()只能有效存取一維和二維陣列

2.多維資料的存取

a.tofile(frame, sep='', format='%s')

•frame : 檔案、字串
•sep: 資料分割字串，如果是空串，寫入檔案為二進位制

•format : 寫入資料的格式

a =np.arange(100).reshape(5,10,2)
a.tofile("b.dat",sep=",",format='%d')
# 0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,\
# 26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,\
# 49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,\
# 73,74,75,76,77,78,79,80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99

np.fromfile(frame, dtype=float, count=‐1, sep='')

•frame : 檔案、字串
•dtype: 讀取的資料型別
•count : 讀入元素個數，‐1表示讀入整個檔案
•sep: 資料分割字串，如果是空串，寫入檔案為二進位制

a =np.arange(100).reshape(5,10,2)
a.tofile("b.dat",sep=",",format='%d')
c =np.fromfile('b.dat',dtype=np.int32,sep=',')
print(c)
# [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
#  24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
#  48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
#  72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
#  96 97 98 99]
c =np.fromfile('b.dat',dtype=np.int32,sep=',').reshape(5,10,2)
print(c)
# [[[ 0  1]
#   [ 2  3]
#   [ 4  5]
#   [ 6  7]
#   [ 8  9]
#   [10 11]
#   [12 13]
#   [14 15]
#   [16 17]
#   [18 19]]
#
#  [[20 21]
#   [22 23]
#   [24 25]
#   [26 27]
#   [28 29]
#   [30 31]
#   [32 33]
#   [34 35]
#   [36 37]
#   [38 39]]
#
#  [[40 41]
#   [42 43]
#   [44 45]
#   [46 47]
#   [48 49]
#   [50 51]
#   [52 53]
#   [54 55]
#   [56 57]
#   [58 59]]
#
#  [[60 61]
#   [62 63]
#   [64 65]
#   [66 67]
#   [68 69]
#   [70 71]
#   [72 73]
#   [74 75]
#   [76 77]
#   [78 79]]
#
#  [[80 81]
#   [82 83]
#   [84 85]
#   [86 87]
#   [88 89]
#   [90 91]
#   [92 93]
#   [94 95]
#   [96 97]
#   [98 99]]]
a =np.arange(100).reshape(5,10,2)
a.tofile("b.dat",format='%d')
c=np.fromfile("b.dat",dtype=np.int32).reshape(5,10,2)
print(c)
# [[[ 0  1]
#   [ 2  3]
#   [ 4  5]
#   [ 6  7]
#   [ 8  9]
#   [10 11]
#   [12 13]
#   [14 15]
#   [16 17]
#   [18 19]]
# ...
# [[80 81]
#   [82 83]
#   [84 85]
#   [86 87]
#   [88 89]
#   [90 91]
#   [92 93]
#   [94 95]
#   [96 97]
#   [98 99]]]

注意：

該方法需要讀取時知道存入檔案時陣列的維度和元素型別，a.tofile()和np.fromfile()需要配合使用,可以通過元資料檔案來儲存額外資訊

3.Numpy便捷檔案讀取

np.save(fname, array) 或np.savez(fname, array)

•fname: 檔名，以.npy為副檔名，壓縮副檔名為.npz

•array : 陣列變數

np.load(fname)

•fname: 檔名，以.npy為副檔名，壓縮副檔名為.npz

a=np.arange(100).reshape(5,10,2)
np.save("a.npy",a)
# 揘UMPY v
# {'descr': '<i4', 'fortran_order': False, 'shape': (5, 10, 2), }
#                                                    
# !   "   #   $   %   &   '   (   )   *   +   ,   -   .   /   0   1   2" \
#     "   3   4   5   6   7   8   9   :   ;   <   =   >   ?   @   A   B   C" \
#     "   D   E   F   G   H   I   J   K   L   M   N   O   P   Q   R   S   T" \
#     "   U   V   W   X   Y   Z   [   \   ]   ^   _   `   a   b   c
b=np.load("a.npy")
print(b)

4.Numpy的隨機函式

NumPy的random子庫

np.random.rand()

np.random.randn()

np.random.randint()

import numpy as np
a =np.random.rand(3,4,5)
print(a)
# [[[0.11923456 0.0080324  0.23576131 0.71490196 0.39313982]
#   [0.26944438 0.30595366 0.89433112 0.76073646 0.54988195]
#   [0.58136344 0.82684317 0.08892499 0.96461801 0.10869441]
#   [0.48035625 0.58082037 0.97235769 0.83626598 0.77352449]]
#
#  [[0.05019939 0.69692701 0.5197847  0.14322148 0.80999927]
#   [0.09298827 0.49460859 0.9621793  0.38776821 0.37452434]
#   [0.13729232 0.50410236 0.68394837 0.87087505 0.33721868]
#   [0.32834593 0.7600151  0.8137906  0.03984698 0.81580278]]
#
#  [[0.82580339 0.03564352 0.55698346 0.44198408 0.69197987]
#   [0.78329794 0.8449475  0.68260885 0.35188764 0.13075481]
#   [0.11841985 0.07254895 0.34286141 0.86560175 0.2005601 ]
#   [0.41852062 0.63877623 0.33749892 0.98977597 0.61811358]]]
sn =np.random.randn(3,4,5)
print(sn)
# [[[-1.29145587 -0.02309264  1.02447127  0.51065452 -0.01289186]
#   [ 0.16930873 -0.80807135 -1.33109108 -0.29476181  3.0812429 ]
#   [ 0.26575456 -1.01242421 -2.10002667 -0.38129533  0.11584166]
#   [-1.5870124   1.2326421  -0.38786647 -1.26054727  1.38201501]]
#
#  [[ 0.0727602  -0.50899469  0.21616575 -0.32233134  0.35653899]
#   [ 1.15315991 -0.08415659 -0.01346529 -1.6210397  -0.18992538]
#   [-0.06780673  0.20946401 -0.42592983  0.22779739  1.27193371]
#   [ 2.9091403  -0.55126307 -0.36063733 -0.32533772 -0.22111197]]
#
#  [[ 0.14910911  0.27918515  2.09298654  0.1967028  -0.45330462]
#   [-0.56676479 -0.14943735 -0.17003379 -1.1706462   0.56048001]
#   [ 0.2485423  -1.02440498 -0.84386213  0.47372249 -0.33259582]
#   [ 1.16471167 -0.20821131  1.50395877  0.9741344  -0.27076424]]]
b =np.random.randint(100,200,(3,4))
print(b)
# [[122 102 149 133]
#  [168 185 139 162]
#  [163 143 173 122]]
np.random.seed(10)
print(np.random.randint(100,200,(3,4)))
#執行兩次結果一樣
# [[109 115 164 128]
#  [189 193 129 108]
#  [173 100 140 136]]

a=np.random.randint(100,200,(3,4))
print(a)
# [[176 178 105 120]
#  [178 176 155 130]
#  [111 110 168 198]]
np.random.shuffle(a)
print(a)
np.random.shuffle(a)
print(a)
# [[148 155 198 115]
#  [150 115 117 147]
#  [146 117 198 114]]
# [[150 115 117 147]
#  [148 155 198 115]
#  [146 117 198 114]]
print(a)
print(np.random.permutation(a))
print(a)
# [[163 155 163 173]
#  [174 108 165 194]
#  [135 158 121 196]]
# [[174 108 165 194]
#  [163 155 163 173]
#  [135 158 121 196]]
# [[163 155 163 173]
#  [174 108 165 194]
#  [135 158 121 196]]
b=np.random.randint(100,200,(8,))
print(b)
# [102 128 152 157 176 137 145 172]
print(np.random.choice(b,(3,2)))
# [[116 116]
#  [168 137]
#  [162 116]]
print(np.random.choice(b,(3,2),replace=False))
# [[141 194]
#  [130 119]
#  [116 134]]
print(np.random.choice(b,(3,2),p=b/np.sum(b)))
# [[113 162]
#  [113 149]
#  [151 113]]

u =np.random.uniform(0,10,(3,4))
print(u)
# [[5.46036254 6.12551993 5.53542549 7.72189327]
#  [3.43793947 9.94257227 3.15125202 3.60695433]
#  [5.67253129 5.95136365 0.79214474 9.264223  ]]
n =np.random.normal(10,5,(3,4))
print(n)
# [[ 2.53432016 12.77204898 15.57069479 14.18012267]
#  [12.62327262 16.08612479  9.45541684  7.99660799]
#  [ 8.9902546  17.84417588  7.42343768  9.52946522]]

5. Numpy的統計函式

NumPy直接提供的統計類函式

np.std()

np.var()

np.average()

import numpy as np
a =np.arange(15).reshape(3,5)
print(a)
# [[ 0  1  2  3  4]
#  [ 5  6  7  8  9]
#  [10 11 12 13 14]]
print(np.sum(a))
# 105
print(np.mean(a,axis=1))
# [ 2.  7. 12.]
print(np.mean(a,axis=0))
# [5. 6. 7. 8. 9.]
print(np.average(a,axis=0,weights=[10,5,1]))
# [2.1875 3.1875 4.1875 5.1875 6.1875]
#4.1875=2*10+7*5+1*12/(10+5+1)=4.1875
print(np.std(a))
# 4.320493798938574
print(np.var(a))
# 18.666666666666668

b=np.arange(15,0,-1).reshape(3,5)
print(b)
# [[15 14 13 12 11]
#  [10  9  8  7  6]
#  [ 5  4  3  2  1]]
print(np.max(b))
#15
print(np.argmax(b))
#0
#扁平化後的下標
print(np.unravel_index(np.argmax(b),b.shape))
#重塑成多維下標
#(0, 0)
print(np.ptp(b))
#14
print(np.median(b))
#8.0

6.Numpy的梯度函式

import numpy as np
a =np.random.randint(0,20,(5))
print(a)
#[ 9 18  1  3 12]
print(np.gradient(a))
# [ 9.  -4.  -7.5  5.5  9. ]
#-4=(1-9)/2  存在兩側值
#9=(12-3)/1 只有一側值
c=np.random.randint(0,50,(3,5))
print(c)
print(np.gradient(c))
#[[22 11 18  0 15]
#  [19 23 16 30 24]
#  [24 36 20 24 40]]
#最外層維度的梯度
# [array([[-3. , 12. , -2. , 30. ,  9. ],
#        [ 1. , 12.5,  1. , 12. , 12.5],
#        [ 5. , 13. ,  4. , -6. , 16. ]]), 
# 第二層維度的梯度
# array([[-11. ,  -2. ,  -5.5,  -1.5,  15. ],
#        [  4. ,  -1.5,   3.5,   4. ,  -6. ],
#        [ 12. ,  -2. ,  -6. ,  10. ,  16. ]])]

2.python資料分析與展示------Numpy資料存取與函式

1.資料的csv檔案存取CSV (Comma‐Separated Value,逗號分隔值) ，CSV是一種常見的檔案格式，用來儲存批量資料csv檔案: np.savetxt(frame, array, fmt='%.18e', delimite

1.python資料分析與展示----Numpy

1.資料的維度一維資料：一維資料由對等關係的有序或無序資料構成，採用線性方式組織，如： 3.1413, 3.1398, 3.1404, 3.1401, 3.1349, 3.1376對應列表、陣列和集合等概念列

【MOOC】Python資料分析與展示-北京理工大學-【第二週】資料分析之展示

單元4：matplotlib庫入門寫在前面：matplotlib庫非常複雜，我們沒必要花時間去學習所有函式，對於該庫，應該採用：根據我們已有的資料，查詢文件或搜尋，來即時選擇可實現目的的函式，以實踐指導理論學習。 Matplotlib庫由各種視覺化類構

python資料分析處理庫-Pandas資料讀取、索引與計算

Pandas資料讀取、索引與計算 Pandas資料結構為DataFrame，裡面可以同時是int、float、object（string型別時）、datatime、bool資料型別 import p

利用python進行資料分析-----第二篇 Numpy 陣列向量計算索引切片轉置軸對換檔案輸入輸出

目錄布林值索引花式索引其他函式排序線性代數隨機數生成 Numpy簡介 NumPy是一種通用的陣列處理軟體包，旨在有效地操縱任意記錄的大型多維陣列，而不會為小

Python資料分析與機器學習-Python庫分析科比生涯資料

原始碼下載：http://download.csdn.net/download/adam_zs/10222492 import matplotlib.pyplot as plt import pandas as pd import numpy as np '''科比生涯

python資料分析與挖掘學習筆記（6）-電商網站資料分析及商品自動推薦實戰與關聯規則演算法

這一節主要涉及到的資料探勘演算法是關聯規則及Apriori演算法。由此展開電商網站資料分析模型的構建和電商網站商品自動推薦的實現，並擴充套件到協同過濾演算法。關聯規則最有名的故事就是啤酒與尿布的故事，非常有效地說明了關聯規則在知識發現和資料探勘中起的作用和意義。其中有

Python資料分析模組安裝---Numpy、Pandas、Matplotlib

如果是沒有python基礎的同學，建議可以直接下載安裝 anaconda，裡面已經集成了各種資料分析所需模組，這裡不做贅述。下載地址：https://www.continuum.io/downloads/ 下面來介紹用python安裝以及利用python的pip安裝各個

python/pandas資料分析（十五）-聚合與分組運算例項

用特定於分組的值填充缺失值用平均值去填充nan s=pd.Series(np.random.randn(6)) s[::2]=np.nan s 0 NaN 1 -0.1181

【python資料分析(一)】Numpy基礎及基本應用

一.資料處理的一般流程：資料收集—》資料預處理—》資料處理—》資料展示資料收集：網路爬蟲，公開資料集，其他途徑收集的資料資料預處理：歸一化，二值化，維度變換，去重，無效資料過濾資料處理：資料排序，資料查詢，資料統計分析展示：列表，圖表，動態互動圖形

數據分析與展示——NumPy數據存取與函數

iter 概率屬性不改變均值 txt mean 寫入文件註意 NumPy庫入門 NumPy數據存取和函數數據的CSV文件存取 CSV文件 CSV（Comma-Separated Value,逗號分隔值）是一種常見的文件格式，用來存儲批量數據。 np.savetx

《利用python進行資料分析》————MovieLens 1M資料集

[本次資料分析所用到的資料集連結] (http://github.com/wesm/pydata-book) 先使用pandas.read_table將每個表載入到一個pandas.DataFrame物件中： import pandas as pd #讓展示的內容少一點 pd.opti

Python地學分析 — GDAL讀取HDF資料

歡迎關注博主的微信公眾號：“智慧遙感”。該公眾號將為您奉上Python地學分析、爬蟲、資料分析、Web開發、機器學習、深度學習等熱門原始碼。本人的GitHub程式碼資料主頁（持續更新中，多給Star，多Fork）： https://github.com/xbr2017

【資料分析】：Numpy基礎：陣列和向量運算

☆Numpy（Numerical Python）是高效能科學計算和資料分析的基礎包，它是幾乎所有資料分析高階工具的構建基礎。 ndarry ,一個具有向量算數運算和複雜廣播能力的快速且節省空間的多維陣列。用於對整組資料進行快速運算的標準數學函式（無需編寫迴

pyecharts資料分析及展示

僅僅從網上爬下資料當然是不夠用的，主要還得對資料進行分析與展示，大部分人都看重薪資，但是薪資資料有的是*k/月，有的是*萬/月，還有*萬/年等等，就要對資料進行清理將所有單位統一化，全部換算成統一單位，然後分類薪資範圍，在計算各個範圍的數量，最後繪圖展示 import pymysql im

利用Python進行資料分析_Pandas_處理缺失資料

申明：本系列文章是自己在學習《利用Python進行資料分析》這本書的過程中，為了方便後期自己鞏固知識而整理。 1 讀取excel資料 import pandas as pd import numpy as np file = 'D:\example.xls' df = pd.DataFr

《利用Python進行資料分析》——Chapter9：資料聚合和分組

對資料集進行分組並對各組應用一個函式，這是資料分析的一個重要環節，將資料集準備好後，接下來的任務就是計算分組統計或深成透視表 GroupBy技術(分組) 建立一個GroupBy物件，再呼叫GroupBy的各種方法計算相關資料 df = pd.DataFrame(

利用Python進行資料分析【01】-資料型別及結構

Python資料型別詳解 Python基本資料型別一般分為:數字、字串、列表、元組、字典、集合這六種基本資料型別。下面分別來介紹這幾種資料型別基本用法。目錄數字—>int 類字串 —>str類列表—>list類元組—>tupl

《BI那點兒事》三國資料分析系列——蜀漢五虎上將與魏五子良將武力分析，絕對的經典分析

獻給廣大的三國愛好者們，希望喜歡三國的朋友一起討論，加深對傳奇三國時代的瞭解資料分析基礎概念：集中趨勢分析是指在大量測評資料分佈中，測評資料向某點集中的情況。總體（population）是指客觀存在的，並在同一性質的基礎上結合起來的許多個別單位的整體，即具有某一特性的一類事物的全體，又叫母體或全域。簡單地

《python資料分析讀書筆記》--- 資料探索(一)

前言當收集到初步的樣本資料集後，需要對資料從數據質量分析和資料特徵分析兩個方面進行探索分析，其中，資料質量分析要求我們先檢測資料的是否存在缺失值和異常值；而資料特徵分析要求我們在資料探勘建模前，通過頻率分佈分析，對比分析，帕斯托分析，週期性分析，相關性分析等

2.python資料分析與展示------Numpy資料存取與函式

1.資料的csv檔案存取

2.多維資料的存取

注意：

3.Numpy便捷檔案讀取

4.Numpy的隨機函式

5. Numpy的統計函式

6.Numpy的梯度函式

相關推薦