【python資料處理】numpy

阿新 • • 發佈：2018-12-14

numpy

array與 python list很像

1.第一種建立方式可用np.array方法將list轉化成numpy array

import numpy as np
test_1=np.array([92, 94, 88, 91, 87])

my_list = [1, 2, 3, 4, 5, 6]
my_array = np.array(my_list)

第二種建立方式將csv匯入成array


test_2 = np.genfromtxt('test_2.csv', delimiter=',')

2.array相對於list的優越性

通過在陣列本身上執行操作，可以對陣列中的每個元素執行操作（例如新增）。

元素的加減乘除冪開方不需要for迴圈可以直接進行

# With a list
l = [1, 2, 3, 4, 5]
l_plus_3 = []
for i in range(len(l)):
    l_plus_3.append(l[i] + 3)
# With an array
a = np.array(l)
a_plus_3 = a + 3

具有相同元素的array之間的相加可以直接進行，不是拼接，是每一個元素的相加這種，

import numpy as np

test_1 = np.array([92, 94, 88, 91, 87])
test_2 = np.array([79, 100, 86, 93, 91])
test_3 = np.array([87, 85, 72, 90, 92])
test_3_fixed = test_3 + 2
total_grade=test_1+test_2+test_3_fixed
final_grade=total_grade/3
print(final_grade)

同樣不用遍歷就能挑選出陣列中的值

import numpy as np

porridge = np.array([79, 65, 50, 63, 56, 90, 85, 98, 79, 51])

cold = porridge[porridge < 60]

hot = porridge[porridge > 80]

just_right = porridge[(porridge > 60) & (porridge < 80)]

print(cold)
print(hot)
print(just_right)

3.具有相同元素個數的陣列可以組成二維陣列從二維陣列中取值類似一維

a =
np.array([[92, 94, 88, 91, 87],
          [79, 100, 86, 93, 91],
          [87, 85, 72, 90, 92]])

a[2,1]

#第一列
a[:,0]

#第一行
a[0,:]

4.function

1.mean

np.mean(array) 返回array的平均數

mean與邏輯運算返回百分比用mean而不是percentile

例如 np.mean(class_year>=2005) 返回陣列中大於2005 的比例相當於百分比

二維陣列計算mean

axis=1 表示行平均數 axis=0表示列平均數

total_mean=np.mean(allergy_trials)
print(total_mean)

trial_mean=np.mean(allergy_trials,axis=1)
print(trial_mean)

patient_mean=np.mean(allergy_trials,axis=0)
print(patient_mean)

2.sort 可以找出異常值

np.sort(array) 返回一個排序好的array

3.Median 不受異常值影響

np.median(array) 返回array中位數陣列元素個數為偶數則取中間兩個數平均數

4.percentile

一般來說一個array有五個節點0 25 50 75 100

np.percentile(array,40) 返回百分之40處的數因為median只能返回50%處的資料所以要有percentile

5.Standard Deviation 標準差標準差越大說明陣列與平均值相差越大

np.std(array) 返回標準差

6. np.random.normal(`loc,scale,size`) 隨機返回一組正態分佈的陣列

loc: 等於mean平均數 scale：等於標準差 size：次數

正態分佈一個標準差之內也就是 mean+- std 一般是68% 兩個標準差97% 三個99%

7.np.random.binomial（N,P,size) 返回一組二項分佈的陣列

二項分佈能有效幫助認識到時間發生的概率

N：樣本數量 P：成功概率 size:試驗次數

例：向日葵不開花的概率為10 ，問200株向日葵栽下去，20朵一下不開花的概率

experiments=np.random.binomial(200,0.1,5000)
prob=np.mean(experiments<20)
print(prob)

ceballos競選市長問題抽取的樣本越大越接近真實數值，當在10000人中抽取7000人調查時基本就是真實情況中心極限定理

import codecademylib
import numpy as np
from matplotlib import pyplot as plt

survey_responses = ['Ceballos', 'Kerrigan', 'Ceballos', 'Ceballos', 'Ceballos','Kerrigan', 'Kerrigan', 'Ceballos', 'Ceballos', 'Ceballos', 
'Kerrigan', 'Kerrigan', 'Ceballos', 'Ceballos', 'Kerrigan', 'Kerrigan', 'Ceballos', 'Ceballos', 'Kerrigan', 'Kerrigan', 'Kerrigan', 'Kerrigan', 'Kerrigan', 'Kerrigan', 'Ceballos', 'Ceballos', 'Ceballos', 'Ceballos', 'Ceballos', 'Ceballos',
'Kerrigan', 'Kerrigan', 'Ceballos', 'Ceballos', 'Ceballos', 'Kerrigan', 'Kerrigan', 'Ceballos', 'Ceballos', 'Kerrigan', 'Kerrigan', 'Ceballos', 'Ceballos', 'Kerrigan', 'Kerrigan', 'Kerrigan', 'Kerrigan', 'Kerrigan', 'Kerrigan', 'Ceballos',
'Kerrigan', 'Kerrigan', 'Ceballos', 'Ceballos', 'Ceballos', 'Kerrigan', 'Kerrigan', 'Ceballos', 'Ceballos', 'Kerrigan', 'Kerrigan', 'Ceballos', 'Ceballos', 'Kerrigan', 'Kerrigan', 'Kerrigan', 'Kerrigan', 'Kerrigan', 'Kerrigan', 'Ceballos']
total_ceballos=survey_responses.count('Ceballos')
print(total_ceballos)
percentage_ceballos=100*total_ceballos/len(survey_responses)
print(percentage_ceballos)

possible_surveys=np.random.binomial(70,0.54,size=10000)/70.
plt.hist(possible_surveys,range=(0,1), 
bins=20)
plt.show()
ceballos_loss_surveys=np.mean(possible_surveys<0.5)
print(ceballos_loss_surveys)
large_survey=np.random.binomial(7000,0.54,10000)/7000.
ceballos_loss_new=np.mean(large_survey<0.5)
print(ceballos_loss_new)

8.np.random.choice(array, size, replace=False)

從一組樣本衝隨機抽取size個成為新的樣本

【python資料處理】numpy

numpy array與 python list很像 1.第一種建立方式可用np.array方法將list轉化成numpy array import numpy as np test_1=np.array([92, 94, 88, 91, 87]) my_list = [

【python資料處理】seaborn

簡化了matplotlib 不存在直方圖 Seaborn是一個Python資料視覺化庫，它提供簡單的程式碼，為統計探索和洞察建立優雅的視覺化。Seaborn基於Matplotlib，但在幾個方面改進了Matplotlib： Seaborn提供更具視覺吸引力的繪圖風格和簡潔的

【python資料處理】pandas多表操作

pandas多表操作 1.Inner Merge 合併dataframe pd.merge()將兩張dataframe合成一張除了pandas的方法,each DataFrame都有自己的merge()方法查詢類似於SELECT WHERE res

【python資料處理】Lists

1.Lists [x,x,x,x] 可以使用.append 或者 + 來連線 heights = [61, 70, 67, 64] list 以逗號間隔 ints_and_strings = [1, 2, 3, 'four', 'five']

【python資料處理】pandas行列操作及聚合

1.列操作 apply df.coulumn.function() (df.count.mean()這種) 例子：將Name列全部大寫 from string import upper df['Name'] = df.Name.a

【python資料處理】pandas基礎操作

基礎操作 1.建立表 dataframe 類似於csv 與SQL表方法1 import codecademylib import pandas as pd df1 = pd.DataFrame({ 'Product ID': [1, 2

【python資料處理】jieba分詞

jieba（結巴）是一個強大的分詞庫，完美支援中文分詞三種分詞模式 import jieba s = u'我想和女朋友一起去北京故宮博物院參觀和閒逛。' cut = jieba.cut(s) #三種模式 print( '【Output】精確模式：') prin

【python資料處理】matplotlib

最近學習python與資料處理時，發現數據總是很生硬，所以我便開始學習python一個強大的庫matplotlib，可以有效將資料轉化為直觀的圖形。 1.一些公共的方法標籤控制 Modify Ticks 調整橫縱座標值注意要修改座標名為sting型別時要先使用plt.su

【python資料分析】numpy的基本使用方法

import numpy as np c=[] def numpysum(n): #0到（n-1）的列表 a=np.arange(n)**2 #生成一個0到（n-1）的列表，每個項再平方 b=np.arange(n)**3 #生成一個0到（n-

【Python資料分析】1rd-資料探索與資料預處理

《Python資料分析與挖掘實戰》讀書筆記之資料探索與資料預處理一、資料探索 Python中用於資料探索的庫主要是Pandas（資料分析）和Matplotlib（資料視覺化）資料分析內容資料質量分析缺失值分析異常值分析

【Python第三方包】Numpy

做個筆記 Numpy遇到的坑 reshape和T的區別 reshape和T的結果是不一樣的個人猜測：我一直覺得在np.array的資料結構裡，數字候是以一維線性儲存的形式儲存的，然後物件內部再維護了一個shape，然後用的時候根據shape去截斷這個數字序列，得到結果

【Python-資料讀取】讀取txt檔案每一行資料生成列表

好多時候我們要讀取txt檔案獲得資料，並把資料的按行或者按列存放到列表中，從而生成特徵和類別標籤。今天讀了好幾個都沒有成功，最後發現，資料間的分隔符十分重要，總結一下經驗。資料間的分隔符是空格讀取的程式碼如下所示： file=open('ll.txt') dataM

Python資料處理 | (一)Numpy入門

本篇部落格所有示例使用Jupyter NoteBook演示。示例程式碼下載：一、NumPy簡介本篇部落格將詳細的介紹NumPy。NumPy(Numerical Python)提供了高效儲存和操作密集資料快取的介面。在某些方面，NumPy陣列與Python內建的列

【python資料分析】波士頓房價分析小例子

一、匯入模組 %matplotlib inline #將生成的圖片嵌入網頁中 import matplotlib.pyplot as plt from sklearn import datasets from sklearn.feature_sele

【python影象處理】影象的濾波（ImageFilter類詳解）

在影象處理中，經常需要對影象進行平滑、銳化、邊界增強等濾波處理。在使用PIL影象處理庫時，我們通過Image類中的成員函式filter()來呼叫濾波函式對影象進行濾波，而濾波函式則通過ImageFil

【Python資料分析】簡單爬蟲，爬取知乎神回覆

歡迎加入Python學習交流QQ群：535993938 禁止閒聊！名額有限！非喜勿進！看知乎的時候發現了一個 “如何正確地吐槽” 收藏夾，

【python影象處理】影象的縮放、旋轉與翻轉

影象的幾何變換，如縮放、旋轉和翻轉等，在影象處理中扮演著重要的角色，python中的Image類分別提供了這些操作的介面函式，下面進行逐一介紹。 1、影象的縮放影象的縮放使用resize()成員函

python資料處理之numpy和pandas（上）

import numpy as np a = np.random.random((2,4)) print(a) print(np.sum(a)) print(np.max(a)) print(np.min(a)) print(np.sum(a,axis=1)) print(np.min(a,axis=0))

【海量資料處理】尋找最大/小的k個數

/****************************************************** 尋找k個最小的數方法：堆排序 ***************************************************/ #in

【python影象處理】影象的讀取、顯示與儲存

python作為機器學習和影象處理的利器，收到越來越多的推崇，特別是在影象處理領域，越來越多的研究和開發開始轉向使用python語言，下面就介紹python影象處理中最基本的操作，即影象的讀取顯示與儲

【python資料處理】numpy

numpy

array與 python list很像

1.第一種建立方式可用np.array方法將list轉化成numpy array

第二種建立方式將csv匯入成array

2.array相對於list的優越性

通過在陣列本身上執行操作，可以對陣列中的每個元素執行操作（例如新增）。

元素的加減乘除 冪 開方不需要for迴圈 可以直接進行

具有相同元素的array之間的相加可以直接進行，不是拼接，是每一個元素的相加這種，

同樣不用遍歷就能挑選出陣列中的值

3.具有相同元素個數的陣列可以組成二維陣列 從二維陣列中取值類似一維

4.function

1.mean

np.mean(array) 返回array的平均數

mean與邏輯運算 返回百分比 用mean而不是percentile

例如 np.mean(class_year>=2005) 返回陣列中大於2005 的比例 相當於百分比

二維陣列計算mean

axis=1 表示行平均數 axis=0表示列平均數

2.sort 可以找出異常值

np.sort(array) 返回一個排序好的array

3.Median 不受異常值影響

np.median(array) 返回array中位數 陣列元素個數為偶數則取中間兩個數平均數

4.percentile

一般來說一個array有五個節點0 25 50 75 100

np.percentile(array,40) 返回百分之40處的數 因為median只能返回50%處的資料 所以要有percentile

5.Standard Deviation 標準差 標準差越大說明陣列與平均值相差越大

np.std(array) 返回標準差

6. np.random.normal(loc,scale,size) 隨機返回一組正態分佈的陣列

loc: 等於mean平均數 scale：等於標準差 size：次數

正態分佈一個標準差之內 也就是 mean+- std 一般是68% 兩個標準差97% 三個99%

7.np.random.binomial（N,P,size) 返回一組二項分佈的陣列

二項分佈能有效幫助認識到時間發生的概率

N：樣本數量 P：成功概率 size:試驗次數

例： 向日葵不開花的概率為10 ，問200株向日葵栽下去，20朵一下不開花的概率

ceballos競選市長問題 抽取的樣本越大 越接近真實數值，當在10000人中抽取7000人調查時基本就是真實情況 中心極限定理

8.np.random.choice(array, size, replace=False)

相關推薦

元素的加減乘除冪開方不需要for迴圈可以直接進行

3.具有相同元素個數的陣列可以組成二維陣列從二維陣列中取值類似一維

mean與邏輯運算返回百分比用mean而不是percentile

例如 np.mean(class_year>=2005) 返回陣列中大於2005 的比例相當於百分比

np.median(array) 返回array中位數陣列元素個數為偶數則取中間兩個數平均數

np.percentile(array,40) 返回百分之40處的數因為median只能返回50%處的資料所以要有percentile

5.Standard Deviation 標準差標準差越大說明陣列與平均值相差越大

6. np.random.normal(`loc,scale,size`) 隨機返回一組正態分佈的陣列

正態分佈一個標準差之內也就是 mean+- std 一般是68% 兩個標準差97% 三個99%

例：向日葵不開花的概率為10 ，問200株向日葵栽下去，20朵一下不開花的概率

ceballos競選市長問題抽取的樣本越大越接近真實數值，當在10000人中抽取7000人調查時基本就是真實情況中心極限定理