python 資料處理 pandas+numpy 等使用技巧

阿新 • • 發佈：2021-01-11

python 資料處理

- python 資料處理 pandas使用技巧最近在處理一些資料，發現以前所使用的一些方法可能比較笨拙，python 之中有一些比較方便的資料處理函式和技巧，所以寫下此篇部落格記錄一下
1、資料轉換：Dict TO List, TO Dataframe
2、資料匹配
3、fillna()函式的使用
4、tile()函式的使用
5、sum()函式的使用

python 資料處理 pandas使用技巧最近在處理一些資料，發現以前所使用的一些方法可能比較笨拙，python 之中有一些比較方便的資料處理函式和技巧，所以寫下此篇部落格記錄一下

1、資料轉換：Dict TO List, TO Dataframe

dict_a= dict()
for i in range(11):
    dict_a['blk_%d'%i]=10-i
print(dict_a)

建立如下字典：

>>>
{'blk_0': 10, 'blk_1': 9, 'blk_2': 8, 'blk_3': 7, 'blk_4': 6, 'blk_5': 5, 'blk_6': 4, 'blk_7': 3, 'blk_8': 2, 'blk_9': 1, 'blk_10': 0}

字典轉列表：

list_b=list(dict_a.items())
print 
(list_b)

>>>
[('blk_0', 10), ('blk_1', 9), ('blk_2', 8), ('blk_3', 7), ('blk_4', 6), ('blk_5', 5), ('blk_6', 4), ('blk_7', 3), ('blk_8', 2), ('blk_9', 1), ('blk_10', 0)]

列表轉DataFrame：

pd_c=pd.DataFrame(list_b,columns=["id","conent"])
print(pd_c)

>>>
        id  conent
0 
    blk_0      10
1    blk_1       9
2    blk_2       8
3    blk_3       7
4    blk_4       6
5    blk_5       5
6    blk_6       4
7    blk_7       3
8    blk_8       2
9    blk_9       1
10  blk_10       0

2、資料匹配

需求：有兩組資料，均為CSV列表檔案，將對應使用者的label新增新列到資料中。

一組資料為以使用者名稱“BlockId”為主的行資料，代表每一個使用者的資料。
另一組資料為標籤資料，主要有兩列，“BlockId”和“label”。

# 讀入兩組資料
data_df = pd.DataFrame(data_file, engine='c', na_filter=False, memory_map=True)
label_data = pd.read_csv(label_file, engine='c', na_filter=False, memory_map=True)

# 將帶標籤資料進行轉換
label_data = label_data.set_index('BlockId')	# 設定“BlockId”為索引
label_dict = label_data['Label'].to_dict()		# 轉換為{BlockId：Label}的字典
#使用apply新增每行資料
data_df['Label'] = data_df['BlockId'].apply(lambda x: 1 if label_dict[x] == 'Anomaly' else 0)

3、fillna()函式的使用

對缺失資料進行填充

data
>>>
      0     1     2   3
a   NaN   NaN   NaN   6
b   NaN   NaN   NaN  10
c  11.0  12.0  13.0  14
d  15.0  16.0  17.0  18

print(data.fillna(0))   ### 用0填充缺失資料
>>>
      0     1     2   3
a   0.0   0.0   0.0   6
b   0.0   0.0   0.0  10
c  11.0  12.0  13.0  14
d  15.0  16.0  17.0  18

4、tile()函式的使用

將資料擴充套件重複

#定義陣列
X=np.array([[3,1,2],[1,2,1]])
print(X)
>>>
[[3 1 2]
 [1 2 1]]

a=np.tile(X,(1,2))   #行擴充套件
# a=np.tile(X,2)  #一樣效果
print(a)
>>>
[[3 1 2 3 1 2]
 [1 2 1 1 2 1]]

aa=np.tile(X,(2,1))		#列擴充套件
print(aa)
>>>
[[3 1 2]
 [1 2 1]
 [3 1 2]
 [1 2 1]]

5、sum()函式的使用

# 定義一個數組：
X=np.array([[3.0,1.0,2.0,3.0,1.0,0],[1.0,2.0,1.0,0,0,0]])
print(X)
>>>
[[3. 1. 2. 3. 1. 0.]
 [1. 2. 1. 0. 0. 0.]]
 
X=np.sum(X)   # 計算矩陣中所有元素的和
print(X) 
>>>
 14.0
 
x=np.sum(X, axis=1) # 計算每一行之和
print(x)
>>>
[10.  4.]

x=np.sum(X,axis=0)	# 計算每一列之和
print(x)
>>>
[4. 3. 3. 3. 1. 0.]

x=np.sum(X>0, axis=1) # 統計每一行大於0的數的個數，統計列axis=0
print(x)
>>>
[5 3]

python 資料處理 pandas+numpy 等使用技巧

技術標籤：經驗篇python列表字典資料處理 python 資料處理 python 資料處理 pandas使用技巧最近在處理一些資料，發現以前所使用的一些方法可能比較笨拙，python 之中有一些比較方便的資料處理函式和技巧，所以

python資料處理——對pandas進行資料變頻或插值例項

這裡首先要介紹官方文件，對python有了進一步深度的學習的大家們應該會發現，網上不管csdn或者簡書上還是什麼地方，教程來源基本就是官方文件，所以英語只要還過的去，推薦看官方文件，就算不夠好，也可以只看它裡面

python資料處理中Pandas資料處理及分析----超詳細

實現Pandas自行車行駛資料分析假設現在有一組自行車行駛資料，這組資料記錄的是蒙特利爾市內7條自行車道的自行車騎行人數，下面用python中的pandas對其進行分析。原始資料找我要就行QQ 2534659467 註明來意

Python資料分析pandas模組用法例項詳解

本文例項講述了Python資料分析pandas模組用法。分享給大家供大家參考，具體如下：

Python資料處理篇之Sympy系列(五)---解方程

前言 sympy不僅在符號運算方面強大，在解方程方面也是很強大。本章節學習對應官網的：Solvers

python資料處理之如何選取csv檔案中某幾行的資料

前言有些人看到這個問題覺得不是問題，是嘛，不就是df.col[]函式嘛，其實忽略了一個重點，那就是我們要省去把csv檔案全部讀取這個過程，因為如果在面臨億萬級別的大規模資料，得到的結果就是boom，boom，boom。

1-python資料分析-Pandas基礎操作

為什麼學習pandas numpy已經可以幫助我們進行資料的處理了，那麼學習pandas的目的是什麼呢？

資料處理 | pandas入門專題——離散化與one-hot

今天是pandas資料處理專題第7篇文章，可以點選上方專輯檢視往期文章。在上一篇文章當中我們介紹了對dataframe進行排序以及計算排名的一些方法，在今天的文章當中我們來了解一下dataframe兩個非常重要的功能——離散

聊聊 Python 資料處理全家桶（Sqlite篇）

1. 前言上篇文章聊到 Python 處理 Mysql 資料庫最常見的兩種方式，本篇文章繼續說另外一種比較常用的資料庫：Sqlite

最全總結 | 聊聊 Python 資料處理全家桶（配置篇）

1.前言在實際專案中，經常會接觸到各種各樣的配置檔案，它可以增強專案的可維護性

python資料分析之Numpy資料庫第三期陣列的運算

上期陣列的索引和切片的知識總結通道：陣列和標量間的運算陣列之所以強大而且重要的原因，是其不需要通過迴圈就可以完成批量計算，也就是向量化

python資料處理_Python資料處理

技術標籤：python資料處理python資料預處理之資料交換修改記錄將截斷字串或二進位制資料. 語句已終止怎麼處理

《python資料處理》去除重複行

技術標籤：python資料分析python 針對dataframe型別的資料，對重複行進行去除： import pandas as pd

《python資料處理》將txt檔案的內容寫入csv檔案中

技術標籤：筆記pythoncsv 第一種方式： import xlwt def txt_csv(filename,csvname): try: with open(filename,\'r\',encoding=\'utf-8\') as f:

python資料處理——數值轉one-hot

技術標籤：做個人吧數學pythonnumpy _train_labels = [0,1,2,3,4,5,6,7,8,9,10] _train_labels = np.array(_train_labels)

Python資料分析—Pandas作業一

技術標籤：Python資料分析python資料分析 Day1 練習一練習二練習三匯入所需要的庫

Python資料分析(3)-numpy中nd陣列的建立

ndarray的記憶體結構和其他的庫一樣，每個庫都可能有自己獨特的資料結構，例如OpenCV，numpy庫的多維陣列叫做ndarray（ N dimensionality array ），它的記憶體結構如下圖：ndarray的記憶體結構在這個結構體中

python資料處理——字串轉數值型別

使用背景： python是弱型別語言，因此在處理資料時，需要對資料進行計算，但資料中存在非數值型別時，容易導致程式執行報錯。基於此目的，編寫如下方法解決字串型別向數值型別轉換。

python資料處理——csv檔案讀取

使用場景：　　只想讀取csv部分的列或有條件限制的讀取資料，返回的資料是一個包含dict的列表資料方便直接處理資料。

python資料處理——bsonId與時間戳的相互轉換

使用背景：在不覆蓋_id的情況下，mongoDB會根據時間生成對應的bsonId。可以根據bsonId來知道資料的入庫時間。下面是實現bsonId與時間戳的相互轉換

python 資料處理 pandas+numpy 等使用技巧