資料處理之python常用技術小結
阿新 • • 發佈:2019-02-16
在資料預處理的過程中經常會使用python這個工具,想來每次處理新資料時總會因不同的需求而求助谷歌、百度來實現基礎的資料處理操作(囧…),遂寫此博文貢自己日後參考,也希望能給進來瀏覽的小夥伴或多或少幫助,持續更新~
1. list操作
list可以說在資料處理過程中是不可或缺的,list部分基礎操作程式碼如下所示。
list篩選操作示例:
#篩除lisy中小於5的數字
a = [1,2,3,5,8,10]
b = [x for x in a if x>=5]
#將list所有字元變為數字
a = ['1','2','3','5','8','10']
b = [int(x) for x in a ]
list去重:
a = [1,4,3,3,4,2,3,4,5,6,1]
b = list(set(a))
2. 將資料儲存為csv、excel格式
對於結構化資料來說,最終的處理的結果可能是存入資料庫,也可能用excel、csv和arff等檔案形式進行儲存。
pandas包為excel、csv等檔案格式提供了良好的介面,使用pandas儲存csv、excel的程式碼如下:
儲存為csv示例程式碼:
#coding=utf-8
import pandas as pd
#定義列名col 和 資料 datas
col = ['feature1','feature2' ,'class']
datas = [[1,2,1],[2,3,0]]
#構建資料矩陣
df = pd.DataFrame(datas, index=None, columns=col)
#定義儲存路徑file_path
file_path = 'D:\\1.xlsx'
#將資料寫入csv檔案中
df.to_csv(file_path,index=None)
儲存為excel示例程式碼:
#coding=utf-8
import pandas as pd
#定義列名col 和 資料 datas
col = ['feature1','feature2','class']
datas = [[1,2,1],[2,3,0]]
#構建資料矩陣
df = pd.DataFrame(datas, index=None, columns=col)
#定義儲存路徑file_path
file_path = 'D:\\1.xlsx'
#將資料寫入excel檔案中
writer = pd.ExcelWriter(file_path)
df.to_excel(writer, 'Sheet1')
writer.save()
3. 文字最最基礎的讀寫操作(-_-||| )
太簡單,直接貼程式碼…
#coding=utf-8
def arff_to_excel(file_path):
f = open(file_path,'r')
datas = ''
#逐行讀取檔案內容
for l in f.readlines():
datas = datas + l
return datas
4. 讀取資料夾下所有檔名路徑
對資料夾操作主要涉及到python中的os模組,讀取資料夾中所有檔案路徑的示例程式碼如下:
#coding=utf-8
import os
#讀取目錄中所有的檔案路徑
def getArffPath(file_dir):
file_path = []
for (root,dirs,files) in os.walk(file_dir):
for filename in files:
file_path.append(os.path.join(root,filename))
未完待續…