1. 程式人生 > >資料處理之python常用技術小結

資料處理之python常用技術小結

在資料預處理的過程中經常會使用python這個工具,想來每次處理新資料時總會因不同的需求而求助谷歌、百度來實現基礎的資料處理操作(囧…),遂寫此博文貢自己日後參考,也希望能給進來瀏覽的小夥伴或多或少幫助,持續更新~

1. list操作

list可以說在資料處理過程中是不可或缺的,list部分基礎操作程式碼如下所示。

list篩選操作示例:

#篩除lisy中小於5的數字
a = [1,2,3,5,8,10]

b = [x for x in a if x>=5]
#將list所有字元變為數字
a = ['1','2','3','5','8','10']

b = [int(x) for
x in a ]

list去重:

a = [1,4,3,3,4,2,3,4,5,6,1]
b = list(set(a))

2. 將資料儲存為csv、excel格式

對於結構化資料來說,最終的處理的結果可能是存入資料庫,也可能用excel、csv和arff等檔案形式進行儲存。
pandas包為excel、csv等檔案格式提供了良好的介面,使用pandas儲存csv、excel的程式碼如下:

儲存為csv示例程式碼:

#coding=utf-8
import pandas as pd

#定義列名col 和 資料 datas
col = ['feature1','feature2'
,'class'] datas = [[1,2,1],[2,3,0]] #構建資料矩陣 df = pd.DataFrame(datas, index=None, columns=col) #定義儲存路徑file_path file_path = 'D:\\1.xlsx' #將資料寫入csv檔案中 df.to_csv(file_path,index=None)

儲存為excel示例程式碼:

#coding=utf-8
import pandas as pd

#定義列名col 和 資料 datas
col = ['feature1','feature2','class']
datas = [[1,2,1],[2,3,0]]
#構建資料矩陣 df = pd.DataFrame(datas, index=None, columns=col) #定義儲存路徑file_path file_path = 'D:\\1.xlsx' #將資料寫入excel檔案中 writer = pd.ExcelWriter(file_path) df.to_excel(writer, 'Sheet1') writer.save()

3. 文字最最基礎的讀寫操作(-_-||| )

太簡單,直接貼程式碼…

#coding=utf-8

def arff_to_excel(file_path):
    f = open(file_path,'r')
    datas = ''
    #逐行讀取檔案內容
    for l in f.readlines():
        datas = datas + l
    return  datas

4. 讀取資料夾下所有檔名路徑

對資料夾操作主要涉及到python中的os模組,讀取資料夾中所有檔案路徑的示例程式碼如下:

#coding=utf-8
import os

#讀取目錄中所有的檔案路徑
def getArffPath(file_dir):
    file_path = []
    for (root,dirs,files) in os.walk(file_dir):
        for filename in files:
            file_path.append(os.path.join(root,filename))

未完待續…