資料處理之python常用技術小結

阿新 • • 發佈：2019-02-16

在資料預處理的過程中經常會使用python這個工具，想來每次處理新資料時總會因不同的需求而求助谷歌、百度來實現基礎的資料處理操作（囧…），遂寫此博文貢自己日後參考，也希望能給進來瀏覽的小夥伴或多或少幫助，持續更新~

1. list操作

list可以說在資料處理過程中是不可或缺的，list部分基礎操作程式碼如下所示。

list篩選操作示例：

#篩除lisy中小於5的數字
a = [1,2,3,5,8,10]

b = [x for x in a if x>=5]

#將list所有字元變為數字
a = ['1','2','3','5','8','10']

b = [int(x) for 
 x in a ]

list去重：

a = [1,4,3,3,4,2,3,4,5,6,1]
b = list(set(a))

2. 將資料儲存為csv、excel格式

對於結構化資料來說，最終的處理的結果可能是存入資料庫，也可能用excel、csv和arff等檔案形式進行儲存。
pandas包為excel、csv等檔案格式提供了良好的介面，使用pandas儲存csv、excel的程式碼如下：

儲存為csv示例程式碼：

#coding=utf-8
import pandas as pd

#定義列名col 和 資料 datas
col = ['feature1','feature2' 
,'class']
datas = [[1,2,1],[2,3,0]]
#構建資料矩陣
df = pd.DataFrame(datas, index=None, columns=col)
#定義儲存路徑file_path
file_path = 'D:\\1.xlsx'
#將資料寫入csv檔案中
df.to_csv(file_path,index=None)

儲存為excel示例程式碼：

#coding=utf-8
import pandas as pd

#定義列名col 和 資料 datas
col = ['feature1','feature2','class']
datas = [[1,2,1],[2,3,0]] 

#構建資料矩陣
df = pd.DataFrame(datas, index=None, columns=col)
#定義儲存路徑file_path
file_path = 'D:\\1.xlsx'
#將資料寫入excel檔案中
writer = pd.ExcelWriter(file_path)
df.to_excel(writer, 'Sheet1')
writer.save()

3. 文字最最基礎的讀寫操作（-_-||| ）

太簡單，直接貼程式碼…

#coding=utf-8

def arff_to_excel(file_path):
    f = open(file_path,'r')
    datas = ''
    #逐行讀取檔案內容
    for l in f.readlines():
        datas = datas + l
    return  datas

4. 讀取資料夾下所有檔名路徑

對資料夾操作主要涉及到python中的os模組，讀取資料夾中所有檔案路徑的示例程式碼如下：

#coding=utf-8
import os

#讀取目錄中所有的檔案路徑
def getArffPath(file_dir):
    file_path = []
    for (root,dirs,files) in os.walk(file_dir):
        for filename in files:
            file_path.append(os.path.join(root,filename))

未完待續…

資料處理之python常用技術小結

1. list操作

2. 將資料儲存為csv、excel格式

3. 文字最最基礎的讀寫操作（-_-||| ）

4. 讀取資料夾下所有檔名路徑

資料處理之python常用技術小結

Python資料處理之（三）Numpy建立array

Python資料處理之（二）Numpy屬性

Python資料處理之（一）為什麼要學習 Numpy & Pandas？

Python資料處理之（四）numpy基礎運算1

Python資料處理之（七）Numpy array 合併

Python資料處理之（十一）Pandas 選擇資料

Python資料處理之（十）Pandas 基本介紹

Python資料處理之（九）Numpy copy & deep copy

Python資料處理之（八）Numpy array分割

Python資料處理之（六）numpy索引

Python資料處理之（五）numpy基礎運算2

Python資料處理之（十五）Pandas 合併concat

Python資料處理之（十八）10分鐘搞定matplotlib

Python資料處理之（十七）Pandas plot畫圖

Python資料處理之（十六）Pandas 合併merce

Python資料處理之（十四）Pandas 匯入匯出

Python資料處理之（十三）Pandas 處理丟失資料

Python資料處理之（十二）Pandas 設定值

（轉）大資料處理之道（十分鐘學會Python）

資料處理之python常用技術小結

1. list操作

2. 將資料儲存為csv、excel格式

3. 文字最最基礎的讀寫操作（-_-||| ）

4. 讀取資料夾下所有檔名路徑

相關推薦