1. 程式人生 > 實用技巧 >我的程式設計筆記本

我的程式設計筆記本

大資料清洗過程- pandas的檔案讀取

一般比較簡單的方式就直接讀取

import pandas as pd 

df = pd.read_csv('data.csv')

但是遇到比較複雜結構的檔案,層級較多的情況,例如csv裡面的分隔符有分號,又有逗號的時候,需要標註清楚分割方式

df = pd.read_csv('data.csv',sep = ';')

python也有自帶的csv檔案讀取和處理的函式import csv

with open('data.csv', newline = ' ') as csvfile:
    spamreader = csv.reader(csvfile, delimiter= '
', quotechar = '|')
headers = next(spamreader)
for row in spamreader: print(','.join(row))

還有一種選擇是將資料讀到dict字典裡面

with open('data.csv') as f :
f_csv = csv.DictReader(f)
for row in f_csv:
#process row

如果是Excel格式, 又有點不同

import xlrd 

data = xlrd.open_workbook('Excel.xls
') #讀取其中所有的工作表 print(data.sheet_names()) # 開啟第一個工作表 table = data.sheet()[0] # 獲取第一個工作表的行數 print(table.nrows)

可見對於excel 格式和csv格式的處理方式有些不同

劃詞翻譯

詳細解釋

劃詞翻譯

詳細解釋