1. 程式人生 > >從零開始天池新人離線賽-資料預處理

從零開始天池新人離線賽-資料預處理

作為一個數據挖掘和Python程式設計的雙面小白,從零就真的是從一張白紙開始了。

今天,首先學習怎麼將阿里給我們的CSV檔案匯入到Python中;

import csv
itemcsv = file('d:/test/item.csv','rb')
r1 = csv.reader(itemcsv)
到這步為止,初步將該item.csv匯入了Python中;
接下來,如果想要列印這些資料,只需要以下即可。
for line in r1:
    print line
itemcsv.close()

但這肯定沒達到我們想要的結果,至少我們需要將CSV裡的資料,以逗號為分割,將之存入一定的資料結構中

這時候就需要藉助numpy工具了;

import numpy as np
data = np.genfromtxt(item,delimiter=',',skip_header=1)
這樣資料就在data結構裡面了,data的具體用法和Python裡的列表相同,檢視具體結果如下:

此時,發現所有中間列的脫敏處理後的地理資訊的字串並沒有存入data中;

查閱資料可知,需要修改genfromtxt中的引數,

data = np.genfromtxt(item,delimiter=',',skip_header=1,dtype=str)

這樣,三列的內容就被全部儲存在data變數中了。