Python高階資料處理與視覺化
聚類分析Cluster
(1)聚類分析主要使用kmeans演算法,kmeans演算法的主要有兩個步驟:①隨機定義K個數據點為聚類中心,並根據觀測資料到K個數據點的距離將所有的觀測資料分配給這K個聚類中心;②調整K個聚類中心的位置到分配給它們的觀測資料的均值位置。③重複以上兩步,直到聚類中心的位置不再改變,或者滿足給定條件。
(2)在python中使用scipy.cluster.vq給定的kmeans和vq函式可以計算聚類中心,以及觀測資料所屬的聚類中心。
Matplotlib繪圖基礎
(1)Matplotlib繪圖是最著名的python繪相簿,主要用於二維繪圖。
(2)matplotlib的優點有:①畫圖質量高;②方便快捷的繪圖模組。(3)繪圖API–pyplot模組,這個API提供了一套跟matlab很像的繪圖函式。
(4)整合庫–pylab模組(包含Numpy和pyplot中的常用函式)。
Matplotlib影象屬性控制
(1)在繪圖時,在繪圖的函式中設定相應的引數可以控制影象屬性。
(2)繪圖顏色和線條型別和樣式可以更改。
(3)加標題:圖title,橫軸xlabel,縱軸ylabel。
(4)使用figure方法以及其中的figsize和dpi引數修改圖的大小和精度。
(5)可以設定plot方法中的color,linestyle,linewidth,label,marker引數來設定相應的樣式。
(6)通過legend方法來設定圖例,例如設定其中的loc引數指定圖例的位置。
(7)使用subplot方法來在一個圖中畫多個子圖,同時通過figure函式來確定繪圖區域。
(8)也可以通過axes([left, bottom, width, height])方法來畫子圖,引數範圍為(0, 1),這樣可以話圖中圖。
pandas作圖
(1)pandas整合matplotlib的相關功能可以實現基於Series和DataFrame的某些繪圖功能。
(2)pandas可以直接對Series和DataFrame進行繪圖,也就是說Series和DataFrame物件中含有plot方法。然後可以通過pyplot中的方法來設定由pandas繪出來圖的其它引數。
(3)pandas控制影象形式,在plot方法中設定kind引數可以設定線條型別,還能通過color引數設定線條顏色,通過marker設定線條型別樣式,通過label引數設定圖例。還能畫出概率分佈圖!
資料存取
(1)csv格式資料存取,使用to_csv方法可以將資料寫到指定路徑名字的csv檔案。相反,從csv檔案讀使用read_csv方法。
(2)csv其實就是“逗號分割值”的三個英文的縮寫,表明了資料在csv檔案中的儲存形式。
(3)xls格式資料存取,使用to_excel函式儲存,使用read_excel函式讀取。在儲存時還能通過sheet_name引數設定表格名。
Python的理工類應用
(1)簡單的三角函式計算。
(2)一組資料的傅立葉變換,使用到scipy中的fft方法。
(3)例如,Biopython用於生物學。
Python的人文社科類應用
(1)自然語言處理。