1. 程式人生 > 其它 >Python經典機器學習的四大常用的第三方庫

Python經典機器學習的四大常用的第三方庫

Python程式設計中,幾乎都離不開第三方庫。更何況是入門人工智慧工作,Python是入門必備,第三方庫特別是科學計算機器學習庫就是入門中的入門。我們這裡既然說機器學習,當然和深度學習是不一樣的。所以機智客的意思是,對同一項工作任務,深度學習和機器學習兩種方法不同庫都能做的時候,我們側重於機器學習角度,所以這裡我們肯定不介紹Tensorflow之類的庫。Python機器學習離不開第三方庫,而我們常用的庫,往往就那麼幾種。這裡只介紹四個常用的第三方庫。

Pandas庫,資料處理資料清洗的專用庫。做機器學習或者深度學習,就是和資料打交道。那麼首先資料處理是首當其衝不可或缺的。那麼,就需要import基本的資料處理庫。比如我們在做機器學習中會看到很多資料集格式是csv,這個就可以用Pandas來處理。Pandas這個也是Python程式設計中常用得不能再常用的軟體包了。

 

Numpy庫。資料分析必備,也是資料計算的基礎。換言之,也是機器學習深度學習的前輩基石。這個基本不用介紹了吧,即便不做機器學習,如果接觸計算機視覺的朋友,也知道這個大名鼎鼎的庫。Numpy屬於夠底層夠靈活夠簡單的強大機器學習庫,或者叫矩陣計算庫,甚至深度學習框架都以它對張量進行操作,從某種意義上講,可能深度學習優於Numpy庫的一個明顯特點就是支援利用GPU硬體加速了吧。

sk-learn庫,基於上述的numpyScipy的庫。包含大量用於傳統機器學習和資料探勘相關的演算法,集成了常見的機器學習功能。從名字也能看出來,這是科學計算學習庫,而且這個庫還被評為用於處理複雜資料的最優秀機器學習庫之一呢。我們在機器學習工作中幾個常見的訓練演算法比如邏輯迴歸,KNN等它都有。這個庫,常用的功能就是對資料集的載入、下載或建立生成,要知道它本身也自帶一些小的資料集,我們可以拿來就用。

Matplotlib庫。Python程式語言中最常用的資料視覺化第三方庫。它是繪圖領域廣泛使用的軟體,類似 MATLAB 的繪圖工具,而到了機器學習領域,則成了我們觀察訓練情況、輸出資料結果、資料視覺化的好幫手。做好了前面的資料處理,開始了資料訓練,如果沒有個進度或視覺化展現,我們就往往難以把控進展,無法看到過程變化、驗證和看到輸出結果。