機器學習入門之sklearn介紹
scikit-learn,又寫作sklearn,是一個開源的基於python語言的機器學習工具包。它通過NumPy, SciPy和Matplotlib等python數值計算的庫實現高效的算法應用,並且涵蓋了幾乎所有主流機器學習算法。
SKlearn官網鏈接:http://scikit-learn.org/stable/index.html
在工程應用中,用python手寫代碼來從頭實現一個算法的可能性非常低,這樣不僅耗時耗力,還不一定能夠寫出構架清晰,穩定性強的模型。更多情況下,是分析采集到的數據,根據數據特征選擇適合的算法,在工具包中調用算法,調整算法的參數,獲取需要的信息,從而實現算法效率和效果之間的平衡。而sklearn,正是這樣一個可以幫助我們高效實現算法應用的工具包。
sklearn有一個完整而豐富的官網,裏面講解了基於sklearn對所有算法的實現和簡單應用。
常用模塊
sklearn中常用的模塊有分類、回歸、聚類、降維、模型選擇、預處理。
分類:識別某個對象屬於哪個類別,常用的算法有:SVM(支持向量機)、nearest neighbors(最近鄰)、random forest(隨機森林),常見的應用有:垃圾郵件識別、圖像識別。
回歸:預測與對象相關聯的連續值屬性,常見的算法有:SVR(支持向量機)、 ridge regression(嶺回歸)、Lasso,常見的應用有:藥物反應,預測股價。
聚類:將相似對象自動分組,常用的算法有:k-Means、 spectral clustering、mean-shift,常見的應用有:客戶細分,分組實驗結果。
降維:減少要考慮的隨機變量的數量,常見的算法有:PCA(主成分分析)、feature selection(特征選擇)、non-negative matrix factorization(非負矩陣分解),常見的應用有:可視化,提高效率。
模型選擇:比較,驗證,選擇參數和模型,常用的模塊有:grid search(網格搜索)、cross validation(交叉驗證)、 metrics(度量)。它的目標是通過參數調整提高精度。
預處理:特征提取和歸一化,常用的模塊有:preprocessing,feature extraction,常見的應用有:把輸入數據(如文本)轉換為機器學習算法可用的數據。
安裝SKlearn
安裝最新版本
Scikit-learn需要:
-
Python(> = 2.7或> = 3.4),
-
NumPy(> = 1.8.2),
-
SciPy(> = 0.13.3)。
【註意】Scikit-learn 0.20是支持Python 2.7和Python 3.4的最後一個版本。Scikit-learn 0.21將需要Python 3.5或更高版本。
如果你已經安裝了numpy和scipy,那麽安裝scikit-learn的最簡單方法就是使用 pip
或者canda
pip install -U scikit-learn
conda install scikit-learn
如果你尚未安裝NumPy或SciPy,你也可以使用conda或pip安裝它們。使用pip時,請確保使用binary wheels,並且不會從源頭重新編譯NumPy和SciPy,這可能在使用特定配置的操作系統和硬件(例如Raspberry Pi上的Linux)時發生。從源代碼構建numpy和scipy可能很復雜(特別是在Windows上),需要仔細配置以確保它們與線性代數例程的優化實現相關聯。為了方便,我們可以使用如下所述的第三方發行版本。
發行版本
如果你還沒有numpy和scipy的python安裝,我們建議你通過包管理器或通過python bundle安裝。它們帶有numpy,scipy,scikit-learn,matplotlib以及許多其他有用的科學和數據處理庫。
可用選項包括:Canopy和Anaconda適用於所有支持的平臺
除了用於Windows,Mac OSX和Linux的大量科學python庫之外,Canopy和Anaconda都提供了最新版本的scikit-learn。
Anaconda提供scikit-learn作為其免費發行的一部分。
【註意】pip和conda命令不要混用!!!
要升級或卸載scikit-learn安裝了python或者conda
你不應該使用PIP命令。
升級scikit-learn
:conda update scikit-learn
卸載scikit-learn
:conda remove scikit-learn
使用pip install -U scikit-learn
安裝或者使用pip uninstall scikit-learn
卸載可能都沒有辦法更改有conda命令安裝的sklearn。
算法選擇
sklearn 實現了很多算法,面對這麽多的算法,如何去選擇呢?其實選擇的主要考慮的就是需要解決的問題以及數據量的大小。sklearn官方提供了一個選擇算法的引導圖。
https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
這裏提供翻譯好的中文版本,供大家參考:
機器學習入門之sklearn介紹