量化投資學習筆記30——《Python機器學習應用》課程筆記04
有監督學習
常用分類演算法
KNN:K近鄰分類器。通過計算待分類資料點,與已知資料中所有點的距離,取距離最小的前K個點,根據"少數服從多數"的原則,將這個資料點劃分為出現次數最多的那個類別。
在sklearn中,使用sklearn.neighbors.KNeighborsClassifier建立K鄰近分類器。
選取較大K值,可以減小誤差,但可能導致預測錯誤。選取k值較小,易引起過擬合。一般傾向於選擇較小的k值,並使用交叉驗證法選取最優的k值。
決策樹演算法
是一種樹形結構分類器,通過順序詢問分類點的屬性決定分類點最終的類別。通常根據特徵的資訊增益等構建決策樹。
使用sklearn.tree.DecisionTreeClassifier構建決策樹進行分類。
決策樹本質上是尋找一種對特徵空間上的劃分,旨在構建一個訓練資料擬合的好,並且複雜度小的決策樹。
樸素貝葉斯
以貝葉斯定理為基礎的分類器。sklearn實現了三個樸素貝葉斯分類器:高斯樸素貝葉斯,多項式樸素貝葉斯,伯努利樸素貝葉斯。分別適用與不同的觀測值的分佈。
樸素貝葉斯是典型的生成學習演算法。在小規模的資料上表現良好,適合進行多分類任務。
程式碼: https://github.com/zwdnet/MyQuant/blob/master/30
我發文章的四個地方,歡迎大家在朋友圈等地方分享,歡迎點“在看”。
我的個人部落格地址:https://zwdnet.github.io
我的知乎文章地址: https://www.zhihu.com/people/zhao-you-min/posts
我的部落格園部落格地址: https://www.cnblogs.com/zwdnet/
我的微信個人訂閱號:趙瑜敏的口腔醫學學習園