常用機器學習算法優缺點及應用匯總
一、K-Means聚類算法
優點:
(1)原理簡單,實現容易,收斂速度快
(2)球形邊界效果較好
缺點:
(1)k取值不好把握
(2)非球形邊界效果較差
(3)對噪音和異常點較敏感
應用:
(1)被大多數搜索引擎用於通過相似性對網頁進行聚類,並識別搜索結果的相關率,有助於搜索引擎減少用戶的計算時間
(2)用戶畫像
(3)對數據集內部進行探索
(4)用於數據離散壓縮
(5)處理數據不平衡問題(樣本不平衡專題細講)
相似度衡量:
(1)離散變量采用曼哈頓距離
(2)連續變量采用歐式距離
(3)文本采用余弦相似度或者傑卡德系數
二、支持向量機
優點:
(1)可以通過核函數解決非線性問題
(2)解決高維度特征問題是很有效,在特征維度大於樣本數時依然有效
(3)分類準確率較高、泛化能力強
缺點:
(1)特征維度遠遠大於樣本數,表現一般(維度災難)
(2)SVM在樣本量較大時,核函數映射維度非常高時,計算量過大
(3)核函數選擇沒有統一標準
(4)不適合大數據時代大樣本
(5)SVM是二元分類算法,雖然經擴展支持多分類,但計算量巨大。目前spark只實現了二分類
應用:
(1)常用於各種金融機構的股票市場預測
三、決策樹
優點:
(1)簡單直觀,提供可視化展示
(2)基本不需要對數據進行預處理,不需要歸一化、不需要處理缺失值
(3)對於異常點容錯性較高,健壯性高
(4)解釋性好
缺點:
(1)容易過擬合,泛化能力弱,可通過設置節點最少樣本數量或限制決策樹深度改進
(2)會因為樣本發生一點點的變化導致樹的結構發生變化,可以通過集成學習來改善
應用:
(1)財務中對期權定價有很大用處
(2)遙感是基於決策樹的模式識別的應用領域
(3)銀行使用決策樹算法按貸款申請人違約付款的概率進行分類
(4)Gerber產品公司,一個流行的嬰兒產品公司,使用決策樹機器學習算法來決定他們是否應繼續使用塑料PVC(聚氯乙烯)在他們的產品。
(5)Rush大學醫學中心開發了一個名為Guardian的工具,它使用決策樹機器學習算法來識別有風險的患者和疾病趨勢
四、隨機森林
優點:
(1)訓練可以高度並行化,對於大數據時代的大樣本訓練速度有優勢
(2)對缺失值、異常值不敏感
(3)泛化能力強,不需要剪枝
(4)很難建立一個壞的隨機森林、分類精度較高
缺點:
(1)容易使用,但理論上分析較困難
(2)速度較慢,因為內含多個決策樹弱分類器
(3)取值劃分比較多的特征容易對隨機森林的決策產生影響,從而影響模型效果
應用:
(1)被銀行用來預測貸款申請人是否可能為高風險人群
(2)汽車工業中預測機械部件是否存在故障
(3)醫療保健行業預測患者是否可能發展為慢性疾病
(4)回歸,預測社交媒體份額和績效分數的平均數
(5)預測語音識別軟件中的模式,並對圖像和文本進行分類
五、樸素貝葉斯
優點:
(1)對小規模的數據表現較好,能處理多分類任務
(2)對缺失數據不敏感,算法簡單,常用於文本分類
缺點:
(1)樸素貝葉斯建立在屬性之間相互獨立的假設之上
(2)通過先驗和數據來決定後驗的概率從而決定分類,所以分類決策存在一定的錯誤率
應用:
(1)情緒分析
(2)文檔分類
(3)垃圾郵件過濾
六、Aprior頻繁項挖掘
基本原理:
(1)如果項集合頻繁出現,則項集合的所有子集也頻繁出現。
(2)如果項集合不經常出現,則項集合的所有超集都不經常出現。
優點:
(1)易於實現,且容易並行化
(2)頻繁項集挖掘經典算法,很懂算法都是基於Aprior實現的,包括FP-Tree,GSP,CBA等
缺點:
(1)效率較低
應用:
(1)市場籃子分析
(2)自動完成應用程序
常用機器學習算法優缺點及應用匯總