Python3玩轉兒 機器學習(3)
阿新 • • 發佈:2018-04-22
分享圖片 多項式 pca 圖像 可視化 情況 異常 ... 學習 :給機器訓練數據沒有任何“標記”或者“答案”
機器學習算法可以分為:
- 監督學習
- 非監督學習
- 半監督學習
- 增強學習
監督學習:給機器的訓練數據擁有“標記”或者“答案”,例如:
我們需要告訴機器左邊的畫面是一只狗,而右邊的照片是一只貓。同理對於MNIST數據集,給機器圖像信息後還應該附上標記信息,如圖所示:
運用監督學習的場景舉例:
- 圖像已經擁有了標定信息
- 銀行已經積累了一定的客戶信息和他們信用卡的實用信息
- 醫院已經積累了一定的病人信息和他們最終確診是否患病的情況
- 市場積累了房屋的基本信息和最終成交的金額
- ......
此課程中學習的大部分算法屬於監督學習算法
- K近鄰
- 線性回歸和多項式回歸
- 邏輯回歸
- SVM
- 決策樹和隨機森林
非監督學習
聚類分析:對沒有“標記”的數據進行分類
非監督學習一個非常重要的作用就是對數據進行降維處理。
- 特征提取:信用卡的信用評級和人的胖瘦無關?無關的特征丟掉
- 特征壓縮:PCA
降維處理的意義:方便可視化
非監督學習還可以進行異常檢測
如圖所示:圖中兩個紅點明顯與其他點脫離,如果它們同屬與一種數據,我們可以將這兩個點歸類為異常,將其去除。當突然圖中為二維點,在高維中我們會使用相應的算法剔除異常數據。
半監督學習:一部分數據有“標記”或者“答案”,另一部分沒有
相對監督學習,更常見的是各種原因產生的標記缺失的半監督學習。
通常都先使用無監督學習手段對數據做處理,之後使用監督學習手段作模型的訓練和預測。
增強學習:根據周圍環境的情況,采取行動,根據采取行動的結果,學習行動方式。
監督學習和半監督學習是基礎。
Python3玩轉兒 機器學習(3)