機器學習基礎概念
阿新 • • 發佈:2020-10-21
機器學習:利用計算機從歷史中找規律,並把這些規律用到對未來不確定場景的決策
機器學習簡單分類:
- 可以分為 監督學習、無監督學習、半監督學習
- 分類、聚類、迴歸
- 生成模型(給出資料屬於各個類別的概率)、判別模型(給出資料所屬於的類別)
機器學習和資料分析的區別:
-
資料特點:交易資料(訂單) VS 行為資料(點選歷史)
-
少量資料 VS 海量資料
-
取樣分析 VS 全量分析
訓練資料/驗證資料/測試資料
建模之前把資料分成三個部分 :訓練集、驗證集、測試集
- 訓練集:用來訓練,構建模型
- 驗證集:用來在模型訓練階段測試模型的好壞
- 測試集:用測試集評估模型的好壞
監督學習/無監督學習/半監督學習
-
監督學習:有明確的特性,帶有標籤的資料集,帶有標籤 分類
-
無監督學習:沒有標籤的資料 聚類
-
半監督學習:半監督學習是監督學習和無監督學習相結合的一種學習方式。主要是用來解決使用少量帶標籤的資料和大量沒有標籤的資料進行訓練和分類的問題。
常見應用:
-
迴歸:拿到新的房子面積和學區編號,預測房價
-
分類(影象識別、垃圾郵件識別、文字分類)、
天氣:晴,陰,雨
溫度:暖,冷
溼度:普通,大
風力:強,弱
週末:是,否
預測是否運動:是,否 -
聚類
根據使用者資料給使用者分類,分類數量可以視情況而定
總結 迴歸/分類/聚類
- 迴歸:預測資料為連續型數值。
- 分類:預測資料為類別型資料,並且類別已知。
- 聚類:預測資料為類別型資料,但是類別未知。