機器學習1.1-監督學習和非監督學習
阿新 • • 發佈:2021-10-19
監督學習
-
必須明確目標變數的值,以便演算法可以發現特徵和目標變數之間的關係。給定一組資料,我們就該知道輸出結果應該是什麼樣子,並且知道輸出結果和輸入結果之間有一個特定的關係。
-
樣本集:訓練資料+測試資料
訓練樣本 = 特徵 + 目標變數(label: 分類-離散值/迴歸-連續值)
特徵通常是訓練樣本集的列,他們是獨立測量得到的
目標變數:目標是機器學習預測演算法的測試結果(在分類演算法中目標變數是離散值 :真/假;在迴歸演算法中目標變數是連續值:1~100)
-
監督學習需要注意的問題:
偏置方差的權衡
功能的複雜性和訓練資料的數量
輸出空間的維數
噪聲中的輸出值
非監督學習
-
非監督學習解決的問題是,在未新增標籤的資料中,試圖找到隱藏的結構
-
無監督學習和統計密度估計問題密度相關,其中還包括尋求,總結和解釋資料的主要特點等諸多技術,這和資料探勘息息相關。
-
資料中不包含類別資訊,也不會給定目標值。
-
非監督學習包括的型別有:
聚類:在無監督學習中,將資料分成由類似的物件組成多個類的過程稱為聚類;
密度估計:通過樣本分佈的緊密程度,來估計與分組的相似性
此外,無監督學習還可以減少資料特徵的維度,以便我們可以使用二維或者三維圖形更加直觀地展示資料資訊。