機器學習筆記(一)初識機器學習
機器學習:目前沒有統一的定義
現有定義:
1.samuel(1950): 在沒有明確設定的情況下,使計算機具有學習能力。
2.TOM(更新的定義):計算機程式從經驗E(Experience)中學習,解決某一任務T(Task),進行某一效能度量P(Performance),通過P測定在T上的表現因經驗E而提高
舉個例子, 讓郵件系統智慧的過濾垃圾資訊:
T:標定這個郵件是垃圾郵件或者不是(Classfying emails as spam or not a spam)
E: 檢視郵件是標定垃圾或不是(Watching you label emails as spam or not spam\)
P: 正確歸類的郵件的比例(The number(or fraction) of email correctly classified as spam or not)
機器學習分為:
1. 有監督學習
監督學習是指 我們給演算法一個數據集,其中包含了正確答案。也就是說我們給它一個房價資料集,在這個資料集中的每個樣本,我們都給出正確的價格即這個房子實際賣價,演算法的目的就是給出更多的正確答案.
如房價:給定某地房子大小和房價的資料,根據這些資料,給定一個房子尺寸大小,預測該尺寸對應的房價。
迴歸問題(regression):結果是線性的(我們設法預測出一個連續值的結果)
分類問題(classification):結果是離散的(我們設法預測出一個離散值的結果)
接下來,兩道題:
1. 你又很多同一件貨物的庫存,你想預測你能賣出多少件
2. 你想設計一個軟體, 來檢查每一個客戶的賬戶,判定這個賬戶是否被侵入或者安全
結果是, 問題1 是迴歸問題
問題2 是分類問題
2. 無監督學習
相對於監督學習(給定輸入,輸出,作為參考),無監督學習不知道輸入/輸出是什麼,只能將資料進行聚類。
聚類和分類的區別:
分類:已知資料的型別,即在沒有輸入的時候,就知道輸出的結果(如:腫瘤良性還是惡性)。
聚類:不知道資料的型別,只給資料一些特徵,機器根據特徵,將資料分開。