1. 程式人生 > >機器學習筆記(一)初識機器學習

機器學習筆記(一)初識機器學習

機器學習:目前沒有統一的定義

現有定義:
1.samuel(1950): 在沒有明確設定的情況下,使計算機具有學習能力。
2.TOM(更新的定義):計算機程式從經驗E(Experience)中學習,解決某一任務T(Task),進行某一效能度量P(Performance),通過P測定在T上的表現因經驗E而提高

舉個例子, 讓郵件系統智慧的過濾垃圾資訊:

T:標定這個郵件是垃圾郵件或者不是(Classfying emails as spam or not a spam)

E: 檢視郵件是標定垃圾或不是(Watching you label emails as spam or not spam\)

P: 正確歸類的郵件的比例(The number(or fraction) of email correctly classified as spam or not)

 


機器學習分為:

1. 有監督學習

監督學習是指 我們給演算法一個數據集,其中包含了正確答案。也就是說我們給它一個房價資料集,在這個資料集中的每個樣本,我們都給出正確的價格即這個房子實際賣價,演算法的目的就是給出更多的正確答案.

如房價:給定某地房子大小和房價的資料,根據這些資料,給定一個房子尺寸大小,預測該尺寸對應的房價。

  

迴歸問題(regression):結果是線性的(我們設法預測出一個連續值的結果)


 

分類問題(classification):結果是離散的(我們設法預測出一個離散值的結果)

 

接下來,兩道題:

1. 你又很多同一件貨物的庫存,你想預測你能賣出多少件

2. 你想設計一個軟體, 來檢查每一個客戶的賬戶,判定這個賬戶是否被侵入或者安全

結果是, 問題1 是迴歸問題

             問題2 是分類問題

2. 無監督學習

相對於監督學習(給定輸入,輸出,作為參考),無監督學習不知道輸入/輸出是什麼,只能將資料進行聚類。



聚類和分類的區別:
分類:已知資料的型別,即在沒有輸入的時候,就知道輸出的結果(如:腫瘤良性還是惡性)。
聚類:不知道資料的型別,只給資料一些特徵,機器根據特徵,將資料分開。