機器學習基礎學習筆記——基本概念
機器學習的基本概念:
1、概念學習:概念學習是指從有關某個布林函式的輸入輸出訓練樣例中推斷出該布林函式
example:學習享受運動這一概念
影響因素:
- 天氣:晴、雨、陰、雪
- 溫度:冷、暖
- 風力:強、弱
- 水溫:冷、暖
享受運動:是、否
概念定義在例項集合之上,這個集合表示為X(在上例中是多天因素與享受運動的資料集)。
x:每一個例項(每一天) X:樣例,所有例項的集合(100天)
待學習的概念或目標函式稱為目標概念(target concept),記做c(上例中是否享受運動)
2、訓練集(training set/data)/訓練樣例(training examples):用來進行訓練,也就是產生模型或者演算法的資料集
測試集:(testing set/data)/測試樣例(testing examples):用來專門進行測試已經學習好的模型或者演算法的資料集
特徵向量(features/feature vector):屬性的集合,通常用一個向量來表示,附屬於一個例項(上例中的影響因素組成的向量)
標記(lable):例項類別的標記,c(x)
正例(positive example)(上例中享受運動的例項)
反例(negative example)(上例中不享受運動的例項)
3、機器學習中可以分為兩類最基本的問題
分類(classification):目標標記為類別性資料(category)
迴歸(regression):目標標記為連續性數值(continuous numeric value)
4、有監督學習(supervised learning):訓練集有類別標記(class lable)
無監督學習(unsupervised learning):無類別標記
半監督學習(semi-supervised learning):有類別標記的訓練集+無類別標記的訓練集
5、機器學習步驟框架:
- 把資料拆分為訓練集和測試集
- 用訓練集和訓練集的特徵向量來訓練演算法
- 用學習來的演算法運用在測試集上來評估演算法(可能要涉及到調整引數(parameter tuning),用驗證集(validation set))
6、機器學習中分類和預測演算法的評估標準:
- 準確率
- 速度(演算法複雜度)
- 強壯性(資料中有噪音或者部分數值缺失,演算法表現)
- 可規模性(當資料變得很大時,會不會出現問題)
- 可解釋性(能否容易解釋演算法分類與我們直覺相符)