第一章 機器學習基本概念
阿新 • • 發佈:2017-11-18
經驗 amp 獨立 示例 特征向量 三維 容易 如果 包含
1.機器學習主要是通過計算機在已有的數據上(經驗)產生相應的模型(學習算法),在面臨新的情況時,模型能給出相應的判斷。所以說機器學習是研究學習算法的學問。
2基本術語
2.1以西瓜是否成熟為例,(色澤=青綠;根蒂=蜷縮;敲聲=濁響)這一條記錄稱為一個示例或樣本sample。樣本組成的集合稱為數據集;每一個示例包含幾個屬性,上例中包含三個屬性,我們稱之為三維,這個示例也可以看成是一個特征向量。一般的D={X1,X2,X3....}為一個數據集。
2.2從數據中學習的模型的過程稱之為“學習”或”訓練“,這個過程使用的數據稱之為訓練數據,得到模型。學到的模型反應了數據的某種潛在的規律,因此也稱為假設。這種規律本身稱之為真相(ground truth)。一切為了逼近真相。樣本一般滿足一個分布D,訓練數據一般滿足獨立同分布,所以訓練集越大,越容易準確預測。
2.3光有樣本sample還不行,要建立可預測的模型需要示例的結果,樣例(example),如((色澤=青綠;根蒂=蜷縮;敲聲=濁響),好瓜)。
2.4如果我們預測的是像好瓜,壞瓜這樣的離散值,此類學習任務稱之為“分類”,預測成熟度0.98這樣的連續值,此類學習任務稱之為”回歸“(regression)。
預測任務是希望通過對訓練集{(X1,y1),(X2,y2)...}進行學習建立一個從輸入空間X到輸出空間Y的映射,對於二分類Y={0,1},對於回歸Y=R實數集
2.5根據訓練數據是否有標記數據,分為無監督學習(聚類)和有監督學習(分類和回歸)。
2.6
第一章 機器學習基本概念