1. 程式人生 > >機器學習(1):常見術語 | 模型 | 樣本 | 特徵 | 標籤

機器學習(1):常見術語 | 模型 | 樣本 | 特徵 | 標籤

說到機器學習,或討論這個事情時,什麼訓練、樣本、模型或演算法就會蹦出來,今時今日什麼事情大家都知道一點點,很多代表就是這樣來的。但是,對於真心想弄清楚一個事情的我們來說,應該要理解一些基本的術語,所以這裡就說一些機器學習時遇到的基本術語,也不是全部,說全部還太早。至於為什麼不說tf,因為tf是去到程式碼的級別了啊,這個他日再相逢。

(1)標籤

對於機器學習,我們經常說,要訓練機器,讓它達到一個最佳的狀態,然後用它來預測一些事情。所以,我們的目的,是預測一些資訊。

預測的資訊,叫作標籤。不預測,通過人工建立的資訊,也叫作標籤。標籤就是一個資訊。

由於資訊多種多樣,所以標籤也就多種多樣。

標籤可以表示一類物體,比如標籤是“蘋果”、“香蕉”,比如標籤是“紅色”、“橙色”。標籤可以表示變化,比如標籤是“明天的天氣”、“下半年的房價”、“這個股票的趨勢”。標籤可以表示含義,比如標籤是“01表示什麼”、“這個動作是什麼意思”。等等。

我們說某某人是什麼性格,這個就是打標籤,比如說某人很“風趣”、“穩重”,這些都是標籤,根據這些標籤就可以聚類,比如把“穩重”的人聚成一類。在數字時代,很多事物都可以打標籤,標籤也有意義。比如文章可以標籤:“java”、“機器學習”等,比如視訊可以標籤:“溫情”、“恐怖”等,音訊可以標籤:“民謠”、“慢節奏”、“男低音”等。

所以,標籤幾乎是你能想到的任何事物或事情。

(2)特徵

標籤是一個資訊,至於是什麼資訊,跟特徵有直接關係。

特徵就是一系列的資訊,用來表徵事物,映射出標籤。特徵應該是具體可量化的資訊,不包括主觀感受。

說一個人“穩重”,是根據這個人的特徵來評定的,比如TA再三確認問題、及時反饋進度、結束後回顧總結,等等,具備這些特徵,我們就給TA打上“穩重”的標籤。

(3)模型

模型,就是能訓練與預測的程式。

模型的訓練就是固化特徵與標籤的關係。

模型最終用於預測標籤,也就是根據特徵,判斷出標籤是什麼。

從訓練與預測的角度,模型的工作圖是這樣的:

從模型預測的資訊來看,可以把模型分為迴歸模型跟分類模型。

迴歸模型,用於預測“未來”會發生的事情,比如“明天騰訊的股值是否會上漲”。

分類模型,用於預測事物是哪一類,比如“這個東西是蘋果”。

(4)樣本

樣本是資料例項,是特徵的封裝。

樣本可以帶標籤,或不帶標籤。

帶標籤的樣本,可以用於模型的訓練。

不帶標籤的樣本,可用於模型的預測。

大量而特徵良好的帶標籤樣本,是機器學習的關鍵。

好了,就這麼多了。簡單來說,機器學習的概念可以從模型說起,模型就是具備預測能力的系統,可以預測末來(叫回歸模型),可以分類事物(叫分類模型)。模型接受訓練,而且一定要訓練,不斷訓練不斷進化,比如從一個正方形訓練成一個圓,再訓練成一個橢圓,而這個橢圓可能就是一個可用的預測狀態,這個訓練過程有可能是很漫長的。另一方面,要訓練,就一定要用到樣本,樣本就是特徵的集合,對於訓練,這個樣本必需要有標籤。什麼特徵就有什麼標籤,就是這個關係,訓練就是要強化模型對特徵與標籤的關係。所以,對於機器學習來說,有兩個關鍵,一個是良好的模型,另一個就是大量良好的樣本,而這兩個關鍵,真要感謝無私共享的人。


相關推薦

機器學習1常見術語 | 模型 | 樣本 | 特徵 | 標籤

說到機器學習,或討論這個事情時,什麼訓練、樣本、模型或演算法就會蹦出來,今時今日什麼事情大家都知道一點點,很多代表就是這樣來的。但是,對於真心想弄清楚一個事情的我們來說,應該要理解一些基本的術語,所以這裡就說一些機器學習時遇到的基本術語,也不是全部,說全部還太早。至於為什麼不說tf,因為tf是去到程式碼的級別

Java虛擬機器學習1體系結構 記憶體模型

JVM記憶體區域模型 1.方法區 也稱”永久代” 、“非堆”,  它用於儲存虛擬機器載入的類資訊、常量、靜態變數、是各個執行緒共享的記憶體區域。預設最小值為16MB,最大值為64MB,可以通過-XX:PermSize 和 -XX:MaxPermSize 引數限制方法區的大小。

機器學習 主要術語

機器學習研究如何通過計算的方式,利用資料集來改善系統自身的效能。 而深度學習是屬於機器學習的一個子分支。 機器學習的通用的兩種型別: 無監督學習:事先並沒有任務訓練資料的樣本,需要直接對資料進行建模型。 監督學習:通過已經有的訓練樣本(即輸入資訊和對應的輸出)來訓練,

OpenCV機器學習1貝葉斯分類器實現程式碼分析

OpenCV的機器學習類定義在ml.hpp檔案中,基礎類是CvStatModel,其他各種分類器從這裡繼承而來。 今天研究CvNormalBayesClassifier分類器。 1.類定義 在ml.hpp中有以下類定義: class CV_EXPORTS_W CvNorm

機器學習1K-MEANS聚類演算法

一、聚類簡介 1.無監督問題:我們手裡沒有標籤了 2.聚類:相似的東西分到一組 3.難點:如何評估,如何調參 二、基本概念: 1.K:要得到簇的個數,需要指定K 2.質心:均值,即向量各維取平均 3.距離的度量:常用歐幾里得距離和餘弦相似度(先標準化) 4.優化目標 (1)Ci代表

ArcGIS API for JavaScript學習1第一個地圖

樣式表 參數 資源 charset 底層 arcgis 順序 api navi 1.簡介 ArcGIS API for JavaScript跟隨ArcGIS 9.3同時發布,是ESRI根據JavaScript技術實現的調用ArcGIS Server REST API接口的一

facets學習1什麽是facets

遺失 air 不同的 無縫切換 over 快速 後來 樣式 觀察 ML 數據集可以包含數億個數據點,每個數據點由數百(甚至數千)的特征組成,幾乎不可能以直觀的方式了解整個數據集。為幫助理解、分析和調試 ML 數據集,谷歌開源了 Facets,一款可視化工具。 Facets

C++學習1最大子段和多種解法

多少 問題: code namespace 數據 組成 amp using () 問題:給定由n個數(可能為負數)組成的序列a1,a2,a3,...,an,求該序列子段和的最大值。 第一種解法:(最容易考慮的方法,將所有的子段一一相加,然後比較) 1 #include&

機器學習1 - TensorflowSharp 簡單使用與KNN識別MNIST流程

定義 機器學習算法 三角形 演示 ron static 分享 con 區別 機器學習是時下非常流行的話題,而Tensorflow是機器學習中最有名的工具包。TensorflowSharp是Tensorflow的C#語言表述。本文會對TensorflowSharp的使用進行一

人工智能與機器學習1

原理 特征 項目 類型 高考 存在 -- 題目 給他 初識人工智能與機器學習: (1)關系: 人工智能是一個產業,基礎是機器學習,機器學習是人工智能產業鏈下的一種方法,一種算法,深度學習則是機器學習的神經網絡算法的一種延伸,拓展。 (2)什麽是機器學習? 給機器提出一

Andrew Ng機器學習什麽是機器學習

中學 修正 style tar 輸入 color 情況 html 知識 1.什麽是機器學習? 自動化:讓計算機處理繁瑣和重復的工作。 編程:設計一種算法,適用於解決特定的問題。 機器學習:可以解決更廣泛的而不是特定的問題。類比於人類從經驗中學習這種活動,從已有的數據中發現自

Netty學習1Channel的概念

1. Channel Channel是Netty的核心概念之一,它是Netty網路通訊的主體,由它負責同對端進行網路通訊、註冊和資料操作等功能。 1.1 工作原理 如上圖所示: 一旦使用者端連線成功,將新建一個channel同該使用者端進行繫結 channel從EventL

ADB 學習1adb devices 命令

一、前言         關於環境搭建問題,這裡就不在寫了,之前在上一篇 monkey 環境搭建中,寫的也比較詳細,點選傳送門         因為monkey這個工具在執行時就是通過adb這個命令來與我們的

Jenkins 學習1Windows系統下安裝

一、jenkins是什麼?         還是小白,先放個連結:https://blog.csdn.net/ios_xumin/article/details/78125913   二、下載jenkins   &nbs

three.js學習1

1.three.js是: three.js是用JavaScript編寫的WebGL第三方庫。官網(www.threejs.org) 2.three.js功能: three.js 是一款執行在瀏覽器中的 3D 引擎,你可以用它建立各種三維場景,包括了攝影機、光影、材質等各種物件。 3.thre

用python來實現機器學習線性迴歸linear regression

需要下載一個data:auto-mpg.data 第一步:顯示資料集圖 import pandas as pd import matplotlib.pyplot as plt columns = ["mpg","cylinders","displacement","horsepowe

深入學習Redis1Redis記憶體模型

前言 Redis是目前最火爆的記憶體資料庫之一,通過在記憶體中讀寫資料,大大提高了讀寫速度,可以說Redis是實現網站高併發不可或缺的一部分。 我們使用Redis時,會接觸Redis的5種物件型別(字串、雜湊、列表、集合、有序集合),豐富的型別是Redis相對於Memca

機器學習logistic迴歸

基礎知識: logistic迴歸其實是一個分類問題,可以定義如下:c為2時是一個兩類分類問題. 當分佈為伯努利分佈時:    logistic迴歸和線性迴歸類似,不同的條件概率是不同的,方程如下: 其中:sigmoid函式定義如下: 使用logist

機器學習機器學習中的幾個基本概念

前言 對於《統計學習方法》中遇到的一些問題,以及機器學習中的一些自己沒有理解透徹的問題,希望通過梳理總結能夠有更深入的理解。 在上一章最開始我們已經概括了統計學習方法的三要素,即模型、策略、演算法,這裡就不再詳述了。 本文討論總結了如下幾個概念:損失函式與風險

【原】Andrew Ng斯坦福機器學習1——Lecture 1_Introduction and Basic Concepts

Lecture 1  Introduction and Basic Concepts   Lecture1 分4個視訊,主要講了 視訊1 - 2 - What is Machine Learning_ (7 min) 0、機器學習定義 • Arthur Samuel (1959). M