機器學習(1):常見術語 | 模型 | 樣本 | 特徵 | 標籤
說到機器學習,或討論這個事情時,什麼訓練、樣本、模型或演算法就會蹦出來,今時今日什麼事情大家都知道一點點,很多代表就是這樣來的。但是,對於真心想弄清楚一個事情的我們來說,應該要理解一些基本的術語,所以這裡就說一些機器學習時遇到的基本術語,也不是全部,說全部還太早。至於為什麼不說tf,因為tf是去到程式碼的級別了啊,這個他日再相逢。
(1)標籤
對於機器學習,我們經常說,要訓練機器,讓它達到一個最佳的狀態,然後用它來預測一些事情。所以,我們的目的,是預測一些資訊。
預測的資訊,叫作標籤。不預測,通過人工建立的資訊,也叫作標籤。標籤就是一個資訊。
由於資訊多種多樣,所以標籤也就多種多樣。
標籤可以表示一類物體,比如標籤是“蘋果”、“香蕉”,比如標籤是“紅色”、“橙色”。標籤可以表示變化,比如標籤是“明天的天氣”、“下半年的房價”、“這個股票的趨勢”。標籤可以表示含義,比如標籤是“01表示什麼”、“這個動作是什麼意思”。等等。
我們說某某人是什麼性格,這個就是打標籤,比如說某人很“風趣”、“穩重”,這些都是標籤,根據這些標籤就可以聚類,比如把“穩重”的人聚成一類。在數字時代,很多事物都可以打標籤,標籤也有意義。比如文章可以標籤:“java”、“機器學習”等,比如視訊可以標籤:“溫情”、“恐怖”等,音訊可以標籤:“民謠”、“慢節奏”、“男低音”等。
所以,標籤幾乎是你能想到的任何事物或事情。
(2)特徵
標籤是一個資訊,至於是什麼資訊,跟特徵有直接關係。
特徵就是一系列的資訊,用來表徵事物,映射出標籤。特徵應該是具體可量化的資訊,不包括主觀感受。
說一個人“穩重”,是根據這個人的特徵來評定的,比如TA再三確認問題、及時反饋進度、結束後回顧總結,等等,具備這些特徵,我們就給TA打上“穩重”的標籤。
(3)模型
模型,就是能訓練與預測的程式。
模型的訓練就是固化特徵與標籤的關係。
模型最終用於預測標籤,也就是根據特徵,判斷出標籤是什麼。
從訓練與預測的角度,模型的工作圖是這樣的:
從模型預測的資訊來看,可以把模型分為迴歸模型跟分類模型。
迴歸模型,用於預測“未來”會發生的事情,比如“明天騰訊的股值是否會上漲”。
分類模型,用於預測事物是哪一類,比如“這個東西是蘋果”。
(4)樣本
樣本是資料例項,是特徵的封裝。
樣本可以帶標籤,或不帶標籤。
帶標籤的樣本,可以用於模型的訓練。
不帶標籤的樣本,可用於模型的預測。
大量而特徵良好的帶標籤樣本,是機器學習的關鍵。
好了,就這麼多了。簡單來說,機器學習的概念可以從模型說起,模型就是具備預測能力的系統,可以預測末來(叫回歸模型),可以分類事物(叫分類模型)。模型接受訓練,而且一定要訓練,不斷訓練不斷進化,比如從一個正方形訓練成一個圓,再訓練成一個橢圓,而這個橢圓可能就是一個可用的預測狀態,這個訓練過程有可能是很漫長的。另一方面,要訓練,就一定要用到樣本,樣本就是特徵的集合,對於訓練,這個樣本必需要有標籤。什麼特徵就有什麼標籤,就是這個關係,訓練就是要強化模型對特徵與標籤的關係。所以,對於機器學習來說,有兩個關鍵,一個是良好的模型,另一個就是大量良好的樣本,而這兩個關鍵,真要感謝無私共享的人。
相關推薦
機器學習(1):常見術語 | 模型 | 樣本 | 特徵 | 標籤
說到機器學習,或討論這個事情時,什麼訓練、樣本、模型或演算法就會蹦出來,今時今日什麼事情大家都知道一點點,很多代表就是這樣來的。但是,對於真心想弄清楚一個事情的我們來說,應該要理解一些基本的術語,所以這裡就說一些機器學習時遇到的基本術語,也不是全部,說全部還太早。至於為什麼不說tf,因為tf是去到程式碼的級別
Java虛擬機器學習(1):體系結構 記憶體模型
JVM記憶體區域模型 1.方法區 也稱”永久代” 、“非堆”, 它用於儲存虛擬機器載入的類資訊、常量、靜態變數、是各個執行緒共享的記憶體區域。預設最小值為16MB,最大值為64MB,可以通過-XX:PermSize 和 -XX:MaxPermSize 引數限制方法區的大小。
機器學習(一): 主要術語
機器學習研究如何通過計算的方式,利用資料集來改善系統自身的效能。 而深度學習是屬於機器學習的一個子分支。 機器學習的通用的兩種型別: 無監督學習:事先並沒有任務訓練資料的樣本,需要直接對資料進行建模型。 監督學習:通過已經有的訓練樣本(即輸入資訊和對應的輸出)來訓練,
OpenCV機器學習(1):貝葉斯分類器實現程式碼分析
OpenCV的機器學習類定義在ml.hpp檔案中,基礎類是CvStatModel,其他各種分類器從這裡繼承而來。 今天研究CvNormalBayesClassifier分類器。 1.類定義 在ml.hpp中有以下類定義: class CV_EXPORTS_W CvNorm
機器學習(1):K-MEANS聚類演算法
一、聚類簡介 1.無監督問題:我們手裡沒有標籤了 2.聚類:相似的東西分到一組 3.難點:如何評估,如何調參 二、基本概念: 1.K:要得到簇的個數,需要指定K 2.質心:均值,即向量各維取平均 3.距離的度量:常用歐幾里得距離和餘弦相似度(先標準化) 4.優化目標 (1)Ci代表
ArcGIS API for JavaScript學習(1):第一個地圖
樣式表 參數 資源 charset 底層 arcgis 順序 api navi 1.簡介 ArcGIS API for JavaScript跟隨ArcGIS 9.3同時發布,是ESRI根據JavaScript技術實現的調用ArcGIS Server REST API接口的一
facets學習(1):什麽是facets
遺失 air 不同的 無縫切換 over 快速 後來 樣式 觀察 ML 數據集可以包含數億個數據點,每個數據點由數百(甚至數千)的特征組成,幾乎不可能以直觀的方式了解整個數據集。為幫助理解、分析和調試 ML 數據集,谷歌開源了 Facets,一款可視化工具。 Facets
C++學習(1):最大子段和(多種解法)
多少 問題: code namespace 數據 組成 amp using () 問題:給定由n個數(可能為負數)組成的序列a1,a2,a3,...,an,求該序列子段和的最大值。 第一種解法:(最容易考慮的方法,將所有的子段一一相加,然後比較) 1 #include&
機器學習(1) - TensorflowSharp 簡單使用與KNN識別MNIST流程
定義 機器學習算法 三角形 演示 ron static 分享 con 區別 機器學習是時下非常流行的話題,而Tensorflow是機器學習中最有名的工具包。TensorflowSharp是Tensorflow的C#語言表述。本文會對TensorflowSharp的使用進行一
人工智能與機器學習(1)
原理 特征 項目 類型 高考 存在 -- 題目 給他 初識人工智能與機器學習: (1)關系: 人工智能是一個產業,基礎是機器學習,機器學習是人工智能產業鏈下的一種方法,一種算法,深度學習則是機器學習的神經網絡算法的一種延伸,拓展。 (2)什麽是機器學習? 給機器提出一
Andrew Ng機器學習(零):什麽是機器學習
中學 修正 style tar 輸入 color 情況 html 知識 1.什麽是機器學習? 自動化:讓計算機處理繁瑣和重復的工作。 編程:設計一種算法,適用於解決特定的問題。 機器學習:可以解決更廣泛的而不是特定的問題。類比於人類從經驗中學習這種活動,從已有的數據中發現自
Netty學習(1):Channel的概念
1. Channel Channel是Netty的核心概念之一,它是Netty網路通訊的主體,由它負責同對端進行網路通訊、註冊和資料操作等功能。 1.1 工作原理 如上圖所示: 一旦使用者端連線成功,將新建一個channel同該使用者端進行繫結 channel從EventL
ADB 學習(1):adb devices 命令
一、前言 關於環境搭建問題,這裡就不在寫了,之前在上一篇 monkey 環境搭建中,寫的也比較詳細,點選傳送門 因為monkey這個工具在執行時就是通過adb這個命令來與我們的
Jenkins 學習(1):Windows系統下安裝
一、jenkins是什麼? 還是小白,先放個連結:https://blog.csdn.net/ios_xumin/article/details/78125913 二、下載jenkins &nbs
three.js學習(1):
1.three.js是: three.js是用JavaScript編寫的WebGL第三方庫。官網(www.threejs.org) 2.three.js功能: three.js 是一款執行在瀏覽器中的 3D 引擎,你可以用它建立各種三維場景,包括了攝影機、光影、材質等各種物件。 3.thre
用python來實現機器學習(一):線性迴歸(linear regression)
需要下載一個data:auto-mpg.data 第一步:顯示資料集圖 import pandas as pd import matplotlib.pyplot as plt columns = ["mpg","cylinders","displacement","horsepowe
深入學習Redis(1):Redis記憶體模型
前言 Redis是目前最火爆的記憶體資料庫之一,通過在記憶體中讀寫資料,大大提高了讀寫速度,可以說Redis是實現網站高併發不可或缺的一部分。 我們使用Redis時,會接觸Redis的5種物件型別(字串、雜湊、列表、集合、有序集合),豐富的型別是Redis相對於Memca
機器學習(二):logistic迴歸
基礎知識: logistic迴歸其實是一個分類問題,可以定義如下:c為2時是一個兩類分類問題. 當分佈為伯努利分佈時: logistic迴歸和線性迴歸類似,不同的條件概率是不同的,方程如下: 其中:sigmoid函式定義如下: 使用logist
機器學習(二):機器學習中的幾個基本概念
前言 對於《統計學習方法》中遇到的一些問題,以及機器學習中的一些自己沒有理解透徹的問題,希望通過梳理總結能夠有更深入的理解。 在上一章最開始我們已經概括了統計學習方法的三要素,即模型、策略、演算法,這裡就不再詳述了。 本文討論總結了如下幾個概念:損失函式與風險
【原】Andrew Ng斯坦福機器學習(1)——Lecture 1_Introduction and Basic Concepts
Lecture 1 Introduction and Basic Concepts Lecture1 分4個視訊,主要講了 視訊1 - 2 - What is Machine Learning_ (7 min) 0、機器學習定義 • Arthur Samuel (1959). M