自監督學習的知識點總結

阿新 • • 發佈：2022-03-17

本篇文章將對自監督學習的要點進行總結，包括以下幾個方面：

監督學習與自監督學習
自監督學習需求背後的動機
NLP 和CV中的自監督學習
聯合嵌入架構
對比學習
關於資料增強的有趣觀察
非對比學習
總結和參考

監督學習與自監督學習

監督學習：機器學習中最常見的方法是監督學習。在監督學習中，我們得到一組標記資料（X，Y），即（特徵，標籤），我們的任務是學習它們之間的關係。但是這種方法並不總是易於處理，因為-

訓練通常需要大量資料，而標記數百萬行資料既耗時又昂貴，這就對許多不同任務的訓練模型造成了瓶頸。
以這種方式訓練的模型通常非常擅長手頭的任務，但不能很好地推廣到相關但是非相同領域內的任務。因為網路只專注於學習 X 的良好表示以生成之間的直接對映X 和 Y ，而不是學習 X 的良好通用表示，所以無法轉移到類似的其他任務。

這種學習通常會導致對概念的非常膚淺的理解，即它學習了 X 和 Y 之間的關係（它優化了網路以學習這種對映），但它不理解 X 的實際含義或它背後的含義。

自監督學習 (Self-supervised learning / SSL)：自監督學習也適用於（特徵、標籤）資料集，即以監督的方式，但它不需要人工註釋的資料集。它的基本思想是遮蔽/隱藏輸入的某些部分，並使用可觀察的部分來預測隱藏的部分。正如我們將在下面看到的，這是一個非常強大的想法。但是我們不稱其為無監督學習是因為它仍然需要標籤，但不需要人工對其進行標註。

SSL的優勢是如果我們手頭有大量未標記的資料，SSL的方式可以讓我們利用這些資料。這樣模型可以學習更強大的資料底層結構的表示，並且這些表示比監督學習中學到的更普遍，然後我們可以針對下游任務進行微調。

需求和動機

在過去的 10 年裡，深度學習取得了長足的進步。幾年前被認為計算機似乎不可能完成的任務（例如機器翻譯、影象識別、分割、語音識別等）中，已經達到/超過了人類水平的表現。在經歷了十年的成功故事之後，深度學習現在正處於一個關鍵點，人們已經慢慢但肯定地開始認識到當前深度學習方法的基本侷限性。

人類和當前人工智慧的主要區別之一是人類可以比機器更快地學習事物，例如僅通過檢視 1-2 張照片來識別動物，只需 15-20 小時即可學會駕駛汽車。人類如何做到這一點？常識！雖然我們還不知道常識是如何產生的，但卻可以通過思考人類如何實際瞭解世界來做出一些有根據的猜測：

人類主要通過觀察學習，很少通過監督學習。從嬰兒出生的那一刻起（或者之前），它就不斷地聽到/看到/感覺到周圍的世界。因此，發生的大部分學習只是通過觀察。

人類可以利用隨著時間的推移獲得的知識（感知、運動技能、基礎物理來幫助導航世界等），而當前的 SOTA 機器卻不能。

自監督學習通過學習從未遮蔽部分預測資料的遮蔽部分來模仿的人類這部分的能力。

完整文章：

https://www.overfit.cn/post/c6185b513a564c6cb5022abe0bafcbec

自監督學習的知識點總結

監督學習與自監督學習

需求和動機

自監督學習的知識點總結

NeurIPS 2020 | 資料類別不平衡/長尾分佈？不妨利用半監督或自監督學習

Self2Self With Dropout: Learning Self-Supervised Denoising From Single Image【使用單張影象進行自監督學習去噪】

基於關係推理的自監督學習無標記訓練

元學習、遷移學習、對比學習、自監督學習與少樣本學習的關係解讀

華為釋出業內最大 2D 自動駕駛資料集：10 倍於 Waymo，主打半/自監督學習

20192418彙編程式設計1~4章學習知識點總結

監督學習無監督學習半監督學習自監督學習

機器學習的非監督學習總結

HTML知識點總結學習

自訓練和半監督學習介紹

機器學習演算法-邏輯迴歸（三）、邏輯迴歸分類重要知識點總結

spring async 預設執行緒池_Spring Boot非同步方法&自定義執行緒池知識點總結

vue3.0自定義指令（drectives)知識點總結

機器學習和深度學習知識路線及知識點總結

監督學習，無監督學習常用演算法集合總結，引用scikit-learn庫（監督篇）

深度學習面試知識點總結

Java Web中JSP的include 指令知識點總結——每日一語法學習

Java Web中JSP中6種動作概況知識點總結——每日一語法學習

二叉樹學習以及總結

自監督學習的知識點總結

監督學習與自監督學習

需求和動機

相關推薦