欠取樣（undersampling）和過取樣（oversampling）會對模型帶來怎樣的影響

阿新 • • 發佈：2019-01-30

參考：知乎專欄

專案中出現了二分類資料不平橫問題，研究總結下對於類別不平橫問題的處理經驗：

1：為什麼類別不平橫會影響模型的輸出：

許多模型的輸出類別是基於閾值的，例如邏輯迴歸中小於0.5的為反例，大於則為正例。在資料不平衡時，預設的閾值會導致模型輸出傾向與類別資料多的類別。

因此可以在實際應用中，解決辦法包括：

1)調整分類閾值，使得更傾向與類別少的資料。

2）選擇合適的評估標準，比如ROC或者F1，而不是準確度（accuracy）

3）過取樣法（sampling）：來處理不平橫的問題。分為欠取樣(undersampling)和過取樣(oversampling)兩種，

過取樣：重複正比例資料，實際上沒有為模型引入更多資料，過分強調正比例資料，會放大正比例噪音對模型的影響。

欠取樣：丟棄大量資料，和過取樣一樣會存在過擬合的問題。

由於隨機過取樣採取簡單複製樣本的策略來增加少數類樣本，這樣容易產生模型過擬合的問題，即使得模型學習到的資訊過於特別(Specific)而不夠泛化(General)

4）資料合成：SMOTE（Synthetic Minority Oversampling Technique）即合成少數類過取樣技術，它是基於隨機過取樣演算法的一種改進方案，，SMOTE演算法的基本思想是對少數類樣本進行分析並根據少數類樣本人工合成新樣本新增到資料集中。

經驗：

欠取樣（undersampling）和過取樣（oversampling）會對模型帶來怎樣的影響

參考：知乎專欄專案中出現了二分類資料不平橫問題，研究總結下對於類別不平橫問題的處理經驗：1：為什麼類別不平橫會影響模型的輸出：許多模型的輸出類別是基於閾值的，例如邏輯迴歸中小於0.5的為反例，大於則為正例。在資料不平衡時，預設的閾值會導致模型輸出傾向與類別資料多的類別。因此可

Hinton Neural Networks課程筆記3e：如何利用梯度值訓練網路（學習策略和過擬合抑制）

這裡只是開了個頭，籠統的講了講如何利用梯度值訓練網路，包括優化演算法的部分以及防止過擬合的部分。 1. 優化演算法的部分這裡只提到了三個部分（具體要到第六節才講）：batch相關的抉擇、學習率相關的選擇、優化演算法的選擇。 batch相關的選項有

抽象類（abstract class）和接口（interface）有什麽異同？

否則繼承默認 strong 什麽成員 -s 實例 abstract 相同點： 1.抽象類和接口都不能被實例化，但可以定義抽象類和接口類型的引用。 2.一個類如果繼承了抽象類和接口，必須要對其中的抽象方法全部實現。（接口中方法默認的是public abstract修飾的

同步（Synchronous）和異步（Asynchronous）

就會一個方法調用這一開始訂單必須通知下單同步和異步通常用來形容一次方法調用。同步方法調用一旦開始，調用者必須等到方法調用返回後，才能繼續後續的行為。異步方法調用更像一個消息的傳遞，一旦開始，方法調用就會立即返回，調用者就可以繼續後續的操作。而異步方法通常會

java String長度與varchar長度匹配理解（字符和字節長度理解）

轉化筆記指定是我有一個 ati 法語 itl 情況 java String長度與varchar長度匹配理解（字符和字節長度理解） string中的length()長度，返回的是char的數量，每個char可以存儲世界上任何類型的文字和字符，一個char 而

C語言中存儲類別又分為四類：自動（auto）、靜態（static）、寄存器的（register）和外部的（extern）。

字符變量修飾例如 register ext 進行適合 sta -- 除法運算中註意：如果相除的兩個數都是整數的話，則結果也為整數，小數部分省略，如8/3 = 2；而兩數中有一個為小數，結果則為小數，如：9.0/2 = 4.500000。取余運算中註意：該運算只適

SpringMVC中文件的上傳（上傳到服務器）和下載問題（二）--------下載

cat exc stream log trac close pri page fin 一、建立一個簡單的jsp頁面。我們在建好的jsp的頁面中加入一個超鏈接：<a href="${pageContext.request.contextPath}/down

maven可選依賴（Optional Dependencies）和依賴排除（Dependency Exclusions）

許可 mave manage spa 兩個傳遞方式 mis ont 我們知道，maven的依賴關系是有傳遞性的。如：A-->B，B-->C。但有時候，項目A可能不是必需依賴C，因此需要在項目A中排除對A的依賴。在maven的依賴管理中，有兩種方式可以對依賴關

LeetCode 380. Insert Delete GetRandom O(1) （插入刪除和獲得隨機數常數時間）

delet size 利用 eat www. random called ret runtime Design a data structure that supports all following operations in average O(1) time.

UI自動化測試（二）瀏覽器操作及對元素的定位方法（xpath定位和css定位詳解）

cli 刷新 ota api enter 版本 ror apache 窗口 Selenium下的Webdriver工具支持FireFox(geckodriver)、 IE(InternetExplorerDriver)、Chrome(ChromeDriver)、 Opera

Linux運維之道之admin1.4（權限和歸屬，LADP認證）

達內 linux 運維admin admin1.4權限和歸屬：基本權限：基本權限的類別：訪問方式（權限）：---讀取：允許查看內容--read （r權限：能夠ls瀏覽此目錄內容）---寫入：允許修改內容--write （w權限：能夠執行rm/mv/cp/mkdir/touch等更

轉發（forward）和重定向（redirect）的區別

border 新的狀態 rec nbsp url req red 完成轉發與重定向的主要區別轉發重定向轉發是服務器行為重定向是客戶端行為轉發瀏覽器url不改變重定向瀏覽器url改變轉發request請求數據不丟失重定向request請

發個無聊時寫的俄羅斯方塊（分為SDL和Qt兩個版本）

app deb fcm cnn 無聊線程 dac tutorial spi 6213-ChineseZodiac(map) 多線程問題【CF472G】【XSY2112】DesignTutorial壓位大家都開始C++0x了,我也來湊熱鬧,今天的主題是《調侃rvalue

淺談淺克隆（shallow clone）和深克隆（deep clone）

turn ont row 控制臺 cep test 寫入 main supported 區別就在於是否對對象中的引用變量所指向的對象進行拷貝。 1.淺克隆/淺復制/淺拷貝　　淺拷貝是指在拷貝對象時，對於基本數據類型的變量會重新復制一份，而對於引用類型的變量只是對引用進行拷

乾頤堂安德全新HCNA真題解析版本（背好必過華為HCNA）第一部分共享

所有 ica 分支 net 中文 cer 診斷邏輯等級少見的題庫解析版，既有答案也有解釋，希望對您考取HCNA有幫助。另外一點忠告小白，千萬別信那些NA、NP包過，本身NA、NP也就是最初級的內容而已，背一背都會過，當然學習知識是主要的 1.STP 在提高網絡可靠性的

微服務架構 SpringCloud（二）Eureka（服務註冊和服務發現基礎篇）

col false -c conf gis 功能 pri desc sch 一：Eureka簡介 Eureka是Spring Cloud Netflix的一個子模塊，也是核心模塊之一。用於雲端服務發現，一個基於REST的服務，用於定位服務，以實現雲端中間層服務發現和故障轉移

表單提交（同步提交）和AJAX提交（異步提交）

接收為我 spa 提交 method 提交按鈕技術分享可能表單提交（同步提交） HTML文件： PHP文件：這樣就能接收到HTML裏輸入的內容，註意： FORM表頭method為POST，PHP文件獲取的方法就是$_POST，method為GET，PH

Linux後臺進程管理以及ctrl+z（掛起）、ctrl+c（中斷）、ctrl+（退出）和ctrl+d（EOF）的區別(轉)

列表 art 信息 csdn 而是 png detail tps 後臺一、後臺進程管理命令 fg、bg、jobs、&、ctrl + z、ctrl + c、ctrl + \、ctrl + d1、 &加在一個命令的最後，可以把這個命令放到後臺執行 ,如fire

C# 編程中的堆棧（Stack）和隊列（Queue）

的區別 bottom seq 序表 gin 數組 src 優秀順序隊列一、什麽是堆？（Heap）堆是無序的，是一片不連續的內存域，由用戶自己來控制和釋放，如果用戶自己不釋放的話，當內存達到一定的特定值時，通過垃圾回收器（GC）來回收。是程序運行期

python3開發進階-Django框架中的ORM的常用操作的補充（F查詢和Q查詢，事務）

這樣的 env atomic 實例 In git 必須 TE setup 閱讀目錄 F查詢和Q查詢事務一、F查詢和Q查詢 1、F查詢查詢前的準備 class Product(models.Model): name = mod

欠取樣（undersampling）和過取樣（oversampling）會對模型帶來怎樣的影響

相關推薦