關於sklearn下class_weight引數的一點原始碼閱讀與測試

阿新 • • 發佈：2018-11-08

版權宣告：歡迎轉載，請註明原出處 https://blog.csdn.net/go_og/article/details/81281387

一直沒有很在意過sklearn的class_weight的這個引數的具體作用細節，只大致瞭解是是用於處理樣本不均衡。後來在簡書上閱讀svm鬆弛變數的一些推導的時候，看到樣本不均衡的帶來的問題時候，想更深層次的看一下class_weight的具體作用方式，

svm鬆弛變數的簡書連結：https://www.jianshu.com/p/8a499171baa9

該文中的樣本不均衡的描述：

“樣本偏斜是指資料集中正負類樣本數量不均，比如正類樣本有10000個，負類樣本只有100個，這就可能使得超平面被“推向”負類（因為負類數量少，分佈得不夠廣），影響結果的準確性。”

隨後翻開sklearn LR的原始碼：

我們以分類作為說明重點

在輸入引數class_weight=‘balanced’的時候：

# compute the class weights for the entire dataset y
if class_weight == "balanced":
class_weight = compute_class_weight(class_weight,
np.arange(len(self.classes_)),
y)
class_weight = dict(enumerate(class_weight))

進一步閱讀 compute_class_weight這個函式：

elif class_weight == 'balanced':
# Find the weight of each class as present in y.
le = LabelEncoder()
y_ind = le.fit_transform(y)
if not all(np.in1d(classes, le.classes_)):
raise ValueError("classes should have valid labels that are in y")
recip_freq = len(y) / (len(le.classes_) *
np.bincount(y_ind).astype(np.float64))
weight = recip_freq[le.transform(classes)]

compute_class_weight這個函式的作用是對於輸入的樣本，平衡類別之間的權重，下面寫段測試程式碼測試這個函式：

# coding:utf-8
from sklearn.utils.class_weight import compute_class_weight
class_weight = 'balanced'
label = [0] * 9 + [1]*1 + [2, 2]
print(label) # [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 2]
classes=[0, 1, 2]
weight = compute_class_weight(class_weight, classes, label)
print(weight) #[ 0.44444444 4. 2. ]
print(.44444444 * 9) # 3.99999996
print(4 * 1) # 4
print(2 * 2) # 4

如上圖所示，可以看到這個函式把樣本的平衡後的權重乘積為4，每個類別均如此。

關於class_weight與sample_weight在損失函式上的具體計算方式：

sample_weight *= class_weight_[le.fit_transform(y_bin)] # sample_weight 與 class_weight相乘
# Logistic loss is the negative of the log of the logistic function.
out = -np.sum(sample_weight * log_logistic(yz)) + .5 * alpha * np.dot(w, w)

上述可以看出對於每個樣本，計算的損失函式乘上對應的sample_weight來計算最終的損失。這樣計算而來的損失函式不會因為樣本不平衡而被“推向”樣本量偏少的類別中。

class_weight以及sample_weight並沒有進行不平衡資料的處理，比如，上下采樣。詳細參見SMOTE EasyEnsemble等。

--------------------- 本文來自摸摸小松鼠寶寶的CSDN 部落格，全文地址請點選：https://blog.csdn.net/go_og/article/details/81281387?utm_source=copy

關於sklearn下class_weight引數的一點原始碼閱讀與測試

版權宣告：歡迎轉載，請註明原出處 https://blog.csdn.net/go_og/article/details/81281387 一直沒有很在意過sklearn的class_weight的這個引數的具體作用細節，只大致瞭解是是用於處理樣本不均衡。後來在簡書上閱讀svm鬆弛變數的一些推導

Java序列化——Serializable、Externalizable原始碼閱讀與總結

序列化(Serialization)：是將物件的狀態資訊轉換為可以儲存或傳輸的形式的過程。更通俗地講，是將該物件欄位和狀態資訊以位元組流的方式輸出到目的地。一是實現pojo物件的讀寫操作，將每個物件轉換為位元組流，而這些位元組流可以被持久化到裝置上，再次讀取時會將位元組流

netty原始碼閱讀與分析----HashedWheelTimer

netty是一個基礎通訊框架，管理的連線數較多，可能多至百萬級，每一個連線都有或多或少有超時任務，比如傳送資料超時，心跳檢測等。如果為每一個連線都啟動一個Timer，不僅效率低下，而且佔用資源。基於論文Hashed and hierarchical timing wheels

JDK部分原始碼閱讀與理解

HashMap 1、 HashMap支援null的key和value； 2、 Equals會比較兩個Map地址，若地址不等，則迭代比較每個元素，都相同才返回true； 3、 Hashcode為每個元素Entry的hashcode的和； 4、 Entry是一個鍵值對封裝體，都複寫了Object的很多相應方法，建

Mac OS X 10.8.4下Android4.2.2原始碼下載與編譯

最近打算辭職了，離開一直在廈門實習的公司。本來這個月轉正，但我的內心告訴我，廈門太安逸了點。我必須去外面闖闖，還年輕啊，不想以後後悔。在這兩天不記得看到什麼東西需要Android原始碼。然後心血來潮打算編譯下Android原始碼，畢竟以前編譯失敗過，有點不服輸。下面記錄下這

netty4原始碼閱讀與分析----服務端啟動過程

本文是基於4.1.24-final版本，首先我們編寫個測試例子，然後根據例子一步步debug過程中閱讀原始碼。EventLoopGroup bossGroup=new NioEventLoopGroup(1); EventLoopGroup workerGro

ubantu16.04下caffe-cpu版本的安裝與測試

首先附上官網的安裝連結：http://caffe.berkeleyvision.org/install_apt.html 環境說明：我的系統版本為 ubantu16.04 ，只使用CPU 一、安裝相關依賴包 sudo apt-get install -y libatlas-b

linux下的zookeeper單機模式安裝與測試

一:zookeeper的執行前提:: zookeeper是java寫的,執行在jvm上,需要使用JDK1.6或更高的版本,java -version來檢視此伺服器是否安裝java 二:安裝zookeeper

Linux下藍芽耳機的配置與測試

一、在kernel中啟動藍芽支援在kernel中使用.config作kernel setting Device Driver -> Networking Support -> (M) Bluetooth Sub system Support 二、安裝軟體包 yum -y instal

python sklearn PCA原始碼閱讀：引數n_components的設定（設為‘mle’出錯的原因）

　　按照文章中對於n_components的介紹，我對一個1000x9000的array進行了主成分分析，n_components選擇為"mle“，即自動選擇（因為剛接觸PCA，並不知道咋設定( ˇˍˇ )），嘗試幾次，每次都會報出下面的錯誤.　　百思不得其解，終於通過閱讀原

Mac下一款不錯的原始碼閱讀軟體

1、支援多語言：Ada, C, C++, C#, Java, FORTRAN, Delphi, Jovial, and PL/M ，混合語言的project也支援 2、多平臺： Windows/Linux/Solaris/HP-UX/IRIX/MAC OS X 3、程式碼語法高亮、程式碼折迭

JDK原始碼閱讀：InterruptibleChannel與可中斷IO，ig牛逼

Java傳統IO是不支援中斷的，所以如果程式碼在read/write等操作阻塞的話，是無法被中斷的。這就無法和Thead的interrupt模型配合使用了。JavaNIO眾多的升級點中就包含了IO操作對中斷的支援。InterruptiableChannel表示支援中斷的Channel。我們常用的FileCha

Spring原始碼閱讀——BeanFactoryPostProcessor與BeanPostProcessor

摘要 Spring IoC容器允許BeanFactoryPostProcessor在容器例項化任何bean之前讀取bean的定義(配置元資料)，並可以修改它。 BeanFactoryPostProcessor： BeanFactory的後置處理器（處理的物件是BeanFact

Redis原始碼閱讀（六）叢集-故障遷移(下)

Redis原始碼閱讀（六）叢集-故障遷移(下) 　　最近私人的事情比較多，沒有抽出時間來整理部落格。書接上文，上一篇裡總結了Redis故障遷移的幾個關鍵點，以及Redis中故障檢測的實現。本篇主要介紹叢集檢測到某主節點下線後，是如何選舉新的主節點的。注意到Redis叢集是無中心的，那麼使用分散式一

SGISTL原始碼閱讀六迭代器下（traits程式設計技法）

SGISTL原始碼閱讀六迭代器下（traits程式設計技法）前言上一篇部落格我們瞭解了迭代器的相應型別，簡單的引數推導機制可以實現針對不同的型別進行不同的操作，但是這並不能解決所有的情況。本文章將要介紹_STL原始碼門鑰_——traits程式設計技法。凡是原生指標，都沒有

SGISTL原始碼閱讀四物件的構造與析構

SGISTL原始碼閱讀四物件的構造與析構前言前面我們提到，SGISTL將空間配置和物件的構造分開操作了，前面的文章我們對空間配置已經做了描述，下面我們來看一下如何構造和析構物件。深入原始碼 construc //接受一個指標和一個初值 template <c

SGISTL原始碼閱讀三空間配置器下（記憶體池memory pool）

SGISTL原始碼閱讀三空間配置器下（記憶體池memory pool）前言在上一個部落格我們講述了空間配置器的第二級配置器，它的關鍵點free-lists是依賴於記憶體池的。在refill中我們通過呼叫chunk_alloc函式來申請區塊，chunk_alloc的作用就是從記憶

SGISTL原始碼閱讀十六 deque容器下

SGISTL原始碼閱讀十六 deque容器下前言通過之前的學習我們對deque已經有了一個比較深入的瞭解,如圖所示：接下來將繼續學習deque的相關操作深入原始碼插入操作向deque末尾插入一個元素 void push_back(const value_

SGISTL原始碼閱讀十三 list容器下

SGISTL原始碼閱讀十三 list容器下前言我們將繼續介紹list的相關操作深入原始碼 remove remove的作用是刪除指定值的節點 template <class T, class Alloc> void list<T, All

SGISTL原始碼閱讀十 Vector容器下

SGISTL原始碼閱讀十 Vector容器下前言之前我們已經對vector進行了比較深入的學習，本文章繼續講解vector的其他相關操作深入原始碼 pop_back void pop_back() { --finish; destroy(f

關於sklearn下class_weight引數的一點原始碼閱讀與測試

相關推薦