box-cox轉換及變換引數lambda估算方法

阿新 • • 發佈：2018-12-04

我們進行資料轉換的原因是：除了小樣本可以考慮非引數，大部分的統計原理和引數檢驗都是基於正態分佈推得。

關於box-cox轉換的基礎內容請看：BoxCox-變換方法及其實現運用.pptx

通過上面的內容可以知道，

boxcox1p變換中y+c的+c是為了確保(y+c)>0,因為在boxcox變換中要求y>0
python程式碼：
y_boxcox = special.boxcox1p(y, lam_best) 利用llf獲得優化後的lambda或boxcox_normmax(x) 得到優化後的lambda

boxcox_normmax(x)說明，詳情見https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.boxcox_normmax.html

scipy.stats.boxcox_normmax(x, brack=(-2.0, 2.0), method='pearsonr')[source]
Compute optimal Box-Cox transform parameter for input data.

Parameters:	
x : array_like 	Input array.
brack : 2-tuple, optional
	The starting interval for a downhill bracket search with optimize.brent. Note that this is in most cases not critical; the final result is allowed to be outside this bracket.
method : str, optional
	The method to determine the optimal transform parameter (boxcox lmbda parameter). Options are:
		‘pearsonr’ (default)
		Maximizes the Pearson correlation coefficient between y = boxcox(x) and the expected values for y if x would be normally-distributed.
		‘mle’
		Minimizes the log-likelihood boxcox_llf. This is the method used in boxcox. ()
		‘all’
		Use all optimization methods available, and return all results. Useful to compare different methods.
		Returns:	
		maxlog : float or ndarray
		The optimal transform parameter found. An array instead of a scalar for method='all'.

接下來，用kaggle中House Prices: Advanced Regression Techniques比賽的資料集做個練習。

scipy.stats.boxcox_llf使用詳見https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.boxcox_llf.html

import pandas as pd
import numpy as np
from scipy import stats,special
import matplotlib.pyplot as plt

train = pd.read_csv('./data/train.csv')
y = train['SalePrice']
print(y.shape)

lam_range = np.linspace(-2,5,100)  # default nums=50
llf = np.zeros(lam_range.shape, dtype=float)

# lambda estimate:
for i,lam in enumerate(lam_range):
    llf[i] = stats.boxcox_llf(lam, y)		# y 必須>0

# find the max lgo-likelihood(llf) index and decide the lambda
lam_best = lam_range[llf.argmax()]
print('Suitable lam is: ',round(lam_best,2))
print('Max llf is: ', round(llf.max(),2))

plt.figure()
plt.axvline(round(lam_best,2),ls="--",color="r")
plt.plot(lam_range,llf)
plt.show()
plt.savefig('boxcox.jpg')

# boxcox convert:
print('before convert: ','\n', y.head())
#y_boxcox = stats.boxcox(y, lam_best)
y_boxcox = special.boxcox1p(y, lam_best)
print('after convert: ','\n',  pd.DataFrame(y_boxcox).head())

# inverse boxcox convert:
y_invboxcox = special.inv_boxcox1p(y_boxcox, lam_best)
print('after inverse: ', '\n', pd.DataFrame(y_invboxcox).head())

結果如下，

比外，也可以通過scipy.stats.boxcox_normplot確定lambda，詳見http://scipy.github.io/devdocs/generated/scipy.stats.boxcox_normplot.html

box-cox轉換及變換引數lambda估算方法

我們進行資料轉換的原因是：除了小樣本可以考慮非引數，大部分的統計原理和引數檢驗都是基於正態分佈推得。關於box-cox轉換的基礎內容請看：BoxCox-變換方法及其實現運用.pptx 瞭解極大似然估計：極大似然估計思想的最簡單解釋通過上面的內容可以知道，

box-cox 轉換

gist 性能 spa head 建立 http 推導關於 blank box-cox 由於線性回歸是基於正態分布的前提假設，所以對其進行統計分析時，需經過數據的轉換，使得數據符合正態分布。 Box 和 Cox在1964年提出的Box-Co

結構化數據轉換（Box-Cox)

結構化圖片 com 線性局限性對數 size 結構化數據 bubuko 線性回歸時若數據不服從正態分布，會給線性回歸的最小二乘估計系數的結果帶來誤差，所以需要對數據進行結構化轉換。常用數據轉換方式為： P值比較普通數據轉化的局限性對

Box-Cox變換

因變量 ecc 綜合 bce 對數 tin bsp 分享圖片關系簡介編輯 Box-Cox變換的一般形式為：式中為經Box-Cox變換後得到的新變量，為原始連續因變量，為變換參數。以上變換要求原始變量取值為正，若取值為負時，可先對

根據仿射變換引數實現從地理座標轉換為影象座標的一個思考

作者：朱金燦一般而言，從仿射變換引數實現從地理座標轉換為影象座標（行列號座標）遵循以下公式：Col = GT(0) + Xgeo*GT(1)+ Ygeo*GT(2)Row = GT(

最全面的Java字節byte操作,處理Java基本數據的轉換及進制轉換操作工具,流媒體及java底層開發項目常用工具類

進制 string 常用工具類 cat i++ logs 指定位置 tput off 前言：用於處理Java基本數據的轉換及進制轉換操作工具一、實現功能 1、int預byte互轉 2、int與byte[]互轉 3、short與byte互轉 4、short與byte[]互轉

Java 8 類型轉換及改進

操作符實例 pre -c 目標實現 com trac 證明為對象的類型做強制轉換是一種很不好的設計。但在某些情況下，我們沒有其它選擇。Java自誕生的那一天起，就具備這樣的功能。我覺得Java 8在一定程度改善了這項古老的技術。靜態轉型 Java中最經

進制轉換及位運算符

index 位運算其余 dia 間接 cbe 不足 hot 十六進制二進制與十進制之間的轉換 1 十進制轉二進制方法為：十進制數除2取余法，即十進制數除2，余數為權位上的數，得到的商值繼續除2，依此步驟繼續向下運算直到商為0為止。（具體

軟件項目中的成本構成及估算方法【轉】

一個發生折舊費 art 載體計算機需求復雜度 content 隨著知識經濟、信息時代的來臨，計算機軟件業迅猛發展。商品化、資本化、資產化的計算機軟件的價值評估的社會需求也日益增多，而且有越來越多的趨勢。由於系統軟件通常是一些規模大、復雜程度高的人一機系統，因此

PowerDesigner概念模型與物理模型相互轉換及導出數據字典

microsoft 字典 ros 去掉相互轉換右擊 soft designer design 最近公司項目竣工，驗收完成後，把整體平臺的所有文檔都寫清楚，找包發給甲方，由於本人是維護數據庫工作，依上面要求，必須編寫《數據庫設計說明書》裏面格式包含三個部分：概念模型

sql 字符、數字類型自動轉換及運算

float 比較轉型 oat 運行數字 sel 只需要 decimal 本頁面所有內容也可以在oracle 運行，只需要把int、float 、decimal 改為 number類型即可 -- 字符串轉數字 int 類型 drop table test;create t

BeanUtils——JavaBean相互杏彩平臺帶保險理賠倉轉換及字典翻譯

dst ger 時報 filter 操作 oid 一個 script targe 在升級公司架構過程中杏彩平臺帶保險理賠倉（www.1159880099.com ）QQ1159880099，發現有大量Entity與DTO相互轉換的問題，並且其中還伴隨DTO中的數據字典翻譯，

三種常用碰撞類型的實現(Box,Sphere,CapsuleCollider)及接觸點獲取

info 分享圖片 html 實現狀態 ide aps image src git地址:https://gitee.com/Hont/ColliderDemo 大致邏輯說一下，首先每一種碰撞器需要一套質點到該碰撞器相應邊緣點的函數，後續不同類型的碰撞器都是基於這

進制轉換及字符分割

num strlen pac end col for ace std pre #include <iostream> #include <cstdio> #include <cstdlib> #include <cstring&

空域分析及變換（2）：高斯拉普拉斯金字塔

空域分析及變換（2）：高斯拉普拉斯金字塔引言 1、高斯金字塔 2、拉普拉斯金字塔 3、高斯金字塔與拉普拉斯金字塔引言影象處理–>空間域處理–>高斯金字塔、拉普拉斯金字塔.金字塔參考。影象金

空域分析及變換（1）：濾波卷積

空域分析及變換（1）：濾波卷積引言 1、均值濾波 2、中值濾波 3、高斯濾波 4、梯度Prewitt濾波 5、梯度Sobel濾波 6、梯度Sobel濾波 7、梯度Laplacian濾波 8、其他

Ajax上傳檔案及攜帶引數

HTML程式碼 <div class="form-group"> <label class="col-sm-2 control-label">檔案上傳</label> <div class="col-sm-10"

HttpClient使用方法及基本引數含義

一、方法使用HttpClient傳送請求、接收響應很簡單，一般需要如下幾步即可。 1. 建立HttpClient物件。 2. 建立請求方法的例項，並指定請求URL。如果需要傳送GET請求，建立HttpGet物件；如果需要傳送POST請求，建立HttpPost物件。 3. 如果需要傳送請

Ruby--陣列與字串轉換及去重

1 字串轉陣列 split(",") #字串a a = "12,34,56" #陣列a a = a.split(",") #a = ["12","34","56"] 2 陣列轉成字串 join(",") #陣列 a = ["12","34

Linux常用命令及命令引數

文章目錄 Linux常用命令及命令引數基本使用 1. 解壓和壓縮 2. 檢視磁碟使用情況 3. 檢視資料夾或檔案大小 4. 查詢檔案文字處理許可權和使用者相關

box-cox轉換及變換引數lambda估算方法

相關推薦