Pandas資料離散化原理及例項解析
阿新 • • 發佈:2020-01-09
這篇文章主要介紹了Pandas資料離散化原理及例項解析,文中通過示例程式碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
為什麼要離散化
- 連續屬性離散化的目的是為了簡化資料結構,資料離散化技術可以用來減少給定連續屬性值的個數。離散化方法經常作為資料探勘的工具
- 扔掉一些資訊,可以讓模型更健壯,泛化能力更強
什麼是資料的離散化
連續屬性的離散化就是在連續屬性的值域上,將值域劃分為若干個離散的區間,最後用不同的符號或整數 值代表落在每個子區間中的屬性值
分箱
案例
1.先讀取股票的資料,篩選出p_change資料
data = pd.read_csv("./data/stock_day.csv") p_change= data['p_change']
2.將股票漲跌幅資料進行分組
使用的工具:
- pd.qcut(data,bins)——等深分箱:
- 對資料進行分組將資料分組 一般會與value_counts搭配使用,統計每組的個數
- series.value_counts():統計分組次數
# 自行分組 qcut = pd.qcut(p_change,10) # 計算分到每個組資料個數 qcut.value_counts()
自定義區間分組:
- pd.cut(data,bins)——等寬分箱:
- bins是整數—等寬
- bins是列表--自定義分箱
# 自己指定分組區間 bins = [-100,-7,-5,-3,3,5,7,100] p_counts = pd.cut(p_change,bins)
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支援我們。