1. 程式人生 > 程式設計 >Pandas資料離散化原理及例項解析

Pandas資料離散化原理及例項解析

這篇文章主要介紹了Pandas資料離散化原理及例項解析,文中通過示例程式碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

為什麼要離散化

  • 連續屬性離散化的目的是為了簡化資料結構,資料離散化技術可以用來減少給定連續屬性值的個數。離散化方法經常作為資料探勘的工具
  • 扔掉一些資訊,可以讓模型更健壯,泛化能力更強

什麼是資料的離散化

連續屬性的離散化就是在連續屬性的值域上,將值域劃分為若干個離散的區間,最後用不同的符號或整數 值代表落在每個子區間中的屬性值

分箱

案例

1.先讀取股票的資料,篩選出p_change資料

data = pd.read_csv("./data/stock_day.csv")
p_change= data['p_change']

2.將股票漲跌幅資料進行分組

使用的工具:

  • pd.qcut(data,bins)——等深分箱:
    • 對資料進行分組將資料分組 一般會與value_counts搭配使用,統計每組的個數
  • series.value_counts():統計分組次數
# 自行分組
qcut = pd.qcut(p_change,10)
# 計算分到每個組資料個數
qcut.value_counts()

自定義區間分組:

  • pd.cut(data,bins)——等寬分箱:
    • bins是整數—等寬
    • bins是列表--自定義分箱
# 自己指定分組區間
bins = [-100,-7,-5,-3,3,5,7,100]
p_counts = pd.cut(p_change,bins)

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支援我們。