1. 程式人生 > >python--DataFrame隨機抽樣

python--DataFrame隨機抽樣

平時工作中,經常遇到隨機抽樣的需求,可用Pandas庫中的sample函式,簡單又快捷。

官方文件解釋在這:sample

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

  • n: 要抽取的行數,需為整數值
  • frac:抽取的比列,需為小數值,比方說我們想隨機抽取30%的資料,則設定frac=0.3即可。
  • replace:抽樣後的資料是否代替原DataFrame(),預設為False
  • weights:預設為等概率加權
  • random_state:隨機種子,本質是一個控制器,設定此值為任意實數,則每次隨機的結果是一樣的
  • axis:抽取資料的行還是列,axis=0的時是抽取行,axis=1時是抽取列
import pandas
#隨機從rs資料集中抽取2000行資料,並且保證下次抽取時與此次抽取結果一樣
rs.sample(n=2000,random_state=123,axis=0)

#隨機從rs資料集中抽取50%的行資料
rs.sample(frac=0.5,axis=0)