1. 程式人生 > 其它 >pandas基本操作

pandas基本操作

技術標籤:numpy筆記pythonnumpy機器學習pandas

pandas基本操作

  1. 介紹

    pandas 是基於NumPy的一種工具,該工具是為解決資料分析任務而建立的。Pandas 納入了大量庫和一些標準的資料模型,提供了高效地操作大型資料集所需的工具。

  2. Series建立物件

    通過Series建立物件,Series同列表類似,每個資料對應一個索引值

    from pandas import Series
    s = Series([1,4,'ww','tt'])
    print("通過series建立\n",s)
    通過series建立
    0     1
    1     4
    2
    ww 3 tt dtype: object

    tip:s.index,s.values可以顯示 Series 物件的資料值和索引

    Series 可以自定義索引

    s2 = Series(['wangwu','man',20],index=['name','sex','age'])
    
  3. DataFrame

    DataFrame是一種二維的資料結構,非常接近於電子表格或者類似 mysql 資料庫的形式。它的豎行稱之為 columns,橫行跟前面的 Series 一樣,稱之為 index,也就是說可以通過 columns 和 index 來確定一個主句的位置。

    from pandas import
    DataFrame data = {"name":['google','baidu','yahoo'],"marks":[100,200,300],"price":[1,2,3]} f1 = DataFrame(data)

    f1資料如下:

    ​ name marks price

    0 google 100 1
    1 baidu 200 2
    2 yahoo 300 3

  4. loc方法

    loc為Selection by Label函式,即為按標籤取資料

    import pandas as pd
    import numpy as np
    df=pd.DataFrame(np.
    random.randn(5,2),index=range(0,5,1),columns=list('AB'))

    df資料如下:

在這裡插入圖片描述

tip:iloc函式為Selection by Position,即按位置選擇資料,即第n行,第n列資料,只接受整型引數

  1. 條件篩選

    import pandas as pd
    import numpy as np
    df = pd.DataFrame({'A':[100, 200, 300, 400, 500], 'B':['a', 'b', 'c', 'd', 'e'], 'C':[1, 2, 3, 4, 5]})
    #找出df中A列值為100的所有資料(普通篩選)
    df[df.A==100]
    	A	B
    #找出df中A列值為100、200、300的所有資料(普通篩選)
    num = [100, 200, 300]
    df[df.A.isin(num)]
    	A	B
    #找出df中A列值為100且B列值為‘a’的所有資料(邏輯與篩選)
    df[(df.A==100)&(df.B=='a')]
    	A	B
    #找出df中A列值為100或B列值為‘b’的所有資料(邏輯或篩選)
    df[(df.A==100)|(df.B=='b')]
    	A	B