Python與Pandas各自使用的幾個重要函式

阿新 • • 發佈：2020-11-19

Python 的幾個重要函式：

1、Lambda表示式：

語法： lambda argument1, argument2,...,argumentN:expression using arguments
lambda實質上是一個表示式，冒號後面的部分是表示式的返回值，使用它就可以很方便的用於不允許def出現的地方，如列表中或函式的引數中。

例1：引數無預設值，位置引數：

f=lambda x,y,z:x+y+z
print f(1,2,3) # 6

例2：引數有預設值，位置引數，關鍵字引數：

f=lambda a="I", b="Love", c ="Python": a+b+c
f("We") # 'WeLovePython'

f=lambda a="I", b="Love", c ="Python": a+b+c
f(b="Hate") # 'IHatePython'

f=lambda a,b="Love", c="Python": a+b+c # 需要同時有位置引數和關鍵字引數的時候，位置引數靠前。
f("We",b="Hate",c="US") # 'WeHateUS'

例3：求階乘：結合reduce函式（稍後講）：

from functools import reduce
n = 6
print(reduce(lambda x,y:x*y,range(1,n+1))) # 720

例4：lambda的巢狀使用：

b = lambda x:lambda y:x+y
a = b(3) # 返回一個lambda表示式： a=lambda y:3+y
print (a(2)) # 實際執行： a=lambda y:3+y a(2) 結果：5
print ((b(2))(2)) # 實際執行： f=lambda y:2+y f(2) 結果：4

相當於：
def f(x):
return lambda y:x+y

a=f(3) # 返回一個lambda表示式： a=lambda y:3+y
print(a(2)) # 實際執行： a=lambda y:3+y a(2) 結果：5
print((b(2))(2)) # 實際執行： f_=lambda y:2+y f_(2) 結果：4

例5：在列表中使用：用於生成跳轉表：

L = [lambda x:x2, lambda x:x3, lambda x:x**4]
for f in L:
print(f(2)) # 4 8 16

例6：lambda 和 if...else 結合使用：

f=lambda x:x2 if (x % 2)==0 else x3
print(f(2)) # 4
print(f(3)) # 27

2、map函式：

語法：map(function, iterable)
第一個引數是函式名或lambda表示式，第二個元素傳入可迭代物件。
作用：使用函式對可迭代物件中的每個元素進行處理，得到map object，可以使用list/set函式轉化為列表/集合：

例1：

l1 = [1,2,3,4,5]
result = map(lambda x:x+1,l1)
print(result) # <map object at 0x000002370FF3BB48>
print(list(result)) # [2, 3, 4, 5, 6]

例2：

result = map(lambda x:"D" if x=="d" else x,s)
print(result) # <map object at 0x000002370FF47B88>
sl=list(result)
print(sl) # ['a', 'b', 'c', 'D', 'e', 'f', 'g']
new_s="".join(sl)
print(new_s) # abcDefg

ss=set(result)
print(ss) # {'f', 'b', 'a', 'e', 'c', 'D', 'g'}

print(str(result)) # <map object at 0x000002370FF47B88>

3、reduce函式：

語法：reduce(function, sequence[,initial=None]) function可以是lambda表示式：
第一個引數是函式，第二個引數為序列(需要能對該序列進行for迴圈即可)，第三個引數為initial=None。
作用：利用function函式對sequence進行聚縮，獲得一個數字。

例1：列表求積：

from functools import reduce
ls = [1,2,3,4,5,6,7,8,9]
a = reduce(lambda x,y: x*y, ls,1)
print(a) # 362880

例2：求階乘

from functools import reduce
n = 6
print(reduce(lambda x,y:x*y,range(1,n+1))) # 720

4、filter函式

語法：filter(function, iterable)
第一個引數是function，第二個iteralbel。
作用：過濾，留下使function返回值為True的iteralbel的元素：

例1：# 將列表中的偶數保留：

li=[2,3,4,5,6,7,8,9]
li_new=filter(lambda x:x%2==0,li)
print(list(li_new)) # [2, 4, 6, 8]

例2：# 將年齡大於18歲的剔除

people=[
{'name':'aaa','age':11},
{'name':'bbb','age':18},
{'name':'ccc','age':20}
]
print(list(filter(lambda x:x['age'] <= 18 ,people)))

Pandas中的幾個重要的函式：

Series的幾個函式：

1、map函式：只用於 Series:

語法：Series.map(dict) 或 Series.map(function)
作用：對序列中滿足字典或函式規定的元素進行處理，其中function只接受一個引數，即Series裡對應的每個元素。

例1：把資料集中gender列的男替換為1，女替換為0：

1）使用字典進行對映：

data["gender"] = data["gender"].map({"男":1, "女":0})

2）使用 def函式：

def gender_map(x):
return 1 if x == "男" else 0

data["gender"] = data["gender"].map(gender_map) #注意這裡傳入的是函式名，不帶括號

3) 使用 lambda表示式：

data["gender"] = data["gender"].map(lambda x:1 if x=="男" else 0)

2、apply函式：

語法：Series.apply(function)
作用：apply方法的作用原理和map方法類似，區別在於引數function可以接收多個引數，因此實現的功能可以更復雜。

例1：假設在資料統計的過程中，年齡age列有較大誤差，需要對其進行調整（加上或減去一個值），

由於這個加上或減去的值未知，故在定義函式時，需要加多一個引數bias，此時用map方法是操作不了的（傳入map的函式只能接收一個引數），
apply方法則可以解決這個問題：
def apply_age(x,bias):
return x+bias

# 以args=元組的方式傳入額外的引數
data["age"] = data["age"].apply(apply_age,args=(-3,)) # 預設的引數就是Series裡的元素
data["age"] = data["age"].apply((lambda x,bias:x+bias),args=(-3,))
data["age"] = data["age"].apply(lambda x:x-3) # 如果 bias=-3是固定的，可以直接這樣。

例2：map和apply在function只接受一個引數時，效果一樣：

import pandas as pd
import numpy as np

df_hz["淨重是否一致？"]=df_hz["淨重是否一致？"].apply(lambda x:"一致"if x==True else "不一致")

df_hz["淨重是否一致？"]=df_hz["淨重是否一致？"].map(lambda x:"一致" if x==True else "不一致")

df = pd.DataFrame(np.random.rand(2, 2), columns=list('AB')) # 形狀為2x2的0-1之間的數構成的dataframe
print(df)
df["A"]=df["A"].apply((lambda x,y:x+y),args=(1,))
print(df)

df_score = pd.DataFrame(np.random.rand(2, 2)*100, columns=list('AB')) # 形狀為2x2的0-1之間的數構成的dataframe
print(df_score)
df_score["A"]=df_score["A"].apply(lambda x:"優秀"if x>=80 else "一般")
print(df_score)

df_score2 = pd.DataFrame(np.random.rand(2, 2)*100, columns=list('AB')) # 形狀為2x2的0-1之間的數構成的dataframe
print(df_score2)
df_score2["A"]=df_score2["A"].map(lambda x:"優秀"if x>=80 else "一般")
print(df_score2)

DataFrame的幾個函式：

1、apply函式：

語法：dataframe.apply(function,axis=0)
作用：對dataframe的多行或多列或整個dataframe的每行或每列（Series）進行操作,根據function的型別(普通函式或聚合函式),返回dataframe或聚合Series。
function接收的引數是序列，而不是元素。

例1：

df = pd.DataFrame(np.random.rand(6, 3), columns=list('ABC'))
print(df)
df1=df.apply(lambda x:x*100,axis=1) # x為行Series,按行操作元素,返回一個結構和原dataframe一樣的新的dataframe
print(df1)
A B C
0 33.538653 71.249145 5.037846
1 33.046605 19.985572 82.762447
2 14.170736 96.949203 19.425454
3 57.596054 8.871985 84.138249
4 60.109552 46.197523 36.904565
5 41.205720 64.347780 74.839440

df2=df[["A","C"]].apply(lambda x:x*-100,axis=0) # x為列Series,按列操作元素,返回一個只含"A"和"C"列的dataframe
print(df2)
A C
0 -42.431966 -15.729176
1 -1.908547 -26.970564
2 -54.378145 -1.202459
3 -64.568167 -9.193546
4 -91.014507 -13.606579
5 -93.857594 -34.910796

例2：

df_new=df[["B","C"]].apply(np.sum, axis=0) # x為列Series,按列求和,返回一個序列 Series
print(df_new)

2、applymap函式：

語法：dataframe.applymap(function)
作用：對DataFrame中的每個元素執行指定函式的操作：

例1：對dataframe中所有元素保留兩位小數：

df = pd.DataFrame(
{
"A":np.random.randn(5),
"B":np.random.randn(5),
"C":np.random.randn(5),
"D":np.random.randn(5),
"E":np.random.randn(5),
}
)
print(df)

df_new=df.applymap(lambda x:"%.2f" % x) # x為元素
df_new=df.apply(lambda x:"%.2f" % x) # 使用apply會報錯，因為 x為series不能作為float使用
print(df_new)

      A         B         C         D         E

0 -1.053736 0.272299 -0.999303 1.022918 0.401127
1 0.129401 0.387668 -1.225724 -0.015265 0.210593
2 0.397829 0.707525 -0.628846 -1.723541 -0.227998
3 0.977949 -0.874221 1.570470 0.818799 0.371058
4 -1.238976 1.072337 -0.076957 -0.204579 -0.708090

   A      B      C      D      E

0 -1.05 0.27 -1.00 1.02 0.40
1 0.13 0.39 -1.23 -0.02 0.21
2 0.40 0.71 -0.63 -1.72 -0.23
3 0.98 -0.87 1.57 0.82 0.37
4 -1.24 1.07 -0.08 -0.20 -0.71

3、apply與applymap的區別：

1）引數有區別，dataframe.apply需要指定axis，dataframe.applymap不需要；
2）引數裡function接收的引數型別不一樣，dataframe.apply的function接收的是Series，dataframe.applymap接收的是單個元素。

例1：驗證型別：

df = pd.DataFrame(
{
"A":np.random.randn(5),
"B":np.random.randn(5),
"C":np.random.randn(5),
"D":np.random.randn(5),
"E":np.random.randn(5),
}
)

df2=df[["A","C"]].apply(lambda x:type(x),axis=0) # 驗證apply裡function接收到的x的型別
df3=df[["A","C"]].applymap(lambda x:type(x)) # 驗證 x的型別
print(df2)

A <class 'pandas.core.series.Series'>
C <class 'pandas.core.series.Series'>
dtype: object

print(df3)
A C
0 <class 'float'> <class 'float'>
1 <class 'float'> <class 'float'>
2 <class 'float'> <class 'float'>
3 <class 'float'> <class 'float'>
4 <class 'float'> <class 'float'>