Python過濾序列元素的方法
問題
你有一個數據序列,想利用一些規則從中提取出需要的值或者是縮短序列
解決方案
最簡單的過濾序列元素的方法就是使用列表推導。比如:
>>> mylist = [1,4,-5,10,-7,2,3,-1] >>> [n for n in mylist if n > 0] [1,3] >>> [n for n in mylist if n < 0] [-5,-1] >>>
使用列表推導的一個潛在缺陷就是如果輸入非常大的時候會產生一個非常大的結果集,佔用大量記憶體。 如果你對記憶體比較敏感,那麼你可以使用生成器表示式迭代產生過濾的元素。比如:
>>> pos = (n for n in mylist if n > 0) >>> pos <generator object <genexpr> at 0x1006a0eb0> >>> for x in pos: ... print(x) ... 1 4 10 2 3 >>>
有時候,過濾規則比較複雜,不能簡單的在列表推導或者生成器表示式中表達出來。 比如,假設過濾的時候需要處理一些異常或者其他複雜情況。這時候你可以將過濾程式碼放到一個函式中, 然後使用內建的 filter() 函式。示例如下:
values = ['1','2','-3','-','4','N/A','5'] def is_int(val): try: x = int(val) return True except ValueError: return False ivals = list(filter(is_int,values)) print(ivals) # Outputs ['1','5']
filter() 函式建立了一個迭代器,因此如果你想得到一個列表的話,就得像示例那樣使用 list() 去轉換。
討論
列表推導和生成器表示式通常情況下是過濾資料最簡單的方式。 其實它們還能在過濾的時候轉換資料。比如:
>>> mylist = [1,-1] >>> import math >>> [math.sqrt(n) for n in mylist if n > 0] [1.0,2.0,3.1622776601683795,1.4142135623730951,1.7320508075688772] >>>
過濾操作的一個變種就是將不符合條件的值用新的值代替,而不是丟棄它們。 比如,在一列資料中你可能不僅想找到正數,而且還想將不是正數的數替換成指定的數。 通過將過濾條件放到條件表示式中去,可以很容易的解決這個問題,就像這樣:
>>> clip_neg = [n if n > 0 else 0 for n in mylist] >>> clip_neg [1,0] >>> clip_pos = [n if n < 0 else 0 for n in mylist] >>> clip_pos [0,-1] >>>
另外一個值得關注的過濾工具就是 itertools.compress()
, 它以一個 iterable
物件和一個相對應的 Boolean
選擇器序列作為輸入引數。 然後輸出 iterable
物件中對應選擇器為 True
的元素。 當你需要用另外一個相關聯的序列來過濾某個序列的時候,這個函式是非常有用的。 比如,假如現在你有下面兩列資料:
addresses = [ '5412 N CLARK','5148 N CLARK','5800 E 58TH','2122 N CLARK','5645 N RAVENSWOOD','1060 W ADDISON','4801 N BROADWAY','1039 W GRANVILLE',] counts = [ 0,1,7,6,1]
現在你想將那些對應 count
值大於5的地址全部輸出,那麼你可以這樣做:
>>> from itertools import compress >>> more5 = [n > 5 for n in counts] >>> more5 [False,False,True,False] >>> list(compress(addresses,more5)) ['5800 E 58TH','4801 N BROADWAY'] >>>
這裡的關鍵點在於先建立一個 Boolean
序列,指示哪些元素符合條件。 然後 compress()
函式根據這個序列去選擇輸出對應位置為 True
的元素。
和 filter()
函式類似, compress()
也是返回的一個迭代器。因此,如果你需要得到一個列表, 那麼你需要使用 list()
來將結果轉換為列表型別。
以上就是Python過濾序列元素的方法的詳細內容,更多關於Python過濾序列元素的資料請關注我們其它相關文章!