1. 程式人生 > >Python3標準庫built-in、itertools、functools中的生成器

Python3標準庫built-in、itertools、functools中的生成器

介紹

Python3中實現了很多生成器函式,本篇主要介紹built-in、itertools、functools模組中的生成器。

過濾器生成器

本類生成器函式將iterable物件作為引數,在不改變該iterable物件的條件下,返回iterable子集的生成器物件。

filter(predicate, iterable)

iterable的每一個元素會傳入predicate函式中判斷是否為True,該生成器會返回所有返回為True的元素組成的生成器物件。

def is_vowel(c):
    return c.lower() in 'aeiou'
    
word =
'abcdefghijk' print(list(filter(is_vowel, word))) ## output: ['a', 'e', 'i']

filter會過濾掉word中所有非母音字母,返回符合元素組成的生成器物件。
注意:通過list(generator)可以將生成器物件轉換為列表,但如果是無限生成器list將會產生大量元素導致出錯。
filter函式等同於下面的生成器表示式用法。

(item for item in iterable if function(item))

如果filter的第一個引數為None,則不過濾返回全部,等同於下面的生成器表示式用法。

(item for item in iterable if item)

itertools.filterfalse(predicate, iterable)

該函式和filter類似,區別是過濾掉predicate返回True的元素。

print(list(itertools.filterfalse(is_vowel, word)))
## output: ['b', 'c', 'd', 'f', 'g', 'h', 'j', 'k']

itertools.takewhile(predicate, iterable)

該函式連續迭代iterable物件中的元素,並用predicate函式判斷,若predicate返回為True,將不斷產出該元素,直到predicate返回False,過濾了iterable後面不符合的元素。

print(list(itertools.takewhile(is_vowel, word)))
## output: ['a']

itertools.dropwhile(predicate, iterable)

該函式與itertools.takewhile相反,過濾了iterable物件前面符合predicate返回True的元素,保留後面的子集。

print(list(itertools.dropwhile(is_vowel, word)))
## output: ['b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k']

itertools.compress(iterable, selectors)

該函式中的selectors也是一個迭代物件,compress根絕selectors中的值(0/1或是True/False)判斷是否過濾iterable中的元素。

print(list(itertools.compress(word, [1, 0, 1, 0])))
## output: ['a', 'c']

如果selectors長度不夠,則iterable後面的物件全部被過濾掉。

itertools.islice(iterable, stop)

根據傳入引數的個數不同,該函式另一種寫法是itertools.islice(iterable, start, stop[, step]),islice函式類似python中的分片操作:list[start:stop:step]。

print(list(itertools.islice(word, 4)))
## output: ['a', 'b', 'c', 'd']
print(list(itertools.islice(word, 4, 8)))
## output: ['e', 'f', 'g', 'h']
print(list(itertools.islice(word, 4, 8, 2)))
## output: ['e', 'g']

對映生成器

該類生成器主要對於傳入的一個或多個迭代物件中的每一個元素進行操作,返回對映後的生成器物件。

map(func, *iterables, timeout=None, chunksize=1)

map是Python中常用的原生生成器,將迭代物件中的每一個元素傳入func進行對映返回新的迭代物件。如果有n個iterable物件,則func的引數則為n個,後面的timeout和chunksize引數涉及到非同步,本篇將不闡述。

print(list(map(lambda x: x.upper(), word)))
print([x.upper() for x in word])
## output: ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K']

上面第一行中的map將word中的每個元素轉換為大寫,和第二行中的列表生成式用法相似。

print(list(map(lambda x, y: (x, y), word, word)))
print(list(zip(word, word)))
## output: [('a', 'a'), ('b', 'b'), ('c', 'c') ... ('k', 'k')]

當有兩個iterable傳入時,func將需要處理傳入的兩個引數,第一行的用法和zip函式的作用相似。

itertools.starmap(function, iterable)

當iterable中的元素也是個迭代物件時,如果使用map函式,需要在函式內部實現解壓操作獲取到單個元素,而startmap將iterable中的元素按function(*item)方式傳入,我們可以在定義function的引數時完成解壓操作。舉例,如果想輸入序列[(2,5), (3,2), (10,3)]來得到一個每個元組元素的和的序列[7, 5, 13], 若使用map方法,fun函式將會複雜,而使用startmap則只需要傳遞一個add函式作為startmap引數,元組解壓後的兩個值將傳入add函式作為引數。

from operator import add
print(list(map(lambda x: add(x[0], x[1]), [(2, 5), (3, 2), (10, 3)])))
print(list(itertools.starmap(add, [(2, 5), (3, 2), (10, 3)])))
## output: [7, 5, 13]

enumerate(iterable, start=0)

enumerate函式也是常見的生成器函式,它的主要用法是提供for-in迴圈中的索引。若設定start引數,索引將從start值開始逐1增加。

for i, c in enumerate(word, 2):
    print(i, c)

itertools.accumulate(iterable[, func])

accumulate函式將通過func函式完成逐步累加操作,預設func為operator.add。下面用例子進行說明。

sample = [1, 2, 3, 4, 5]
print(list(itertools.accumulate(sample)))
## output: [1, 3, 6, 10, 15]
print(list(itertools.accumulate(sample, mul)))
## output: [1, 2, 6, 24, 120]
print(list(itertools.accumulate(sample, mul)))
## output: [1, 2, 6, 24, 120]
print(list(itertools.accumulate(sample, min)))
## output: [1, 1, 1, 1, 1]
print(list(itertools.accumulate(sample, max)))
## output: [1, 2, 3, 4, 5]
print(list(itertools.starmap(lambda x, y: y/x, 
                             enumerate(itertools.accumulate(sample), 1))))
## output: [1.0, 1.5, 2.0, 2.5, 3.0]

合併生成器

合併生成器接收多個可迭代物件引數,將他們組合後返回新的生成器物件。

itertools.chain(*iterables)

chain生成器函式接收多個可迭代物件引數,將他們按順序組合成新的生成器物件返回。

print(list(itertools.chain(range(3), range(3, 7))))
## output: [0, 1, 2, 3, 4, 5, 6]

itertools.chain.from_iterable(iterable)

chain.from_iterable函式接收一個元素為可迭物件的可迭代物件,將該所有可迭代的元素拆開,重新按順序組合成一個新的生成器,新的生成器產出的元素為iterable引數某個元素的解壓,chain.from_iterable功能更像是逐層解壓迭代物件。

a, b = [1,2], [3,4]
iterable= [[a,b],[a,b]]
print(iterable)
new_iterable = list(itertools.chain.from_iterable(iterable))
print(new_iterable)
print(list(itertools.chain.from_iterable(new_iterable)))
## output:
## [[[1, 2], [3, 4]], [[1, 2], [3, 4]]]
## [[1, 2], [3, 4], [1, 2], [3, 4]]
## [1, 2, 3, 4, 1, 2, 3, 4]

zip(*iterables)

zip函式接收多個iterable引數,並提取每個iterable元素組成元組,返回這些元組組成的生成器物件。

iterable1 = 'abcd'
iterable2 = [1, 2, 3]
iterable3 = [10, 20, 30, 40]
print(list(zip(iterable1, iterable2, iterable3)))
## output:
## [('a', 1, 10), ('b', 2, 20), ('c', 3, 30)]

如果多個iterable元素個數不一致,zip會在最短的iterable耗盡後停止。
我們可以通過zip函式生成一個字典物件

keys = 'abc'
values = [1, 2, 3]
print(dict(zip(keys, values)))
## output: {'a': 1, 'b': 2, 'c': 3}

itertools.zip_longest(*iterables, fillvalue=None)

zip_longes函式作用和zip類似,在zip中如果某個iterable物件耗盡,生成器將就此停止,而zip_longest函式將為耗盡的iterable補充fillvalue值。

iterable1 = 'abcd'
iterable2 = [1, 2, 3]
iterable3 = [10, 20, 30, 40]
print(list(itertools.zip_longest(iterable1, iterable2, iterable3, fillvalue=0)))
## output: [('a', 1, 10), ('b', 2, 20), ('c', 3, 30), ('d', 0, 40)]

itertools.product(*iterables, repeat=1)

product函式計算所有iterable的笛卡爾積,它像是生成器表示式中處理巢狀迴圈的步驟,product(a, b)可以等同於((x, y) for x in a for y in b)。
repeat相當於擴充套件了iterables, product(a, b, repeat=2)相當於product(a, b, a, b)

a = (0, 1)
b = (2, 3)
print(list(itertools.product(a, b)))
print(list(itertools.product(a, repeat=2)))

## output:
## [(0, 2), (0, 3), (1, 2), (1, 3)]
## [(0, 0), (0, 1), (1, 0), (1, 1)]

擴充套件生成器

擴充套件生成器將傳進的單一物件進行擴充套件,生成更多元素組成的生成器物件。

itertools.repeat(object[, times])

repeat函式可以接收一個物件(可以不是可迭代物件), 根據非必選引數times,生成元素個數為times的生成器,如果不提供times引數,將生成無限生成器。

print(list(itertools.repeat(1, 3)))
print(list(itertools.repeat((1, 2), 3)))
print(list(zip(range(1, 4), itertools.repeat('a'))))
print([1, 2] * 3)

"""output:
[1, 1, 1]
[(1, 2), (1, 2), (1, 2)]
[(1, 'a'), (2, 'a'), (3, 'a')]
[1, 2, 1, 2, 1, 2]
"""

注意repeat()和列表乘法的區別,通過上文提到的itertools.chain.from_iterable函式結合repeat函式可以實現列表乘法。

lst = [1, 2, 3]
g = itertools.repeat(lst, 3)
print(list(itertools.chain.from_iterable(g)))
print(lst * 3)
"""output
[1, 2, 3, 1, 2, 3, 1, 2, 3]
[1, 2, 3, 1, 2, 3, 1, 2, 3]
"""

itertools.cycle(iterable)

cycle函式將傳進的iterable可迭代物件首尾相連形成迴圈,生成無限生成器。

# cycle('ABCD') --> A B C D A B C D A B C D ...

itertools.count(start=0, step=1)

計數器函式,start和step引數可以為小數,直接看例子。

g = itertools.count(1.2, 2.5)
print(next(g))
print(next(g))
print(next(g))
"""output:
1.2
3.7
6.2
"""

上文提到的enumerate生成器函式可以通過map和count來實現。

for i, v in map(lambda x, y: (x, y), itertools.count(), range(3, 10)):
    print(i, v)

我們可以通過調整count函式讓索引i的值更加靈活。
Python中的range(start, stop[, step])函式可以生成一個序列,但是要求輸入引數必須為整數,可以通過count函式實現一個可以接收小數的新range。

def range_new(start, stop, step):
    for i in itertools.count(start, step):
        if i >= stop:
            break
        yield i

print(list(range_new(1, 5.5, 1.5)))
## output: [1, 2.5, 4.0]

排列組合生成器

以下三個函式可以實現迭代物件的排列組合
itertools.combinations(iterable, r)
非重複組合

print(list(itertools.combinations('ABC', 1)))
print(list(itertools.combinations('ABC', 2)))
print(list(itertools.combinations('ABC', 3)))
"""output:
[('A',), ('B',), ('C',)]
[('A', 'B'), ('A', 'C'), ('B', 'C')]
[('A', 'B', 'C')]
"""

itertools.combinations_with_replacement(iterable, r)
重複組合

print(list(itertools.combinations_with_replacement('ABC', 1)))
print(list(itertools.combinations_with_replacement('ABC', 2)))
print(list(itertools.combinations_with_replacement('ABC', 3)))
"""output:
[('A',), ('B',), ('C',)]
[('A', 'A'), ('A', 'B'), ('A', 'C'), ('B', 'B'), ('B', 'C'), ('C', 'C')]
[('A', 'A', 'A'), ('A', 'A', 'B'), ('A', 'A', 'C'), ('A', 'B', 'B'), ('A', 'B', 'C'), ('A', 'C', 'C'), ('B', 'B', 'B'), ('B', 'B', 'C'), ('B', 'C', 'C'), ('C', 'C', 'C')]
"""

itertools.permutations(iterable, r=None)
全排列

print(list(itertools.permutations('ABC', 1)))
print(list(itertools.permutations('ABC', 2)))
print(list(itertools.permutations('ABC', 3)))
"""output:
[('A',), ('B',), ('C',)]
[('A', 'B'), ('A', 'C'), ('B', 'A'), ('B', 'C'), ('C', 'A'), ('C', 'B')]
[('A', 'B', 'C'), ('A', 'C', 'B'), ('B', 'A', 'C'), ('B', 'C', 'A'), ('C', 'A', 'B'), ('C', 'B', 'A')]
"""

對比itertools.product(*iterables, repeat=1)函式

print(list(itertools.product('ABC', repeat=1)))
print(list(itertools.product('ABC', repeat=2)))
"""output:
[('A',), ('B',), ('C',)]
[('A', 'A'), ('A', 'B'), ('A', 'C'), ('B', 'A'), ('B', 'B'), ('B', 'C'), ('C', 'A'), ('C', 'B'), ('C', 'C')]
"""

整理生成器

此類生成器將傳入的可迭代物件經過整理後,以生成器的形式全部返回。

itertools.groupby(iterable, key=None)

groupby生成器可以根據key,將iterable分組,返回的生成器的元素為(key, iterable)的元組形式。掃描整個序列並且查詢連續相同值(或者根據指定 key 函式返回值相同)的元素序列。 在每次迭代的時候,它會返回一個值和一個迭代器物件, 這個迭代器物件可以生成元素值全部等於上面那個值的組中所有物件。

g = itertools.groupby('LLLLAAGGG')
for char, group in g:
    print(char, '->', list(group))

"""output:
L -> ['L', 'L', 'L', 'L']
A -> ['A', 'A']
G -> ['G', 'G', 'G']
"""

rows = [
    {'address': '5412 N CLARK', 'date': '07/01/2012'},
    {'address': '5148 N CLARK', 'date': '07/04/2012'},
    {'address': '5800 E 58TH', 'date': '07/02/2012'},
    {'address': '2122 N CLARK', 'date': '07/03/2012'},
    {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
    {'address': '1060 W ADDISON', 'date': '07/02/2012'},
    {'address': '4801 N BROADWAY', 'date': '07/01/2012'},
    {'address': '1039 W GRANVILLE', 'date': '07/04/2012'},
]

rows.sort(key=itemgetter('date'))
g = itertools.groupby(rows, itemgetter('date'))
for char, group in g:
    print(char, '->', list(group))
"""output:
07/01/2012 -> [{'address': '5412 N CLARK', 'date': '07/01/2012'}, {'address': '4801 N BROADWAY', 'date': '07/01/2012'}]
07/02/2012 -> [{'address': '5800 E 58TH', 'date': '07/02/2012'}, {'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'}, {'address': '1060 W ADDISON', 'date': '07/02/2012'}]
07/03/2012 -> [{'address': '2122 N CLARK', 'date': '07/03/2012'}]
07/04/2012 -> [{'address': '5148 N CLARK', 'date': '07/04/2012'}, {'address': '1039 W GRANVILLE', 'date': '07/04/2012'}]
"""

groupby() 僅僅檢查連續的元素,因此在呼叫之前需要根據指定的欄位將資料排序。

reversed(seq)

reversed函式接收一個序列(實現sequence相關協議,已知長度)

print(list(reversed(range(5))))
## output: [4, 3, 2, 1, 0]

itertools.tee(iterable, n=2)

tee函式返回單個iterable物件的n個獨立迭代器

g1, g2 = itertools.tee('ABC')
print(next(g1), next(g2))
print(next(g1), next(g2))
print(list(zip(*itertools.tee('ABC'))))
"""output
A A
B B
[('A', 'A'), ('B', 'B'), ('C', 'C')]
"""

縮減生成器

接收一個迭代物件,處理只返回一個單一值。

functools.reduce(function, iterable,initializer=None)

function引數是一個接收兩個引數的函式function(x, y),reduce函式將上一次function得到的返回值作為引數x,將iterable的下一次迭代值作為引數y傳進function計算,初始時x的值為initializer值(若initializer為None,初始值則為iterable的第一個元素值)。迴圈直到iterable耗盡返回最終值。
reduce的基本實現大概為一下程式碼:

def reduce(function, iterable, initializer=None):
    it = iter(iterable)
    if initializer is None:
        value = next(it)
    else:
        value = initializer
    for element in it:
        value = function(value, element)
    return value
print(functools.reduce(add, [1, 2, 3, 4, 5]))
## output: 15

常用的min和max函式都可以用reduce實現

def min_reduce(iterable):
    return functools.reduce(lambda x, y: x if x < y else y, iterable)

def max_reduce(iterable):
    return functools.reduce(lambda x, y: x if x > y else y, iterable)

print(min_reduce([4, 6, 6, 78]))
print(max_reduce([4, 6, 6, 78]))
"""output
4
78
"""

除此之外any和all函式原理也是類似,不再闡述。

總結

本篇按照分類介紹了python庫中的一些常用的生成器,可以通過不同場景選擇不同的生成器工具,將它們組合靈活運用。

相關連結

Python3中的迭代器和生成器