python collections(容器)模塊
原文:http://docs.pythontab.com/interpy/collections/collections/
容器(Collections
)
Python附帶一個模塊,它包含許多容器數據類型,名字叫作collections
。我們將討論它的作用和用法。
我們將討論的是:
- defaultdict
- counter
- deque
- namedtuple
- enum.Enum (包含在Python 3.4以上)
defaultdict
我個人使用defaultdict
較多,與dict
類型不同,你不需要檢查key是否存在,所以我們能這樣做:
1 from collections import defaultdict2 3 colours = ( 4 (‘Yasoob‘, ‘Yellow‘), 5 (‘Ali‘, ‘Blue‘), 6 (‘Arham‘, ‘Green‘), 7 (‘Ali‘, ‘Black‘), 8 (‘Yasoob‘, ‘Red‘), 9 (‘Ahmed‘, ‘Silver‘), 10 ) 11 12 favourite_colours = defaultdict(list) 13 14 for name, colour in colours: 15 favourite_colours[name].append(colour)16 17 print(favourite_colours)
運行輸出
# defaultdict(<type ‘list‘>, # {‘Arham‘: [‘Green‘], # ‘Yasoob‘: [‘Yellow‘, ‘Red‘], # ‘Ahmed‘: [‘Silver‘], # ‘Ali‘: [‘Blue‘, ‘Black‘] # })
另一種重要的是例子就是:當你在一個字典中對一個鍵進行嵌套賦值時,如果這個鍵不存在,會觸發keyError
異常。 defaultdict
允許我們用一個聰明的方式繞過這個問題。 首先我分享一個使用dict
觸發KeyError
defaultdict
的解決方案。
問題:
1 some_dict = {} 2 some_dict[‘colours‘][‘favourite‘] = "yellow" 3 4 ## 異常輸出:KeyError: ‘colours‘
解決方案:
1 import collections 2 tree = lambda: collections.defaultdict(tree) 3 some_dict = tree() 4 some_dict[‘colours‘][‘favourite‘] = "yellow" 5 6 ## 運行正常
你可以用json.dumps
打印出some_dict
,例如:
import json print(json.dumps(some_dict)) ## 輸出: {"colours": {"favourite": "yellow"}}
counter
Counter是一個計數器,它可以幫助我們針對某項數據進行計數。比如它可以用來計算每個人喜歡多少種顏色:
1 from collections import Counter 2 3 colours = ( 4 (‘Yasoob‘, ‘Yellow‘), 5 (‘Ali‘, ‘Blue‘), 6 (‘Arham‘, ‘Green‘), 7 (‘Ali‘, ‘Black‘), 8 (‘Yasoob‘, ‘Red‘), 9 (‘Ahmed‘, ‘Silver‘), 10 ) 11 12 favs = Counter(name for name, colour in colours) 13 print(favs) 14 15 ## 輸出: 16 ## Counter({ 17 ## ‘Yasoob‘: 2, 18 ## ‘Ali‘: 2, 19 ## ‘Arham‘: 1, 20 ## ‘Ahmed‘: 1 21 ## })
我們也可以在利用它統計一個文件,例如:
with open(‘filename‘, ‘rb‘) as f: line_count = Counter(f) print(line_count)
deque
deque提供了一個雙端隊列,你可以從頭/尾兩端添加或刪除元素。要想使用它,首先我們要從collections
中導入deque
模塊:
from collections import deque
現在,你可以創建一個deque
對象。
d = deque()
它的用法就像python的list
,並且提供了類似的方法,例如:
1 d = deque() 2 d.append(‘1‘) 3 d.append(‘2‘) 4 d.append(‘3‘) 5 6 print(len(d)) 7 8 ## 輸出: 3 9 10 print(d[0]) 11 12 ## 輸出: ‘1‘ 13 14 print(d[-1]) 15 16 ## 輸出: ‘3‘
你可以從兩端取出(pop)數據:
d = deque(range(5)) print(len(d)) ## 輸出: 5 d.popleft() ## 輸出: 0 d.pop() ## 輸出: 4 print(d) ## 輸出: deque([1, 2, 3])
我們也可以限制這個列表的大小,當超出你設定的限制時,數據會從對隊列另一端被擠出去(pop)。
最好的解釋是給出一個例子:
d = deque(maxlen=30)
現在當你插入30條數據時,最左邊一端的數據將從隊列中刪除。
你還可以從任一端擴展這個隊列中的數據:
1 d = deque([1,2,3,4,5]) 2 d.extendleft([0]) 3 d.extend([6,7,8]) 4 print(d) 5 6 ## 輸出: deque([0, 1, 2, 3, 4, 5, 6, 7, 8])
namedtuple
您可能已經熟悉元組。
一個元組是一個不可變的列表,你可以存儲一個數據的序列,它和命名元組(namedtuples
)非常像,但有幾個關鍵的不同。
主要相似點是都不像列表,你不能修改元組中的數據。為了獲取元組中的數據,你需要使用整數作為索引:
man = (‘Ali‘, 30) print(man[0]) ## 輸出: Ali
嗯,那namedtuples
是什麽呢?它把元組變成一個針對簡單任務的容器。你不必使用整數索引來訪問一個namedtuples
的數據。你可以像字典(dict
)一樣訪問namedtuples
,但namedtuples
是不可變的。
現在你可以看到,我們可以用名字來訪問namedtuple
中的數據。我們再繼續分析它。一個命名元組(namedtuple
)有兩個必需的參數。它們是元組名稱和字段名稱。
1 from collections import namedtuple 2 3 Animal = namedtuple(‘Animal‘, ‘name age type‘) 4 perry = Animal(name="perry", age=31, type="cat") 5 6 print(perry) 7 8 ## 輸出: Animal(name=‘perry‘, age=31, type=‘cat‘) 9 10 print(perry.name) 11 12 ## 輸出: ‘perry‘
在上面的例子中,我們的元組名稱是Animal
,字段名稱是‘name‘,‘age‘和‘type‘。namedtuple
讓你的元組變得自文檔了。你只要看一眼就很容易理解代碼是做什麽的。
你也不必使用整數索引來訪問一個命名元組,這讓你的代碼更易於維護。
而且,namedtuple
的每個實例沒有對象字典,所以它們很輕量,與普通的元組比,並不需要更多的內存。這使得它們比字典更快。
然而,要記住它是一個元組,屬性值在namedtuple
中是不可變的,所以下面的代碼不能工作:
from collections import namedtuple Animal = namedtuple(‘Animal‘, ‘name age type‘) perry = Animal(name="perry", age=31, type="cat") perry.age = 42 ## 輸出: ## Traceback (most recent call last): ## File "", line 1, in ## AttributeError: can‘t set attribute
你應該使用命名元組來讓代碼自文檔,它們向後兼容於普通的元組,這意味著你可以既使用整數索引,也可以使用名稱來訪問namedtuple
:
from collections import namedtuple Animal = namedtuple(‘Animal‘, ‘name age type‘) perry = Animal(name="perry", age=31, type="cat") print(perry[0]) ## 輸出: perry
最後,你可以將一個命名元組轉換為字典,方法如下:
from collections import namedtuple Animal = namedtuple(‘Animal‘, ‘name age type‘) perry = Animal(name="Perry", age=31, type="cat") print(perry._asdict()) ## 輸出: OrderedDict([(‘name‘, ‘Perry‘), (‘age‘, 31), ...
enum.Enum (Python 3.4+)
另一個有用的容器是枚舉對象,它屬於enum
模塊,存在於Python 3.4以上版本中(同時作為一個獨立的PyPI包enum34
供老版本使用)。Enums(枚舉類型)基本上是一種組織各種東西的方式。
讓我們回顧一下上一個‘Animal‘命名元組的例子。
它有一個type字段,問題是,type是一個字符串。
那麽問題來了,萬一程序員輸入了Cat
,因為他按到了Shift鍵,或者輸入了‘CAT‘,甚至‘kitten‘?
枚舉可以幫助我們避免這個問題,通過不使用字符串。考慮以下這個例子:
1 from collections import namedtuple 2 from enum import Enum 3 4 class Species(Enum): 5 cat = 1 6 dog = 2 7 horse = 3 8 aardvark = 4 9 butterfly = 5 10 owl = 6 11 platypus = 7 12 dragon = 8 13 unicorn = 9 14 # 依次類推 15 16 # 但我們並不想關心同一物種的年齡,所以我們可以使用一個別名 17 kitten = 1 # (譯者註:幼小的貓咪) 18 puppy = 2 # (譯者註:幼小的狗狗) 19 20 Animal = namedtuple(‘Animal‘, ‘name age type‘) 21 perry = Animal(name="Perry", age=31, type=Species.cat) 22 drogon = Animal(name="Drogon", age=4, type=Species.dragon) 23 tom = Animal(name="Tom", age=75, type=Species.cat) 24 charlie = Animal(name="Charlie", age=2, type=Species.kitten)
現在,我們進行一些測試:
>>> charlie.type == tom.type True >>> charlie.type <Species.cat: 1>
這樣就沒那麽容易錯誤,我們必須更明確,而且我們應該只使用定義後的枚舉類型。
有三種方法訪問枚舉數據,例如以下方法都可以獲取到‘cat‘的值:
Species(1) Species[‘cat‘] Species.cat
只是一個快速瀏覽collections
模塊的介紹,建議你閱讀本文最後的官方文檔。
python collections(容器)模塊