Fluent_Python_Section2數據類型，03-dict-set，字典和集合

阿新 • • 發佈：2018-04-06

python實現 default方法 span unicode 操作出現的次數 name 運行 state

字典和集合

dict和set都基於hash table實現

1. 大綱：

常見的字典方法

如何處理查找不到的鍵

標準庫中dict類型的變種

set和fronzenset類型

Hash table的工作原理

Hash table帶來的潛在影響

字典dict

2. 泛映射類型

技術分享圖片

在collections.abc中，有Mapping和MutableMapping，兩個抽象基類，主要作用是作為形式化文檔，定義了映射類型的基本API。

my_dict = {}
#判定數據是不是廣義上的映射類型
#不用type的原因是這個參數可能不是dict
isinstance(my_dict, abc.Mapping)

標準庫裏的映射類型都是基於dict擴展的，因此它們有個共同的限制，只有hashable的數據類型才能作為key（保持鍵唯一），值沒有這個限制。
https://docs.python.org/3/glossary.html#term-hashable
Hashable對象要實現__hash__()和__eq__()方法

一般來說不可變類型都是可hashtable的，但是有特例，dict雖然是不可變類型，但它裏面的元素可能是可變的類型。

tt = (1, 2, (30, 40))
hash(tt)

#Error, dict裏面的list不是可散列的類型
t1 = (1, 2, [30, 40])
hash 
(t1)

tf = (1, 2, frozenset([30, 40]))
hash(tf)

創建字典的不同方式

>>> a = dict(one=1, two=2, three=3)
>>> b = {‘one‘: 1, ‘two‘: 2, ‘three‘: 3}
>>> c = dict(zip([‘one‘, ‘two‘, ‘three‘], [1, 2, 3]))
>>> d = dict([(‘two‘, 2), (‘one‘, 1), (‘three‘, 3)])
>>> e = dict({‘three‘ 
: 3, ‘one‘: 1, ‘two‘: 2})
>>> a == b == c == d == e
True

3. 字典推導式(dict comprehension, dictcomp)

列表推導式用[]，元組推導式用()，字典推導式用{}

dictcomp可以從任何以key-value作為元素的可叠代元素中構建出字典

DIAL_CODES = [
    (86, ‘China‘),
    (91, ‘India‘),
    (1, ‘United States‘),
    (62, ‘Indonesia‘),
    (55, ‘Brazil‘),
    (92, ‘Pakistan‘),
    (880, ‘Bangladesh‘),
    (234, ‘Nigeria‘),
    (7, ‘Russia‘),
    (81, ‘Japan‘),
]

#dictcomp, {}
country_code = {country : code for code, country in DIAL_CODES}

print(country_code)

#以大寫打印code < 65的國家名
temp = {code : country.upper() for country, code in country_code.items()}
print(temp)

4. 常見的映射類型方法

中文電子書P137，dict、collections.defaultdict和collections.OrderedDict的常用方法

5. 用setdefault處理找不到的鍵(key)

d[key]找不到時會拋出KeyError異常，可以用d.get(key, default)來代替，給找不到的key一個默認的返回值。但是要更新某個key對應的value時，用__getitem__和get都是不自然，而且效率低。所以d.get並不是處理找不到的key的最好方法

中文電子書P139，用setdefault處理

dict1 = {‘name‘:‘Allen‘, ‘age‘:18}
#setdefault方法如果有key-value就不動，沒有就添加。這個方法有返回值
print(dict1)

dict1.setdefault(‘age‘, 30)
dict1.setdefault(‘xxx‘, 22)
print(dict1)

6. 用defaultdict處理找不到的鍵未搞懂

7. 用missing處理找不到的鍵

不只字典，所有映射類型在處理找不到的鍵的時候，都會牽扯到__missing__方法。
That is，如果一個類繼承了dict，然後這個繼承類提供了__missing__方法，那麽在__getitem__碰到找不到的鍵的時候，Python就會自動調用它，而不是拋出KeyError異常。
Note：__missing__方法只會被__getitem__調用，例如d[key]。另外對get或contains(in運算符用到這個方法)沒有影響。

像 k in my_dict.keys()在Python3中效率是很高的，因為dict.keys()返回的是dictionary-view-objects。而在Python2中，dict.keys()返回的是一個列表，k in my_list操作需要掃描整個列表。

8. 字典的變種

不同的映射類型：

collections.OrderedDict：在添加鍵的時候會保持順序。

collections.ChainMap：可以容納數個不同的映射對象，在進行鍵查找操作的時候，這些對象會被當作一個整體被逐個查找。這個特性在給有嵌套作用域的語言做解釋器時非常有用，可以用一個映射對象來代表一個作用域的上下文。

collections.Counter這個映射類型可以給hashable的對象計數，或者是當作多重集來用。Counter實現+和-運算符來合並記錄，還有most_common([n])會按照次序返回映射裏最常見的n個鍵和它們的計數。

from collections import Counter

str1 = ‘aabbccdd‘

counter_str = Counter(str1)
print(type(counter_str))
print(counter_str)

counter_str.update(‘aabbccdd‘)
print(counter_str)
print(counter_str.most_common(3))

4.collections.UserDict，這個類把標準dict用純Python實現了一遍。讓用戶繼承來寫子類的。

9. 自定義映射類型

所有映射類型都是基於dict的。自定義映射類型，以UserDict為基類，比普通的dict為基類方便。
因為如果從dict繼承，dict有時候在某些方法上走一些捷徑，導致子類要重寫這些方法，但UserDict不會有這些問題。具體看中文電子書12.1節。
Note：UserDict並不是dict的子類，是MutableMapping的子類，但是其中有一個叫data的屬性是dict的實例，這個是UserDict存儲數據的地方。好處是UserDict的子類實現__setitem__和__contains__時代碼更簡潔。

例子1. 添加、更新還是查詢操作，StrKeyDict都會把非字符串的鍵轉換為字符串

import collections

class StrKeyDict(collections.UserDict):

    def __missing__(self, key):
        if isinstance(key, str):
            raise KeyError(key)
        return self[str(key)]

    def __contains(self, key):
        return str(key) in self.data

    def __setitem__(self, key, value):
        self.data[str(key)] = value

StrKeyDict裏剩下的映射類型的方法都是從UserDict、MutableMapping和Mapping這些超類繼承而來。特別是Mapping這個ABC（抽象基類），以文檔化的形式提供了實用的API。以後兩個方法值得註意：

MutableMapping.update。可以直接利用，可以用在__init__裏。原理是self[key] = value來添加新值，所以它是使用__setitem__方法。

Mapping.get。

10. 不可變映射類型

之前有不可變的序列類型，但是在標準庫中沒有不可變的字典類型，但是可以用替身來代替。

字典是可以動態修改的，但不希望用戶修改，所以需要一個只讀的映射視圖。types.MappingProxyType返回一個只讀的映射視圖。

from types import MappingProxyType

d = {‘1‘ : ‘A‘}
d_proxy = MappingProxyType(d)
print(‘d_proxy:‘, d_proxy)
#MappingProxyType只讀，沒有賦值操作
#d_proxy[2] = ‘x‘
d[2] = ‘x‘
#MappingProxyType是動態的，也就是對d所做的任何改動都會反饋到它上面。
print(‘d_proxy:‘, d_proxy)

集合set

11. 集合

set的本質是許多唯一對象的聚集。因此，集合可以去重

l1 = [‘spam‘, ‘spam‘, ‘eggs‘, ‘eggs‘]
s1 = set(l1)
print(s1)
print(list(s1))

set中的元素必須是hashable(保證唯一)，但set本身是不可散列的，但是frozenset是hashable的。因此可以創建一個包含不同frozenset的set。set裏面的元素是hashable的，所以搜索速度極快。

set還有很多基礎的中綴運算符，a | b並集，a & b交集，a - b差集。可以省去不必要的循環和邏輯操作。

例子1. needles元素在haystack裏出現的次數，兩個變量都是set類型

found = len(needles & haystack)

例子2. needles和haystack是任何兩個可叠代對象

found = 0
for n in needles:
    if n in haystack:
        found += 1

例子3. 轉換為set再運算

found = len(set(needles) & set(haystack))

#另一種寫法
found = len(set(needles).intersection(haystack))

12. 集合字面量

{1}, {1, 2}是集合的字面量，set()是空集, {}是空字典。

字面量{1,2,3}比構造方法(set([1,2,3]))更快。集合字面量，Python會利用BUILD_SET的字節碼來創建集合。

from dis import dis
dis(‘{1}‘)

dis(‘set([1])‘)

創建frozenset只能用構造方法

frozenset(range(10))

13. 集合推導式(set comprehension, setcomps)

列表推導式用[], 元組推導式用(), 字典和集合推導式用{}

例子1. 用setcomps創建一個Latin-1字符集合

#獲取字符的名字name
from unicodedata import name
#把編碼32～255之間的字符的名字裏有"SIGN"單詞挑出來，放到一個集合裏面
s1 = {chr(i) for i in range(32, 256) if ‘SIGN‘ in name(chr(i),‘‘)}

print(s1)
print(name(‘+‘,‘‘))

14. 集合的操作

技術分享圖片

collections.abc(抽象基類)，提供API信息。

集合的數學運算：中文電子書P161
集合的比較運算：中文電子書P162
集合的其他方法：中文電子書P163

15. dict和set的原理

dict和set都是借助hash table來實現功能的。例如in運算,所以速度快。
Note：列表的背後沒有用散列表來支持in運算符，每次搜索都是順序遍歷。

16. 字典中的散列表

如果對象A == 對象B，那麽hash(A) == hash(B)。調用hash()，實際上運行的是__hash__。

dict取值原理采用散列表算法，中文電子書P169

17. 使用散列表實現dict帶來的優勢和限制

中文電子書P171

key必須是hashable的

字典在內存上的開銷巨大，因為hash table是稀疏數組

key查詢很快，因為hash table是classic的空間換時間

key的順序取決於添加順序

往字典裏添加新鍵可能會改變已有鍵的順序，不要對字典同時進行叠代和修改。因為Python解釋器可能做出為字典擴容的決定，把舊表復制到一個新的更大的散列表時，可能發生散列沖突。
6. .keys()、.items()、.values()返回的是字典的視圖，動態反饋字典的變化。

18. 使用散列表實現set帶來的優勢和限制

set和frozenset的實現也依賴散列表，但在它們的hash table存放的只有元素的引用(就像在字典裏只存key而沒有相應的值)。
Note：在set加入Python前之前，我們都是把字典加上無意義的value當集合使用。

和散列表實現dict的優點和缺點類似：

集合裏的元素必須是可散列的。

集合很消耗內存。

可以很高效地判斷元素是否存在於某個集合中。

元素的次序取決於被添加到集合裏的次序。

往集合裏添加元素，可能會改變集合裏已有元素的次序。

Fluent_Python_Section2數據類型，03-dict-set，字典和集合

Python中內置數據類型list,tuple,dict,set的區別和用法

必須 div bsp 10個用法保險進行 mov python Python語言簡潔明了，可以用較少的代碼實現同樣的功能。這其中Python的四個內置數據類型功不可沒，他們即是list, tuple, dict, set。這裏對他們進行一個簡明的總結。

Fluent_Python_Section2數據類型，03-dict-set，字典和集合

python實現 default方法 span unicode 操作出現的次數 name 運行 state 字典和集合 dict和set都基於hash table實現 1. 大綱：常見的字典方法如何處理查找不到的鍵標準庫中dict類型的變種 set和fron

Pyhton編程（五）之基本數據類型-列表、元組、字典

rem 返回 type for tro 重復 class 數字循環一：列表（list）　　列表是由一系列按特定順序排列的元素組成，可以創建包含字母表中的所有字母、數字、或中文的列表，也可以將任何東西加入列表中，其中的元素之間可以沒有任何關系。　　在Python中，用

數據庫的數據類型、索引、鎖、事務和視圖

ima -m log_file oat 寬度默認值 col 說明 prim 數據庫的數據類型、索引、鎖、事務和視圖數據的類型 1）數據類型：數據長什麽樣？數據需要多少空間來存放？系統內置數據類型和用戶定義數據類型 2）MySql 支持多種列

Python三種基礎數據類型:列表list，元祖tuple和字典dict

列表組基本數據類型基本數據一起字典系列 nbsp 類型查看 Python的三種基本數據類型，列表list，元祖tuple和字典dict 列表List：python最基礎的數據類型，列表內的數據項不需要具有相同的類型，可以包含重復值。列表包括兩個模塊，元素及對應的

java數據類型轉換之int，byte

name -- space str 類型轉換 int 轉換成系統 print 直接看以下的運算： public class TestConvert{ public static void main(String []args){ byte b1=67

SQL 用戶定義表類型，在存儲過程裏使用數據類型作參數

type 查詢學生 tab net 一個不同 tex src 在數據庫編程裏使用數據類型，能夠提高代碼的重用性。它們常常被使用在方法和存儲過程中。使用數據類型，我們能夠避免在存儲過程裏定義一串的參數，讓人眼花繚亂，它就相當於面向對象語言裏。向一個方

變量，基本類型，數據類型和運算符

大於聲明 java運算浮點 ble 表達式自減 ava har 變量：一個數據存儲空間的表示變量三要素:變量名，變量類型，變量值變量聲明及使用：第一步：聲明變量及根據數據類型在內存申請空間（數據類型變量名 int money）第二步：賦值及將數

變量，數據類型和運算符

算術運算符布爾型出現存儲語法強制字符 ring 基本 1.變量變量：　　一個數據存儲空間表示（代詞） 2.變量的基本語法　　數據類型變量名 //聲明變量　　　　　　=變量值； //賦值

變量，數據類型與類型轉換

浮點變量名類型轉換浮點型整型引號格式 unicode編碼十進制目標：掌握java基礎語法知識 1變量變量即變化中的量，變量中的值是變化的，在java中，使用變量時需要聲明變量，在聲明變量時需要聲明變量名，變量名必須是一個以字母開頭的由字母或數字構成的序列，

sass05 數據類型，數據運算

spa span 第一個 content res 雙引號最好 containe col /*! 數字類型 */ $n1: 1.2; $n2: 12; $n3: 14px; p{ font-size: $n3; } /*! 字符串類型*/ $s1: contain

Python之路第二天，基礎2-基本數據類型

cheng python ech odi lun ron zid ast aof %E5%BE%AE%E4%BF%A1%E5%85%AC%E5%85%B1%E5%8F%B7%E7%9A%84PHP%E5%BC%80%E5%8F%91%E5%9F%BA%E7%A1%80%E7

php常量，提前定義常量，魔術常量及基本數據類型

append mark 推薦系統 article color 浮點數 scalar markdown 常量定義：形式一 // define("PI",常量值); define("PI",3.14); define("school","講理"

c++ 常用數據類型，命名規則

不能 out ins urn 下劃線數字數據 spa ostream 1. 常用數據類型最大值0111111111111111 = 32767最小值1000000000000000 = -32768 short 最低16位 2**7 - 1 負值：

如何查找Linux中一些特殊數據類型定義，比如pid_t和uid_t（轉）

分享文件技術分享定義 log 相關 uid linux源碼 pid 1. 查看man手冊，找到pid_t，可以通過getpid函數來看 2. 打開sys/types.h 3. 打開bits/types.h 4.

中途回顧，bytes數據類型是什麽，和字符串什麽關系

就會 unicode sci cnblogs 是什麽字節範圍不可變 com 參考：https://segmentfault.com/a/1190000004450876 Bytes 對象是由單個字節作為基本元素（8位，取值範圍 0-255）組成的序列，為不可變對象

Oracle數據類型，函數與存儲過程

unicode 普通覆蓋表達式必須 all 浮點數 pro int 字符串類型固定長度：char nchar n 表示Unicode編碼可變長度: varchar2 nvarchar2 數字類型：number（P,S）P：整數位

Python 03-pyc、數據類型

string 表示法 ava span 網絡數據 msg 北京天安門 enc 預編譯 pyc是什麽？在Python3中才有的。 Java是先編譯再解釋。Python也是基於虛擬機的語言。執行Python時，會先編譯，編譯的結果保存在位於內存中的PyCodeObject中

python基本數據類型（數列，數組，字典，字符）

sta 不能增加 move 是不是 replace 根據 alpha 開頭 #! /usr/bin/env python #! -*- cording:utf-8 -*- name="alex" age=18 name_list=[‘eire‘,‘alex‘,‘to

26）PHP，數據庫表格中項的數據類型

com 最長 .cn char ges spa alt png mage 類型展示： tinyint-----1個字節 smallint----2個字節 mediumint--3個字節 int------4個字節 bigint---8個字節 1 字符串類型 2 最

Fluent_Python_Section2數據類型，03-dict-set，字典和集合

字典和集合

1. 大綱：

字典dict

2. 泛映射類型

3. 字典推導式(dict comprehension, dictcomp)

4. 常見的映射類型方法

5. 用setdefault處理找不到的鍵(key)

6. 用defaultdict處理找不到的鍵 未搞懂

7. 用__missing__處理找不到的鍵

8. 字典的變種

9. 自定義映射類型

10. 不可變映射類型

集合set

11. 集合

12. 集合字面量

13. 集合推導式(set comprehension, setcomps)

14. 集合的操作

15. dict和set的原理

16. 字典中的散列表

17. 使用散列表實現dict帶來的優勢和限制

18. 使用散列表實現set帶來的優勢和限制

相關推薦

6. 用defaultdict處理找不到的鍵未搞懂

7. 用missing處理找不到的鍵