再一次重新學習Python——Json
JSON
如果我們要在不同的程式語言之間傳遞物件,就必須把物件序列化為標準格式,比如XML,但更好的方法是序列化為JSON,因為JSON表示出來就是一個字串,可以被所有語言讀取,也可以方便地儲存到磁碟或者通過網路傳輸。JSON不僅是標準格式,並且比XML更快,而且可以直接在Web頁面中讀取,非常方便。
JSON表示的物件就是標準的JavaScript語言的物件,JSON和Python內建的資料型別對應如下:
JSON型別 | Python型別 |
{} | dict |
[] | list |
"string" | 'str'或u'unicode' |
1234.56 | int或float |
true/false | True/False |
null | None |
Python內建的json
模組提供了非常完善的Python物件到JSON格式的轉換。我們先看看如何把Python物件變成一個JSON:
>>> import json >>> d = dict(name='Bob', age=20, score=88) >>> json.dumps(d) '{"age": 20, "score": 88, "name": "Bob"}'
dumps()
方法返回一個str
,內容就是標準的JSON。類似的,dump()
方法可以直接把JSON寫入一個file-like Object
。
要把JSON反序列化為Python物件,用loads()
或者對應的load()
方法,前者把JSON的字串反序列化,後者從file-like Object
中讀取字串並反序列化:
>>> json_str = '{"age": 20, "score": 88, "name": "Bob"}' >>> json.loads(json_str) {u'age': 20, u'score': 88, u'name': u'Bob'}
有一點需要注意,就是反序列化得到的所有字串物件預設都是unicode
而不是str
。由於JSON標準規定JSON編碼是UTF-8,所以我們總是能正確地在Python的str
或unicode
與JSON的字串之間轉換。
JSON進階
Python的dict
物件可以直接序列化為JSON的{}
,不過,很多時候,我們更喜歡用class
表示物件,比如定義Student
類,然後序列化:
import json
class Student(object):
def __init__(self, name, age, score):
self.name = name
self.age = age
self.score = score
s = Student('Bob', 20, 88)
print(json.dumps(s))
執行程式碼,毫不留情地得到一個TypeError
:
Traceback (most recent call last):
...
TypeError: <__main__.Student object at 0x10aabef50> is not JSON serializable
錯誤的原因是Student
物件不是一個可序列化為JSON的物件。
如果連class
的例項物件都無法序列化為JSON,這肯定不合理!
別急,我們仔細看看dumps()
方法的引數列表,可以發現,除了第一個必須的obj
引數外,dumps()
方法還提供了一大堆的可選引數:
https://docs.python.org/2/library/json.html#json.dumps
這些可選引數就是讓我們來定製JSON序列化。前面的程式碼之所以無法把Student
類例項序列化為JSON,是因為預設情況下,dumps()
方法不知道如何將Student
例項變為一個JSON的{}
物件。
可選引數default
就是把任意一個物件變成一個可序列為JSON的物件,我們只需要為Student
專門寫一個轉換函式,再把函式傳進去即可:
def student2dict(std):
return {
'name': std.name,
'age': std.age,
'score': std.score
}
print(json.dumps(s, default=student2dict))
這樣,Student
例項首先被student2dict()
函式轉換成dict
,然後再被順利序列化為JSON。
不過,下次如果遇到一個Teacher
類的例項,照樣無法序列化為JSON。我們可以偷個懶,把任意class
的例項變為dict
:
print(json.dumps(s, default=lambda obj: obj.__dict__))
因為通常class
的例項都有一個__dict__
屬性,它就是一個dict
,用來儲存例項變數。也有少數例外,比如定義了__slots__
的class。
同樣的道理,如果我們要把JSON反序列化為一個Student
物件例項,loads()
方法首先轉換出一個dict
物件,然後,我們傳入的object_hook
函式負責把dict
轉換為Student
例項:
def dict2student(d):
return Student(d['name'], d['age'], d['score'])
json_str = '{"age": 20, "score": 88, "name": "Bob"}'
print(json.loads(json_str, object_hook=dict2student))
執行結果如下:
<__main__.Student object at 0x10cd3c190>
打印出的是反序列化的Student
例項物件。
小結
Python語言特定的序列化模組是pickle
,但如果要把序列化搞得更通用、更符合Web標準,就可以使用json
模組。
json
模組的dumps()
和loads()
函式是定義得非常好的介面的典範。當我們使用時,只需要傳入一個必須的引數。但是,當預設的序列化或反序列機制不滿足我們的要求時,我們又可以傳入更多的引數來定製序列化或反序列化的規則,既做到了介面簡單易用,又做到了充分的擴充套件性和靈活性。