9.json和jsonpath

阿新 • • 發佈：2018-05-07

數組 setup.py 中括號機制中一 win obj num 所有

數據提取之JSON與JsonPATH

JSON(JavaScript Object Notation) 是一種輕量級的數據交換格式，它使得人們很容易的進行閱讀和編寫。同時也方便了機器進行解析和生成。適用於進行數據交互的場景，比如網站前臺與後臺之間的數據交互。

JSON和XML的比較可謂不相上下。

Python 2.7中自帶了JSON模塊，直接import json就可以使用了。

官方文檔：http://docs.python.org/library/json.html

Json在線解析網站：http://www.json.cn/#

JSON

json簡單說就是javascript中的對象和數組，所以這兩種結構就是對象和數組兩種結構，通過這兩種結構可以表示各種復雜的結構

對象：對象在js中表示為{ }括起來的內容，數據結構為 { key：value, key：value, ... }的鍵值對的結構，在面向對象的語言中，key為對象的屬性，value為對應的屬性值，所以很容易理解，取值方法為對象.key 獲取屬性值，這個屬性值的類型可以是數字、字符串、數組、對象這幾種。

數組：數組在js中是中括號[ ]括起來的內容，數據結構為 ["Python", "javascript", "C++", ...]，取值方式和所有語言中一樣，使用索引獲取，字段值的類型可以是數字、字符串、數組、對象幾種。

import json

json模塊提供了四個功能：dumps

、dump、loads、load，用於字符串和 python數據類型間進行轉換。

1. json.loads()

把Json格式字符串解碼轉換成Python對象從json到python的類型轉化對照如下：

技術分享圖片

# json_loads.py

import json

strList = ‘[1, 2, 3, 4]‘

strDict = ‘{"city": "北京", "name": "大貓"}‘

json.loads(strList) 
# [1, 2, 3, 4]

json.loads(strDict) # json數據自動按Unicode存儲
# {u‘city‘: u‘ 
\u5317\u4eac‘, u‘name‘: u‘\u5927\u732b‘}

2. json.dumps()

實現python類型轉化為json字符串，返回一個str對象把一個Python對象編碼轉換成Json字符串

從python原始類型向json類型的轉化對照如下：

技術分享圖片

# json_dumps.py

import json
import chardet

listStr = [1, 2, 3, 4]
tupleStr = (1, 2, 3, 4)
dictStr = {"city": "北京", "name": "大貓"}

json.dumps(listStr)
# ‘[1, 2, 3, 4]‘
json.dumps(tupleStr)
# ‘[1, 2, 3, 4]‘

# 註意：json.dumps() 序列化時默認使用的ascii編碼
# 添加參數 ensure_ascii=False 禁用ascii編碼，按utf-8編碼
# chardet.detect()返回字典, 其中confidence是檢測精確度

json.dumps(dictStr) 
# ‘{"city": "\\u5317\\u4eac", "name": "\\u5927\\u5218"}‘

chardet.detect(json.dumps(dictStr))
# {‘confidence‘: 1.0, ‘encoding‘: ‘ascii‘}

print json.dumps(dictStr, ensure_ascii=False) 
# {"city": "北京", "name": "大劉"}

chardet.detect(json.dumps(dictStr, ensure_ascii=False))
# {‘confidence‘: 0.99, ‘encoding‘: ‘utf-8‘}

chardet是一個非常優秀的編碼識別模塊，可通過pip安裝

3. json.dump()

將Python內置類型序列化為json對象後寫入文件

# json_dump.py

import json

listStr = [{"city": "北京"}, {"name": "大劉"}]
json.dump(listStr, open("listStr.json","w"), ensure_ascii=False)

dictStr = {"city": "北京", "name": "大劉"}
json.dump(dictStr, open("dictStr.json","w"), ensure_ascii=False)
4. json.load()

讀取文件中json形式的字符串元素轉化成python類型

# json_load.py

import json

strList = json.load(open("listStr.json"))
print strList

# [{u‘city‘: u‘\u5317\u4eac‘}, {u‘name‘: u‘\u5927\u5218‘}]

strDict = json.load(open("dictStr.json"))
print strDict
# {u‘city‘: u‘\u5317\u4eac‘, u‘name‘: u‘\u5927\u5218‘}

JsonPath

JsonPath 是一種信息抽取類庫，是從JSON文檔中抽取指定信息的工具，提供多種語言實現版本，包括：Javascript, Python， PHP 和 Java。

JsonPath 對於 JSON 來說，相當於 XPATH 對於 XML。

下載地址：https://pypi.python.org/pypi/jsonpath

安裝方法：點擊Download URL鏈接下載jsonpath，解壓之後執行python setup.py install

官方文檔：http://goessner.net/articles/JsonPath

JsonPath與XPath語法對比：

Json結構清晰，可讀性高，復雜度低，非常容易匹配，下表中對應了XPath的用法。

XPath	JSONPath	描述
`/`	`$`	根節點
`.`	`@`	現行節點
`/`	`.`or`[]`	取子節點
`..`	n/a	取父節點，Jsonpath未支持
`//`	`..`	就是不管位置，選擇所有符合條件的條件
`*`	`*`	匹配所有元素節點
`@`	n/a	根據屬性訪問，Json不支持，因為Json是個Key-value遞歸結構，不需要。
`[]`	`[]`	叠代器標示（可以在裏邊做簡單的叠代操作，如數組下標，根據內容選值等）
\|	`[,]`	支持叠代器中做多選。
`[]`	`?()`	支持過濾操作.
n/a	`()`	支持表達式計算
`()`	n/a	分組，JsonPath不支持

獲取拉鉤網站json數據

我們以拉勾網城市JSON文件 http://www.lagou.com/lbs/getAllCitySearchLabels.json 為例，獲取所有城市。

# jsonpath_lagou.py

import requests
# json解析庫，對應到lxml
import json
# json的解析語法，對應到xpath
import jsonpath

url = "http://www.lagou.com/lbs/getAllCitySearchLabels.json"
headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

response = requests.get(url=url,headers=headers)
#  取出json文件裏的內容，返回的格式是字符串
html =  response.text
# 把json形式的字符串轉換成python形式的Unicode字符串
unicodestr = json.loads(html)

# Python形式的列表
city_list = jsonpath.jsonpath(unicodestr, "$..name")

# dumps()默認中文為ascii編碼格式，ensure_ascii默認為Ture
# 禁用ascii編碼格式，返回的Unicode字符串，方便使用
array = json.dumps(city_list, ensure_ascii=False)

with open("lagoucity.json", "w",encoding=‘utf-8‘) as f:
    f.write(array)

註意事項：

json.loads() 是把 Json格式字符串解碼轉換成Python對象，如果在json.loads的時候出錯，要註意被解碼的Json字符的編碼。

如果傳入的字符串的編碼不是UTF-8的話，需要指定字符編碼的參數 encoding

dataDict = json.loads(jsonStrGBK);

dataJsonStr是JSON字符串，假設其編碼本身是非UTF-8的話而是GBK 的，那麽上述代碼會導致出錯，改為對應的：
```
  dataDict = json.loads(jsonStrGBK, encoding="GBK");
```
如果 dataJsonStr通過encoding指定了合適的編碼，但是其中又包含了其他編碼的字符，則需要先去將dataJsonStr轉換為Unicode，然後再指定編碼格式調用json.loads()

``` python

dataJsonStrUni = dataJsonStr.decode("GB2312"); dataDict = json.loads(dataJsonStrUni, encoding="GB2312");


##字符串編碼轉換

這是中國程序員最苦逼的地方，什麽亂碼之類的幾乎都是由漢字引起的。
其實編碼問題很好搞定，只要記住一點：

####任何平臺的任何編碼 都能和 Unicode 互相轉換

UTF-8 與 GBK 互相轉換，那就先把UTF-8轉換成Unicode，再從Unicode轉換成GBK，反之同理。

# 這是一個 UTF-8 編碼的字符串
utf8Str = "你好地球"

# 1. 將 UTF-8 編碼的字符串 轉換成 Unicode 編碼
unicodeStr = utf8Str.decode("UTF-8")

# 2. 再將 Unicode 編碼格式字符串 轉換成 GBK 編碼
gbkData = unicodeStr.encode("GBK")

# 1. 再將 GBK 編碼格式字符串 轉化成 Unicode
unicodeStr = gbkData.decode("gbk")

# 2. 再將 Unicode 編碼格式字符串轉換成 UTF-8
utf8Str = unicodeStr.encode("UTF-8")

decode的作用是將其他編碼的字符串轉換成 Unicode 編碼

encode的作用是將 Unicode 編碼轉換成其他編碼的字符串

一句話：UTF-8是對Unicode字符集進行編碼的一種編碼方式

爬取知乎網站

from bs4 import BeautifulSoup
import requests
import time

def captcha(captcha_data):
    with open("captcha.jpg", "wb") as f:
        f.write(captcha_data)
    text = input("請輸入驗證碼：")
    # 返回用戶輸入的驗證碼
    return text

def zhihuLogin():
    # 構建一個Session對象，可以保存頁面Cookie
    sess = requests.Session()

    # 請求報頭
    headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

    # 首先獲取登錄頁面，找到需要POST的數據（_xsrf)，同時會記錄當前網頁的Cookie值
    html = sess.get("https://www.zhihu.com/#signin", headers = headers).text
    # 調用lxml解析庫
    bs = BeautifulSoup(html, "lxml")

    # _xsrf 作用是防止CSRF攻擊（跨站請求偽造)，通常叫跨域攻擊，是一種利用網站對用戶的一種信任機制來做壞事
    # 跨域攻擊通常通過偽裝成網站信任的用戶的請求(利用Cookie)，盜取用戶信息、欺騙web服務器
    # 所以網站會通過設置一個隱藏字段來存放這個MD5字符串，這個字符串用來校驗用戶Cookie和服務器Session的一種方式

    # 找到name屬性值為 _xsrf 的input標簽，再取出value 的值
    _xsrf = bs.find("input", attrs={"name":"_xsrf"}).get("value")

    # 根據UNIX時間戳，匹配出驗證碼的URL地址
    captcha_url = "https://www.zhihu.com/captcha.gif?r=%d&type=login" % (time.time() * 1000)
    # 發送圖片的請求，獲取圖片數據流，
    captcha_data = sess.get(captcha_url, headers = headers).content
    # 獲取驗證碼裏的文字，需要手動輸入
    text = captcha(captcha_data)

    data = {
        "_xsrf" : _xsrf,
        "email" : "[email protected]",
        "password" : "ALARMCHIME",
        "captcha" : text
    }

    # 發送登錄需要的POST數據，獲取登錄後的Cookie(保存在sess裏)
    response = sess.post("https://www.zhihu.com/login/email", data = data, headers = headers)
    #print response.text

    # 用已有登錄狀態的Cookie發送請求，獲取目標頁面源碼
    response = sess.get("https://www.zhihu.com/people/maozhaojun/activities", headers = headers)
    with open("my.html", "w") as f:
        f.write(response.text.encode("utf-8"))

if __name__ == "__main__":
    zhihuLogin()

9.json和jsonpath

數組 setup.py 中括號機制中一 win obj num 所有數據提取之JSON與JsonPATH JSON(JavaScript Object Notation) 是一種輕量級的數據交換格式，它使得人們很容易的進行閱讀和編寫。同時也方便了機器進行解析和生成。

9、學什麼技術之javascript學習指南 JSON和Math

console.log("---------向上取整-----------"); console.log(Math.ceil(2.3));//3 console.log(Math.ceil(2.1));//3 console.log(Math.ceil(2.0));//2

python爬蟲如何解析json檔案 json檔案的解析提取和jsonpath的應用

這是通過抓包工具抓取到的json檔案然後json檔案線上解析，把內容複製貼上進去解析得出下面的內容（右邊框內）json檔案的地址url="http://www.lagou.com/lbs/getAllCitySearchLabels.json"用python來解析並提取出其

【python介面自動化】- 使用json及jsonpath轉換和提取資料

# 前言 JSON(JavaScript Object Notation)是一種輕量級的資料交換格式。它可以讓人們很容易的進行閱讀和編寫，同時也方便了機器進行解析和生成，適用於進行資料互動的場景，比如網站前臺與後臺之間的資料互動。簡單說就是javascript中的物件和陣列，通過這兩種結構可以表示各種複

Yii2 使用json 和設置component 中'format' => yiiwebResponse::FORMAT_JSON 的區別

utf-8 全部 cti lencod yii json格式當前 form resp 在Yii2中如果設置了 ‘response‘ => [ 　　‘format‘ => yii\web\Response::FORMAT_JSON, 　　‘charset‘

project.json 和 csproj 屬性之間的映射

ont some form ati put git ast property using 作者 Nate McMaster .NET Core 工具的開發過程中實施了一項重要的設計更改，即不再支持 project.json 文件，而是將 .NET Core 項目轉移

day5 常用模塊json和pickle

for als ria 類型需要反序 rcu default check json 和 pickle json和pickle是用於字符串序列化和反序列化的過程，我們在存儲和使用的時候，經常把列表存入文件，讀取的時候我們還想以列表的形式讀取。就需要使用json和

json和jsonp

窗口 itl element 服務器本地服務設置定義鍵值 png json：一種數據交換的格式。 jsonp：一種依靠開發人員的聰明才智創造出的一種非官方跨域數據交互協議。形象點說，以諜戰片來打個比方，JSON是地下黨們用來書寫和交換情報的“暗號”，而JSONP則

json和xml封裝數據、數據緩存到文件中

用戶 lena 數據緩存完全數據類型 lin print 函數 response 一、APP的通信格式之xml xml：擴展標記語言，可以用來標記數據，定義數據類型，是一種允許用戶對自己標記語言進行定義的源語言。XML格式統一，擴平臺語言，非常適合數據傳輸和通信，業界

days-json和pickle序列化

pick 編碼 bytes 數據交換格式 rip dict 文件介質打開文件一.json模塊序列化：把一個對象的形態改變一下，使他能夠存放在文件中，或者在網絡上傳輸，序列化也叫持久化，是把對象存儲到永久介質中，這樣就不會因為掉電而丟失。 JSON (JavaScri

快來看看Google出品的Protocol Buffer，別僅僅會用Json和XML了

println 輸出流基本數據類型下一個 ebr sid 官網序列 reg 前言習慣用 Json、XML 數據存儲格式的你們，相信大多都沒聽過Protocol Buffer Protocol Buffer 事實上是 Google出品的一種輕

說說JSON和JSONP，也許你會豁然開朗

解析幫助 w3c 為什麽語言 pad url地址 john object 　轉自：http://kb.cnblogs.com/page/139725/ 　　　　 http://kb.cnblogs.com/page/150964/ 前言　　由於Sencha

JSON和JSONP，原來ajax引用這個來實現跨域訪問的

第一個下午想要進行 ava 客戶 als rep web客戶端由於Sencha Touch 2這種開發模式的特性，基本決定了它原生的數據交互行為幾乎只能通過AJAX來實現。當然了，通過調用強大的PhoneGap插件然後打包，你可以實現100%的Socket通訊和本

JAVA裏面json和java對象之間的相互轉換

users str ons from ini java 互轉 json字符串 lis 1. 把java 對象列表轉換為json對象數組，並轉為字符串 JSONArray array = JSONArray.fromObject(list); String js

python學習第四天，列表生產式，匿名函數，生成器，內置函數，叠代器，裝飾器，json和pickle的序列化和反序列化

數據其他 imp 函數名 fun pro serializa and cal 列表生成式，生產器 #列表生成式,可以是代碼更復雜 a = [i for i in range(10)] #這裏的i，可以使用函數來裝飾 print(a) #生產器：就是數據在調用的時候才有

JSON和JSONP的區別

post 原理 sync 我們語言 comm number 前後端 .com 什麽是JSON？，JSON是一種輕量級的數據傳輸格式，被廣泛應用於當前Web應用中。JSON格式數據的編碼和解析基本在所有主流語言中都被實現，所以現在大部分前後端分離的架構都以JSON格式進行

ajax ---- json 和 xml 區別

需要 pro ces 文件格式很多 pos 使用基本 perl 2.XML和JSON優缺點 (1).XML的優缺點<1>.XML的優點　　A.格式統一，符合標準；　　B.容易與其他系統進行遠程交互，數據共享比較方便。<2>.XML的缺點　　A.X

java JSON 和 Object 相互轉換

eva sta art XML null jackson log () struct 1、導入 jackson jar <dependency> <groupId>com.fasterxml.jackson.core</groupId

Python基礎-json和pickle模塊

就會之間 mps 共享數據 pickle模塊使用是把傳輸序列一、序列化是指把內存裏的數據類型轉變成字符串，以使其能存儲到硬盤或通過網絡傳輸到遠程，因為硬盤或網絡傳輸時只能接受bytes 把字符串轉化成內存數據類型叫做反序列化 json 和 pickl

同源策略、跨域、json和jsonp

open 是把 tro 兩個屬性 ont type cti 結果同源策略源（origin）就是協議、域名和端口號。若地址裏面的協議、域名和端口號均相同則屬於同源。以下是相對於 http://www.a.com/test/index.html 的同源檢測　　? htt

9.json和jsonpath

JSON

import json

1. json.loads()

2. json.dumps()

3. json.dump()

JsonPath

JsonPath與XPath語法對比：

獲取拉鉤網站json數據

註意事項：

相關推薦