python爬蟲如何解析json檔案 json檔案的解析提取和jsonpath的應用

阿新 • • 發佈：2019-02-18

這是通過抓包工具抓取到的json檔案

然後json檔案線上解析，把內容複製貼上進去解析得出下面的內容（右邊框內）

json檔案的地址url="http://www.lagou.com/lbs/getAllCitySearchLabels.json"

用python來解析並提取出其中的城市名

程式碼如下：

#coding:utf8

import urllib2
#json解析庫,對應到lxml
import json
#json的解析語法，對應到xpath
import jsonpath

url="http://www.lagou.com/lbs/getAllCitySearchLabels.json"
header={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0"}

request=urllib2.Request(url,headers=header)

response=urllib2.urlopen(request)
#取出json檔案裡的內容，返回的格式是字串
html=response.read()

#把json形式的字串轉換成python形式的Unicode字串
unicodestr=json.loads(html)

#python形式的列表
city_list=jsonpath.jsonpath(unicodestr,"$..name")

#列印每個城市
for i in city_list:
    print i

#dumps()預設中文偉ascii編碼格式，ensure_ascii預設為Ture
#禁用ascii編碼格式，返回Unicode字串
array=json.dumps(city_list,ensure_ascii=False)

#把結果寫入到lagouCity.json檔案中
with open("lagouCity.json","w") as f:
    f.write(array.encode("utf-8"))

列印結果如下圖：

。

————————————————————《分割線》——————————————————

另外再寫個簡單的流程案例：

import requests
import json
import jsonpath


url='http://baijiajiekuan.oss-cn-shanghai.aliyuncs.com/mongo/risk/original/data/20180206/04b94dac3ed84922b6d53c85514e700c.txt'
response=requests.get(url)

# 輸出編碼格式
# print(response.apparent_encoding)

# 解碼
response.encoding='utf8'

# 讀取reponse
html=response.text
# print(html)

# 把json格式字串轉換成python物件
html=json.loads(html)
# print(html)
# 獲取score節點下的資料
qq=jsonpath.jsonpath(html,'$..score')
print(qq)

JsonPath與XPath語法對比：

Json結構清晰，可讀性高，複雜度低，非常容易匹配，下表中對應了XPath的用法。

XPath	JSONPath	描述
`/`	`$`	根節點
`.`	`@`	現行節點
`/`	`.`or`[]`	取子節點
`..`	n/a	取父節點，Jsonpath未支援
`//`	`..`	就是不管位置，選擇所有符合條件的條件
`*`	`*`	匹配所有元素節點
`@`	n/a	根據屬性訪問，Json不支援，因為Json是個Key-value遞迴結構，不需要。
`[]`	`[]`	迭代器標示（可以在裡邊做簡單的迭代操作，如陣列下標，根據內容選值等）
\|	`[,]`	支援迭代器中做多選。
`[]`	`?()`	支援過濾操作.
n/a	`()`	支援表示式計算
`()`	n/a	分組，JsonPath不支援

python爬蟲如何解析json檔案 json檔案的解析提取和jsonpath的應用

這是通過抓包工具抓取到的json檔案然後json檔案線上解析，把內容複製貼上進去解析得出下面的內容（右邊框內）json檔案的地址url="http://www.lagou.com/lbs/getAllCitySearchLabels.json"用python來解析並提取出其

python爬蟲系列(4.1-關於檔案的寫入)

一、關於python中json模組的回顧 1、json.dumps():將python中字典轉換為json字串 2、json.loads():將json字串轉換為python字典二、使用python中自帶的檔案寫入功能 1、使用前面使用 bs4 爬取獲取貴州農產品爬取的資料

Python爬蟲最為核心的HTTP協議解析，及自定義協議的分析！

內容 proc 最新 ges font -o solid head nor 機器之間的協議就是機器通信的語法，只有按照這種語法發來的信息，機器之間才能相互理解內容，也可以理解為信息的一種格式。 HTTP/IP協議是互聯網最為重要的協議，沒有HTTP/IP協議，也就沒有互聯跟

python爬蟲——與不斷變化的頁面死磕和更新換代（3）

幸好 python爬蟲不能 mat 實戰抓包數字 32bit 進行　　經過上一次的實戰，手感有了，普羅西（霧）池也有了，再戰taobao/tmall 　　試著使用phantomJS爬手機端，結果發現爬來的tmall頁面全是亂碼，taobao頁面xpath識別錯誤。一

Python爬蟲基礎：驗證碼的爬取和識別詳解

今天要給大家介紹的是驗證碼的爬取和識別，不過只涉及到最簡單的圖形驗證碼，也是現在比較常見的一種型別。執行平臺：Windows Python版本：Python3.6 IDE: Sublime Text 其他：Chrome瀏覽器簡述流程：步驟1：簡單介紹驗證碼步驟2：

【Python爬蟲】微信公眾號歷史文章和文章評論API分析

上一篇文章爬取微信公眾號文章資訊準備工作介紹了微信公眾號歷史文章和文章評論API的組成情況，歷史文章API格式：https://mp.weixin.qq.com/mp/profile_ext?action=getmsg&__biz=MjM5NjAxOTU4MA==&f=json&

【python爬蟲小實戰】python3.x用requests和bs4實現有道翻譯(中英文)

一直用的是python3.x版本的，剛開始學爬蟲的時候學長給了我個爬有道翻譯的小程式，實現中英文翻譯，由於是用urllib庫的，當時也是剛接觸python，所以一臉懵逼，現在學了一個月了，回頭再看了一下，感覺很時間單，於是就用requests庫和bs4，加上js

python爬蟲系列（3）：使用Selenium和BeautifulSoup獲取12306一個月內所有車次車票情況

首先針對標題說明一下，本次的獲取資料是指定出發地和目的地之間的車次，不是整個網站所有車次。在此操作之前，請確保自己的相關的庫都已經安裝完全，這裡可沒有教安裝庫的方法哦~~~~好的，往下走，這次的目標網頁是 https://kyfw.12306.cn/otn/leftTic

python爬蟲系列（1）：使用python3和正則表示式獲取貓眼電影排行榜資料

簡述這次打算寫一個爬蟲系列，一邊也想好好總結鞏固學習的知識，一邊做總結筆記，方便以後回憶。這次我們使用Python3和正則表示式來爬取一個簡單html頁面資訊，就從貓眼電影的排行榜單開始吧。如果讀到這篇文章的是位大神，期望您能不吝賜教，指正錯誤，如果您是小白，咋們可以一同

python之驗證碼識別特征向量提取和余弦相似性比較

wow gif .get extra time ade upd orm log 0.目錄 1.參考2.沒事畫個流程圖3.完整代碼4.改進方向 1.參考 https://en.wikipedia.org/wiki/Cosine_similarity https://zh.wi

IE無法解析返回的JSON格式並提示下載檔案

問題解決方法： ①後臺定義返回型別為text/html，如 response.setContentType("text/html;charset=UTF-8"); ②前臺配置ajax引數dataType: 'text/html', ③將文字轉化為JSON格式資料 success: func

利用js-xlsx.js外掛實現Excel檔案匯入並解析Excel資料成json資料格式

<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8">

Python爬蟲：Windows系統下用pyquery庫解析含有中文的本地HTML檔案報UnicodeDecodeError的解決方法

由於Windows系統預設GBK編碼，用pyquery解析本地html檔案，如果檔案中有中文，會報錯： UnicodeDecodeError: 'gbk' codec can't decode byte 0xa3 in position 12: illegal multibyte sequenc

python Scrapy網路爬蟲實戰（存Json檔案以及存到mysql資料庫）

1-Scrapy建立新工程在開始爬取之前，您必須建立一個新的 Scrapy 專案。進入您打算儲存程式碼的目錄中【工作目錄】，執行下列命令，如下是我建立的一個爬取豆瓣的工程douban【儲存路徑為：C:\python27\web】: 命令： scrapy star

使用nodejs解析xlsx、csv檔案轉換成JSON檔案詳細教程（含解決解析xlsx、csv檔案解析中文亂碼問題）

前言最近工作中需要，領導給我一個csv檔案，讓我轉為JSON格式的檔案，決定使用nodejs來搞定，個人覺得這是用過的最簡單的方式；即使你沒用過node也可以通過本教程完成實現。你可能沒見過比這再詳細的教程文章了。可以收藏、轉載（轉載註明出處即可，不用與本人聯絡，大家分享學習，共同進步

fastjson解析json陣列/js檔案

@Test public void getArae() throws Exception { //專案打包後（jar）有些路徑是被隱蔽了，通過this.getClass().getClassLoader().getResource("檔名").getPath();獲得檔案在打包後項目中的絕度

Python-爬蟲-（Json和Csv）檔案儲存

用解析器解析出的資料後，可以通過TXT、JSON、CSV等檔案形式進行儲存； 1、TXT形式此處略； 2、JSON檔案儲存 json即js 物件標記，是一種資料格式； json格式： json物件：{"username":"ADMIN","pwd":"xxxx","address":"北京"} j

利用 js-xlsx 實現 Excel 檔案匯入並解析Excel資料成json格式的資料

原文出自http://www.jianshu.com/p/74d405940305，摘取了其中的一段，並做了相應的修改 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"

利用 js-xlsx 實現 Excel 檔案匯入並解析Excel資料成json格式的資料並且獲取其中某列資料

1、首先需要匯入js <script src="http://oss.sheetjs.com/js-xlsx/xlsx.full.min.js"></script> 2

Python 獲取接口數據，解析JSON,寫入文件

key pri gis http 例子 tlist eat port 寫入 Python 獲取接口數據，解析JSON,寫入文件用於練手的例子，從國家氣象局接口上獲取JSON數據，將它寫入文件中，並解析JSON；總的來說，在代碼量上，python代碼量要比java少很多。

python爬蟲 如何解析json檔案 json檔案的解析提取和jsonpath的應用

JsonPath與XPath語法對比：

相關推薦

python爬蟲如何解析json檔案 json檔案的解析提取和jsonpath的應用