非結構化資料與結構化資料提取--- JSON模組與JsonPath

阿新 • • 發佈：2018-11-12

資料提取之JSON與JsonPATH

JSON(JavaScript Object Notation) 是一種輕量級的資料交換格式，它使得人們很容易的進行閱讀和編寫。同時也方便了機器進行解析和生成。適用於進行資料互動的場景，比如網站前臺與後臺之間的資料互動。

JSON和XML的比較可謂不相上下。

Python 2.7中自帶了JSON模組，直接import json就可以使用了。

官方文件：http://docs.python.org/library/json.html

Json線上解析網站：http://www.json.cn/#

JSON

json簡單說就是javascript中的物件和陣列，所以這兩種結構就是物件和陣列兩種結構，通過這兩種結構可以表示各種複雜的結構

物件：物件在js中表示為{ }括起來的內容，資料結構為 { key：value, key：value, ... }的鍵值對的結構，在面向物件的語言中，key為物件的屬性，value為對應的屬性值，所以很容易理解，取值方法為物件.key 獲取屬性值，這個屬性值的型別可以是數字、字串、陣列、物件這幾種。

陣列：陣列在js中是中括號[ ]括起來的內容，資料結構為 ["Python", "javascript", "C++", ...]，取值方式和所有語言中一樣，使用索引獲取，欄位值的型別可以是數字、字串、陣列、物件幾種。

import json

json模組提供了四個功能：dumps、dump、loads、load，用於字串和 python資料型別間進行轉換。

1. json.loads()

把Json格式字串解碼轉換成Python物件從json到python的型別轉化對照如下：

# json_loads.py

import json

strList = '[1, 2, 3, 4]'

strDict = '{"city": "北京", "name": "大貓"}'

json.loads(strList) 
# [1, 2, 3, 4] json.loads(strDict) # json資料自動按Unicode儲存 # {u'city': u'\u5317\u4eac', u'name': u'\u5927\u732b'}

2. json.dumps()

實現python型別轉化為json字串，返回一個str物件把一個Python物件編碼轉換成Json字串

從python原始型別向json型別的轉化對照如下：

# json_dumps.py

import json
import chardet

listStr = [1, 2, 3, 4] tupleStr = (1, 2, 3, 4) dictStr = {"city": "北京", "name": "大貓"} json.dumps(listStr) # '[1, 2, 3, 4]' json.dumps(tupleStr) # '[1, 2, 3, 4]' # 注意：json.dumps() 序列化時預設使用的ascii編碼 # 新增引數 ensure_ascii=False 禁用ascii編碼，按utf-8編碼 # chardet.detect()返回字典, 其中confidence是檢測精確度 json.dumps(dictStr) # '{"city": "\\u5317\\u4eac", "name": "\\u5927\\u5218"}' chardet.detect(json.dumps(dictStr)) # {'confidence': 1.0, 'encoding': 'ascii'} print json.dumps(dictStr, ensure_ascii=False) # {"city": "北京", "name": "大劉"} chardet.detect(json.dumps(dictStr, ensure_ascii=False)) # {'confidence': 0.99, 'encoding': 'utf-8'}

chardet是一個非常優秀的編碼識別模組，可通過pip安裝

3. json.dump()

將Python內建型別序列化為json物件後寫入檔案

# json_dump.py

import json

listStr = [{"city": "北京"}, {"name": "大劉"}] json.dump(listStr, open("listStr.json","w"), ensure_ascii=False) dictStr = {"city": "北京", "name": "大劉"} json.dump(dictStr, open("dictStr.json","w"), ensure_ascii=False)

4. json.load()

讀取檔案中json形式的字串元素轉化成python型別

# json_load.py

import json

strList = json.load(open("listStr.json"))
print strList

# [{u'city': u'\u5317\u4eac'}, {u'name': u'\u5927\u5218'}] strDict = json.load(open("dictStr.json")) print strDict # {u'city': u'\u5317\u4eac', u'name': u'\u5927\u5218'}

JsonPath

JsonPath 是一種資訊抽取類庫，是從JSON文件中抽取指定資訊的工具，提供多種語言實現版本，包括：Javascript, Python， PHP 和 Java。

JsonPath 對於 JSON 來說，相當於 XPATH 對於 XML。

下載地址：https://pypi.python.org/pypi/jsonpath

安裝方法：點選Download URL連結下載jsonpath，解壓之後執行python setup.py install

官方文件：http://goessner.net/articles/JsonPath

JsonPath與XPath語法對比：

Json結構清晰，可讀性高，複雜度低，非常容易匹配，下表中對應了XPath的用法。

XPath	JSONPath	描述
`/`	`$`	根節點
`.`	`@`	現行節點
`/`	`.`or`[]`	取子節點
`..`	n/a	取父節點，Jsonpath未支援
`//`	`..`	就是不管位置，選擇所有符合條件的條件
`*`	`*`	匹配所有元素節點
`@`	n/a	根據屬性訪問，Json不支援，因為Json是個Key-value遞迴結構，不需要。
`[]`	`[]`	迭代器標示（可以在裡邊做簡單的迭代操作，如陣列下標，根據內容選值等）
\|	`[,]`	支援迭代器中做多選。
`[]`	`?()`	支援過濾操作.
n/a	`()`	支援表示式計算
`()`	n/a	分組，JsonPath不支援

示例：

我們以拉勾網城市JSON檔案 http://www.lagou.com/lbs/getAllCitySearchLabels.json 為例，獲取所有城市。

# jsonpath_lagou.py

import urllib2
import jsonpath
import json
import chardet url = 'http://www.lagou.com/lbs/getAllCitySearchLabels.json' request =urllib2.Request(url) response = urllib2.urlopen(request) html = response.read() # 把json格式字串轉換成python物件 jsonobj = json.loads(html) # 從根節點開始，匹配name節點 citylist = jsonpath.jsonpath(jsonobj,'$..name') print citylist print type(citylist) fp = open('city.json','w') content = json.dumps(citylist, ensure_ascii=False) print content fp.write(content.encode('utf-8')) fp.close()

注意事項：

json.loads() 是把 Json格式字串解碼轉換成Python物件，如果在json.loads的時候出錯，要注意被解碼的Json字元的編碼。

如果傳入的字串的編碼不是UTF-8的話，需要指定字元編碼的引數 encoding

dataDict = json.loads(jsonStrGBK);

dataJsonStr是JSON字串，假設其編碼本身是非UTF-8的話而是GBK 的，那麼上述程式碼會導致出錯，改為對應的：
```
  dataDict = json.loads(jsonStrGBK, encoding="GBK");
```
如果 dataJsonStr通過encoding指定了合適的編碼，但是其中又包含了其他編碼的字元，則需要先去將dataJsonStr轉換為Unicode，然後再指定編碼格式呼叫json.loads()

``` python

dataJsonStrUni = dataJsonStr.decode("GB2312"); dataDict = json.loads(dataJsonStrUni, encoding="GB2312");


##字串編碼轉換

這是中國程式設計師最苦逼的地方，什麼亂碼之類的幾乎都是由漢字引起的。
其實編碼問題很好搞定，只要記住一點：

####任何平臺的任何編碼 都能和 Unicode 互相轉換

UTF-8 與 GBK 互相轉換，那就先把UTF-8轉換成Unicode，再從Unicode轉換成GBK，反之同理。



``` python 
# 這是一個 UTF-8 編碼的字串
utf8Str = "你好地球"

# 1. 將 UTF-8 編碼的字串 轉換成 Unicode 編碼
unicodeStr = utf8Str.decode("UTF-8")

# 2. 再將 Unicode 編碼格式字串 轉換成 GBK 編碼
gbkData = unicodeStr.encode("GBK")

# 1. 再將 GBK 編碼格式字串 轉化成 Unicode
unicodeStr = gbkData.decode("gbk")

# 2. 再將 Unicode 編碼格式字串轉換成 UTF-8
utf8Str = unicodeStr.encode("UTF-8")

decode的作用是將其他編碼的字串轉換成 Unicode 編碼

encode的作用是將 Unicode 編碼轉換成其他編碼的字串

一句話：UTF-8是對Unicode字符集進行編碼的一種編碼方式

非結構化資料與結構化資料提取--- JSON模組與JsonPath

資料提取之JSON與JsonPATH JSON(JavaScript Object Notation) 是一種輕量級的資料交換格式，它使得人們很容易的進行閱讀和編寫。同時也方便了機器進行解析和生成。適用於進行資料互動的場景，比如網站前臺與後臺之間的資料互動。 JSON和XML的比較可謂不相上下。 Pyt

json模組與jsonpath語法

1、json簡介JSON(JavaScript Object Notation) 是一種輕量級的資料交換格式，它使得人們很容易的進行閱讀和編寫。同時也方便了機器進行解析和生成。適用於進行資料互動的場景，比如網站前臺與後臺之間的資料互動。JSON和XML的比較可謂不相上下。Py

非結構化資料與結構化資料提取---多執行緒爬蟲案例

多執行緒糗事百科案例案例要求參考上一個糗事百科單程序案例 Queue（佇列物件） Queue是python中的標準庫，可以直接import Queue引用;佇列是執行緒間最常用的交換資料的形式 python下多執行緒的思考對於資源，加鎖是個重要的環節。因為python原生的list,dict等，

非結構化資料與結構化資料提取---- 案例：使用bs4的爬蟲

案例：使用BeautifuSoup4的爬蟲我們以騰訊社招頁面來做演示：http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSoup4解析器，將招聘網頁上的職位名稱、職位類別、招聘人數、工作地點、釋出

黑馬python2.7的爬蟲2-非結構化資料與結構化資料提取

非結構化資料與結構化資料提取抓取的是某個網站或者某個應用的內容，提取有用的價值。內容一般分為兩部分，非結構化的資料和結構化的資料。非結構化資料：先有資料，再有結構，結構化資料：先有結構、再有資料不同型別的資料，我們需要採用不同的方式來處理。1、非結構化的資料處理文字、電話

流式資料、批式資料、實時資料、歷史資料、結構化資料、非結構化資料

大資料處理系統可分為批式(batch)大資料和流式(streaming)大資料兩類。其中，批式大資料又被稱為歷史大資料，流式大資料又被稱為實時大資料。流資料是一組順序、大量、快速、連續到達的資料序列,一般情況下,資料流可被視為一個隨時間延續而無限增長的動態資料集合。應用於網路

結構化、半結構化和非結構化資料

一、結構化資料結構化的資料是指可以使用關係型資料庫表示和儲存，表現為二維形式的資料。一般特點是：資料以行為單位，一行資料表示一個實體的資訊，每一行資料的屬性是相同的。舉一個例子： id name age gend

[跪求大神]大資料中的文字資料探勘問題，非結構化轉換問題

現有一個數據包，裡面有大量txt檔案，txt檔案裡儲存的是一家餐廳的基本資訊，以及客戶對其評價，包括的欄位如下： id：店鋪id name：店鋪名 name_all：店鋪全稱 star：平均評價分數 address：地址 tags：標籤 comment：一條評論 uid

結構化，半結構化，非結構化資料總結

前言： Hive可以將結構化的資料檔案對映為一張資料庫表，並提供類SQL查詢功能。在學習Hive之前我們先了解下結構化資料，半結構化資料以及非結構化資料的區別。 1.結構化資料結構化的資

關於結構化、半結構化、非結構化資料的理解

記得在課上，老師說，結構化資料就是我們關係資料庫裡的表，剩下的都是半結構化和非結構化資料，好比XML文件就是半結構化資料，WORD文件就是非結構化資料，大資料就是半結構化和非結構化資料。心中一直有一個疑問？難道大資料不應該包含結構化資料嗎？實在學習資料庫這門課時，就對這幾個概

C++ 記憶體資料結構與二進位制檔案之間的序列化和反序列化

應用場景許多後端檢索server啟動時候需要從檔案載入到記憶體中構建索引，這個過程往往會消耗比較多的時間，這樣會造成sever啟動消耗比較多的時間，在存在多臺伺服器的時候會更加明顯。我們可以將夠構建索引的過程獨立成一個單獨的程序，此程序實現的功能是根據原

hbase非結構化數據庫與結構化數據庫比較

數據可靠性插入聯網定位海量數據倍增關系型字符類型文件目的：了解hbase與支持海量數據查詢的特性以及實現方式傳統關系型數據庫特點及局限傳統數據庫事務性特別強，要求數據完整性及安全性，造成系統可用性以及伸縮性大打折扣。對於高並發的訪問量，數據庫性

非結構化數據與結構化數據提取----XPath與lxml類庫

html ext sce .html 文件系統結構化數據繼續 http encoding 什麽是XML XML 指可擴展標記語言（EXtensible Markup Language） XML 是一種標記語言，很類似 HTML XML 的設計宗旨是傳輸數據，而非顯示數

非結構化數據與結構化數據提取---正則表達式re模塊

dict pos 叠代器 utf-8 lan .net -c att position 頁面解析和數據提取一般來講對我們而言，需要抓取的是某個網站或者某個應用的內容，提取有用的價值。內容一般分為兩部分，非結構化的數據和結構化的數據。非結構化數據：先有數據，再有結構

資料結構六：二叉樹的先序建樹與中序的非遞迴遍歷演算法

熟悉二叉樹的遍歷建樹過程有利於對後文線索化二叉樹的學習對於資料結構中二叉樹特殊的結構，經過一段時間的溫習發現自己基礎並不是很牢靠，所以寫下這篇博文也是記錄一下自己

Hadoop的I/O操作（壓縮、序列化、基於檔案的資料結構）

一、序列化序列化就是把結構化物件，轉換成位元組流序列或者其他資料傳輸協議以便於永久化儲存和網路傳輸。反序列化是序列化的逆過程，即將收到的位元組流序列、資料傳輸協議等，轉換成結構化的物件。Hadoop中用於多節點間程序通訊的是RPC（遠端過程呼叫）。RPC序列化格式如下：1、格

java靜態資料與非靜態資料的初始化

靜態資料列印結果當StaticInitialization執行的時候，首先會載入static Table table = new Table();static Cupboard cupboard = new Cupboard();當執行new Table()的時候，他就

Scrapy系列教程（2）------Item（結構化資料儲存結構）

擴充套件Item 您可以通過繼承原始的Item來擴充套件item(新增更多的欄位或者修改某些欄位的元資料)。例如: class DiscountedProduct(Product): discount_percent = scrapy.Field(serializer=str) di

結構化、半結構化和非結構化數據

tracking 數據庫能夠二維表示結構化數據媒體 acl 面向在實際應用中，我們會遇到各式各樣的數據庫如nosql非關系數據庫（memcached，redis。mangodb）。RDBMS關系數據庫（oracle，mysql等），另一些其他的數據庫如hba

pdf解析與結構化提取

選擇同時開始轉換 table () IT body 取數 PDF解析與結構化提取 PDF解析對於PDF文檔，我們選擇用PDFMiner對其進行解析，得到文本。 PDFMiner PDFMiner使用了一種稱作lazy parsing的策略，只在需要的時候才去解析，以

非結構化資料與結構化資料提取--- JSON模組與JsonPath

資料提取之JSON與JsonPATH

JSON

import json

1. json.loads()

2. json.dumps()

3. json.dump()

4. json.load()

JsonPath

JsonPath與XPath語法對比：

示例：

注意事項：

相關推薦