python處理網頁帶#&加上5位數字的字元
阿新 • • 發佈:2018-12-29
很明顯的json格式。這裡我就不說怎麼處理json資料了。Python有json模組,轉化為列表或者字典結構處理不難。這是網頁上的資料,現在看我們獲取的網頁原始碼:
import requests
url='https://tbskip.taobao.com/json/item_sku.do?item_num_id=562037078185'
r=requests.get(url)
原始碼裡面含有&#和五位數字構成的字元,怎麼將其變成我們看到的網頁資料上的中文呢,使用unescape函式。
import html #python 3.5之前用html.parser.HTMLParser().unescape(r.text) res=html.unescape(r.text)
看下結果,再對比下原網頁資料,&#和五位數字的字元都變成了中文:
預期的結果實現了。現在發一下完整的程式碼:
# -*- coding: utf-8 -*- """ Created on Thu Nov 22 11:12:34 2018 @author: FanXiaoLei """ import requests import html url='https://tbskip.taobao.com/json/item_sku.do?item_num_id=562037078185' r=requests.get(url) res=html.unescape(r.text) #python 3.5之前用html.parser.HTMLParser().unescape(r.text) print(res)