爬蟲--3.資料解析
阿新 • • 發佈:2022-05-29
資料解析基本認識
爬蟲根據使用場景不同分為:通用爬蟲,聚焦爬蟲,增量式爬蟲
聚焦爬蟲:爬取頁面中指定的頁面內容
--編碼流程
--指定URL
--發起請求
--獲取響應資料
--資料解析
--持久化儲存
聚焦爬蟲以通用爬蟲為基礎,進行資料的區域性提取,提取的過程即為資料解析.
資料解析分類:
--正則
--bs4
--xpath
資料解析原理概述:
--解析的區域性文字內容都會在標籤之間或者標籤對應的屬性中進行儲存
--1.進行指定標籤的定位
--2.標籤或者標籤對應的屬性中儲存的資料值進行提取(解析)
正則資料解析
# 圖片抓取
import requests if __name__ == '__main__': url = 'https://img2020.cnblogs.com/blog/2473958/202109/2473958-20210915152350612-1868274091.png' # content返回的是二進位制形式的圖片資料 # .text(字串) .content(二進位制) .json()(物件) img_data = requests.get(url=url).content with open('./tupian.jpg','wb') as fp: fp.write(img_data)
# 正則解析 # <img data-v-3d1xxxa="" src="https://api.xxxx.com/image_xxx/xxx3l8zlw7.jpg" class="img-member-new"> ex = '<img data-v-3d1ecfca.*?src="(.*?)" class="img-member-new">' img_src_list = re.findall(ex,page_text,re.S)
bs4解析
bs4是python獨有的解析方式.