爬蟲學習記錄 ----持續更新
阿新 • • 發佈:2018-11-10
本博文主要記錄一些在學習爬蟲過程遇到的一些小技巧
============================================================================
3、獲取網頁的文字的編碼格式
import requests
url = 'https://movie.douban.com/top250?start=25&filter='
r = requests.get(url)
print(r.encoding)
執行結果如下:
utf-8
============================================================================
2、傳遞URL引數(此內容轉摘自 https://blog.csdn.net/kangyan__/article/details/78506243 )
例如, httpbin.org/get?key=val
- 想傳遞
key1=value1
和key2=value2
到httpbin.org/get
程式碼如下:
import requests
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.get("http://httpbin.org/get", params=payload)
print(r.url)
執行結果如下:
http://httpbin.org/get?key1=value1&key2=value2
- 還可以將一個列表作為值傳入:
import requests
payload = {'key1': 'value1', 'key2': ['value2', 'value3']}
r = requests.get('http://httpbin.org/get', params=payload)
print(r.url)
執行結果如下:
http://httpbin.org/get?key1=value1&key2=value2&key2=value3
============================================================================
1、用chrome檢視審查元素
以"豆瓣電影 Top 250"網頁為例,網址:https://movie.douban.com/top250
用chrome開啟網址,有兩種方式開啟審查元素:
①按“F12”鍵,點"Elements",點左上角的箭頭,箭頭變藍後點擊左側頁面的網頁內容,Elements就會跳轉至相應的位置
②快捷組合鍵“Ctrl+Shift+c”可直接開啟審查元素功能,如下圖:
再次按“F12”即可關閉審查元素頁面。