關於爬數據的一點點事情
阿新 • • 發佈:2017-07-18
訪問 request cnblogs 有意 問題 get 獲得 有意思 在外
由於項目需要,最近需要從網上爬數據,也因此對爬數據這一塊進行了一些了解。
關於爬蟲,主要說說在實驗過程中幾個重要的點
1.偽裝瀏覽器訪問
一開始沒註意這個問題,導致多次訪問不是很順暢,有時候需要等待好久。作為一個純真的小男孩,初始代碼非常簡單,就像下面這樣直接建立連接,然後獲得對應url的內容。
s = requests.Session()
connection = s.get(url)
後來,發現了上面所說的問題後,上網相關搜索了一下,對原有“純真”的代碼進行了改造,加了瀏覽器的一些元素,讓代碼在外部看起來更像人為正常的瀏覽器訪問,而不是一個爬蟲。具體改造如下
s = requests.Session() connection= s.get(url, headers={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36" })
也就是加了headers中user-agent這個元素而已。具體user-agent可以從瀏覽器中的任意網頁-->右鍵(檢查)-->Network-->刷新-->選中一個js文件(中可以查看對應的request header),然後復制過來即可。
探索著,覺得爬蟲好像也挺有意思的。
關於爬數據的一點點事情