多線程爬取百度百科
阿新 • • 發佈:2017-09-05
lib item put 腳本 mit sin find client rtl
- 前言:
EVERNOTE裏的一篇筆記,我用了三個博客才學完...真的很菜...百度百科和故事網並沒有太過不一樣,修改下編碼,debug下,就可以爬下來了,不過應該是我爬的東西太初級了,而且我爬到3000多條鏈接時,好像被拒絕了...爬取速度也很慢,估計之後要接觸一些優化或者多進程,畢竟python是假的多線程。
本博客參照代碼及PROJECT來源:http://kexue.fm/archives/4385/
- 源代碼:
1 #! -*- coding:utf-8 -*- 2 import requests as rq 3 import re 4 import time 5 import datetime
- BUG:
raise RemoteDisconnected("Remote end closed connection without" http.client.RemoteDisconnected: Remote end closed connection without response
問題在於沒有偽裝請求頭
來源:http://blog.csdn.net/u013424864/article/details/60778031
多線程爬取百度百科