python3編寫知乎某話題爬蟲應注意事項
阿新 • • 發佈:2018-12-13
1.請求頭 在瀏覽器元素欄中尋找,一般保留HOST和User-Agent兩項即可 2.檔案的儲存
#儲存資料夾的準備
def save(text,filename='temp',path='/home/wanghuan/spider-learning/zhihu/download'):
#生成儲存資料地址
fpath=os.path.join(path,filename)
#生成下載圖片的地址
with open(fpath,'wb+') as f:
print('output:',fpath)
f.write(text)
3.圖片的儲存
def save_image(image_url):
#從瀏覽器中獲取圖片的網路地址
resp=requests.get(image_url)
page=resp.content
#擷取圖片的檔名(取字尾為zhimg.com)
filename = image_url.split('zhimg.com/')[-1]
save(page,filename)