1. 程式人生 > >python3編寫知乎某話題爬蟲應注意事項

python3編寫知乎某話題爬蟲應注意事項

1.請求頭 在瀏覽器元素欄中尋找,一般保留HOST和User-Agent兩項即可 2.檔案的儲存

#儲存資料夾的準備
def save(text,filename='temp',path='/home/wanghuan/spider-learning/zhihu/download'):
#生成儲存資料地址
     fpath=os.path.join(path,filename)
     #生成下載圖片的地址
     with open(fpath,'wb+') as f:
          print('output:',fpath)
          f.write(text)

3.圖片的儲存

def save_image(image_url):
#從瀏覽器中獲取圖片的網路地址
     resp=requests.get(image_url)
     page=resp.content
     #擷取圖片的檔名(取字尾為zhimg.com)
     filename = image_url.split('zhimg.com/')[-1]
     save(page,filename)