最簡單的Python網頁爬蟲
阿新 • • 發佈:2019-02-01
下面是用Python3寫的可以抓取任意網頁的程式碼,經過測試,馬上可用。這裡的示例抓取的是新浪實時股票資料。
#-*- coding: utf-8 -*-
任意網頁下載器
Created on Wed Dec 21 15:08:43 2016
@author: stanleymao
"""
#coding=utf-8
#不要用url2,太麻煩了。用requests即可抓取網頁!
import requests as rq
def geturl(url, filename):
res=rq.get(url) #抓取網頁
if res.status_code != rq.codes.ok:
raise Exception("url open error!")
return ''
#寫入本地檔案,同名檔案會被覆蓋
f = open(filename, 'wb') # 必須寫入二進位制資料,而不是str,為了保護文字中的utf-8編碼不被轉換為GB3212!
for chunk in res.iter_content(100000):
f.write(chunk)
f.close
return res.text
if __name__=='__main__':
#配置下行的url和檔名,即可抓不同的url
text= geturl('http://hq.sinajs.cn/list=sh600000', 'test.html')
#text= geturl('http://www.sina.com.cn', 'test.html')
print(text) #列印
下面是結果,是個javascript賦值程式碼:
var hq_str_sh600000="浦發銀行,16.260,16.280,16.320,16.370,16.250,16.300,16.340,12638809,206022869.000,66650,16.300,40959,16.290,45277,16.280,117616,16.270,187296,16.260,43400,16.340,112430,16.350,108500,16.360,115536,16.370,84210,16.380,2016-12-21,15:00:00,00";