1. 程式人生 > >最簡單的Python網頁爬蟲

最簡單的Python網頁爬蟲

下面是用Python3寫的可以抓取任意網頁的程式碼,經過測試,馬上可用。這裡的示例抓取的是新浪實時股票資料。

#-*- coding: utf-8 -*-
任意網頁下載器
Created on Wed Dec 21 15:08:43 2016
@author: stanleymao
"""
#coding=utf-8
#不要用url2,太麻煩了。用requests即可抓取網頁!
import requests as rq

def geturl(url, filename): 
    res=rq.get(url)  #抓取網頁
    if res.status_code != rq.codes.ok:
        raise Exception("url open error!")
        return ''

    #寫入本地檔案,同名檔案會被覆蓋
    f = open(filename, 'wb') # 必須寫入二進位制資料,而不是str,為了保護文字中的utf-8編碼不被轉換為GB3212!
    for chunk in res.iter_content(100000):
        f.write(chunk)
    f.close
    return res.text    

if __name__=='__main__':
    #配置下行的url和檔名,即可抓不同的url
    text= geturl('http://hq.sinajs.cn/list=sh600000', 'test.html')
    #text= geturl('http://www.sina.com.cn', 'test.html')
    print(text) #列印

下面是結果,是個javascript賦值程式碼:

var hq_str_sh600000="浦發銀行,16.260,16.280,16.320,16.370,16.250,16.300,16.340,12638809,206022869.000,66650,16.300,40959,16.290,45277,16.280,117616,16.270,187296,16.260,43400,16.340,112430,16.350,108500,16.360,115536,16.370,84210,16.380,2016-12-21,15:00:00,00";