讀取網頁的方法-爬蟲學習
阿新 • • 發佈:2018-10-09
方法 def nbsp read urn div www 一行 處理
1、讀取全部網頁
1 #encoding:utf-8 2 3 import urllib2 4 def download1(url): 5 return urllib2.urlopen(url).read() #讀取全部網頁 6 7 url="http://www.baidu.com" #urlopen只能處理http 不能處理https 8 print download3(url)
2、讀取每一行的數據,壓入列表
1 #encoding:utf-8 2 3 import urllib2 4 5 def download2(url):6 return urllib2.urlopen(url).readlines() #讀取每一行的數據,壓入列表 7 8 url="http://www.baidu.com" #urlopen只能處理http 不能處理https 9 print download2(url)
3、網頁抽象為文件
1 #encoding:utf-8 2 import urllib2 3 4 def download3(url): 5 response=urllib2.urlopen(url)#網頁抽象為文件 6 while True: 7 line=response.readline()#讀取每一行 8 if not line: 9 break 10 print line 11 12 url="http://www.baidu.com" #urlopen只能處理http 不能處理https 13 print download3(url)
讀取網頁的方法-爬蟲學習