Python簡單網頁爬蟲
阿新 • • 發佈:2017-05-20
tab write open python2.x row browser mod err urlopen
由於Python2.x與Python3.x存在很的差異,Python2.x調用urllib用指令urllib.urlopen(),
運行時報錯:AttributeError: module ‘urllib‘ has no attribute ‘urlopen‘
原因是在Python3.X中應該用urllib.request。
下載網頁成功後,調用webbrowsser模塊,輸入指令webbrowsser
.open_new_tab(‘baidu.com.html‘)
true
open(‘baidu.com.html‘,‘w’)。write(html)
將下載的網頁寫入指定的目錄下,然而下載的網頁占0KB,打開顯示空白,然後將上代碼改為
open(‘baidu.com.html‘,‘wb’)。write(html)
就可以打開了
import urllib >>> import urllib.request >>> def getHtml(url): page = urllib.request.urlopen(url) html = page.read() return html >>> import webbrowser >>> webbrowser.open_new_tab(‘baidu.com.html‘) True >>> open(‘baidu.com.html‘,‘wb‘).write(html)
Python簡單網頁爬蟲