1. 程式人生 > >Python簡單網頁爬蟲

Python簡單網頁爬蟲

tab write open python2.x row browser mod err urlopen

由於Python2.x與Python3.x存在很的差異,Python2.x調用urllib用指令urllib.urlopen(),

運行時報錯:AttributeError: module ‘urllib‘ has no attribute ‘urlopen‘

原因是在Python3.X中應該用urllib.request。

下載網頁成功後,調用webbrowsser模塊,輸入指令webbrowsser

.open_new_tab(‘baidu.com.html‘)

true

open(‘baidu.com.html‘,‘w’)。write(html)

將下載的網頁寫入指定的目錄下,然而下載的網頁占0KB,打開顯示空白,然後將上代碼改為

open(‘baidu.com.html‘,‘wb’)。write(html)

就可以打開了

import urllib
>>> import urllib.request
>>> def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

>>> import webbrowser
>>> webbrowser.open_new_tab(baidu.com.html)
True
>>> open(
baidu.com.html,wb).write(html)

Python簡單網頁爬蟲