1. 程式人生 > >python爬蟲--BeautifulSoup的簡單用法

python爬蟲--BeautifulSoup的簡單用法

#coding=utf-8
 
import urllib
import urllib2
import cookielib
from bs4 import BeautifulSoup
import re
 
url ="http://www.baidu.com"
 
try:
    request = urllib2.Request(url, data = None)
    response = urllib2.urlopen(request, timeout= 2)
except urllib2.HTTPError, e:
    print e.code
except urllib2.URLError, e:
    print e.reason
except:
    print "Error"
     
data = response.read()
soup = BeautifulSoup(data,"lxml")
 
for tag in soup.find_all('div',class_="qrcode-text"):
    for item in tag.children:
       print item
 
find_all('div',class_="qrcode-text")方法
 1、引數可以是name引數,如:’a’ ,’div’,[‘a’,’p’],re.compie(‘^b’),True等等
 2、引數可以是屬性,比如:id=”link2”,href=re.compile(‘baidu’)等等
 3、引數還可以是text,用於匹配Tag的string,如text=”baidu”
 4、還可以混合起來使用,如上面程式所示
 5、tag.children:表示tag的所有子節點,返回的是類list結構