python爬蟲--BeautifulSoup的簡單用法
阿新 • • 發佈:2019-02-06
#coding=utf-8
import urllib
import urllib2
import cookielib
from bs4 import BeautifulSoup
import re
url ="http://www.baidu.com"
try:
request = urllib2.Request(url, data = None)
response = urllib2.urlopen(request, timeout= 2)
except urllib2.HTTPError, e:
print e.code
except urllib2.URLError, e:
print e.reason
except:
print "Error"
data = response.read()
soup = BeautifulSoup(data,"lxml")
for tag in soup.find_all('div',class_="qrcode-text"):
for item in tag.children:
print item
find_all('div',class_="qrcode-text")方法
1、引數可以是name引數,如:’a’ ,’div’,[‘a’,’p’],re.compie(‘^b’),True等等
2、引數可以是屬性,比如:id=”link2”,href=re.compile(‘baidu’)等等
3、引數還可以是text,用於匹配Tag的string,如text=”baidu”
4、還可以混合起來使用,如上面程式所示
5、tag.children:表示tag的所有子節點,返回的是類list結構
import urllib
import urllib2
import cookielib
from bs4 import BeautifulSoup
import re
url ="http://www.baidu.com"
try:
request = urllib2.Request(url, data = None)
response = urllib2.urlopen(request, timeout= 2)
except urllib2.HTTPError, e:
print e.code
except urllib2.URLError, e:
print e.reason
except:
print "Error"
data = response.read()
soup = BeautifulSoup(data,"lxml")
for tag in soup.find_all('div',class_="qrcode-text"):
for item in tag.children:
print item
find_all('div',class_="qrcode-text")方法
1、引數可以是name引數,如:’a’ ,’div’,[‘a’,’p’],re.compie(‘^b’),True等等
2、引數可以是屬性,比如:id=”link2”,href=re.compile(‘baidu’)等等
3、引數還可以是text,用於匹配Tag的string,如text=”baidu”
4、還可以混合起來使用,如上面程式所示
5、tag.children:表示tag的所有子節點,返回的是類list結構