使用Selenium爬取動態網頁
阿新 • • 發佈:2019-01-26
使用selenium優點:所見既所得
通過page_source屬性可以獲得網頁原始碼
selenium可以驅動瀏覽器完成各種操作,如填充表單、模擬點選等。
獲取單個節點的方法:
find_element_by_id find_element_by_name find_element_by_xpath find_element_by_link_text find_element_by_partical_link_text find_element_by_tag_name find_element_by_class_name find_element_by_css_selector #另外,selenium還提供了通用方法find_element(),它需要傳入兩個引數:查詢方式By和值
獲取多個節點的方法:
find_elements_by_id
find_elements_by_name
find_elements_by_xpath
find_elements_by_link_text
find_elements_by_partical_link_text
find_elements_by_tag_name
find_elements_by_class_name
find_elements_by_css_selector
節點互動:
比較常用的方法:
輸入文字時使用send_keys()方法,清空文字使用clear()方法,點選按鈕使用click()方法
執行javascript
對於某些操作,Selenium API並沒有提供,比如,下拉進度條,可以直接模擬執行JavaScript,此時使用execute_script()方法即可實現 from selenium import webdriver browser = webdriver.Chorme() browser.get('https://www.zhihu.com/explore') browser.execute_script('window.scrollTo(0,document.body.scrollHeight)') browser.execute_script('alert("To Bottom")')
有了這個方法,基本上API沒有提供的所有功能都可以執行JavaScript的方式來實現
異常處理(使用try except語句來捕獲各種異常)
from selenium import webdriver
from selenium.common.exceptions import TimeoutException,NoSuchElementException
browser = webdriver.Chrome()
try:
browser.get('https://www.baidu.com')
except TimeoutException:
print("Time Out")
try:
browser.find_element_by_id('hello')
except NoSuchElementException:
print('No Element')
finally:
browser.close()
下面給出一個爬取淘寶網的例子
scrapy startproject Taobao
scrapy genspider taobao www.taobao.com
#taobao.py
import scrapy
class TaobaoSpider(scrapy.Spider):
name = 'taobao'
allowed_domains = ['www.taobao.com']
def start_requests(self):
urls = ['http://www.taobao.com/']
for url in urls:
req = scrapy.Request(url,callback='self.parse,meta={"use_selenium":True}')
yield req
def parse(self,response):
print(response.body)
#setting.py
#啟用
ROBOTSTXT_OBEY = False
DOWNLOADER_MIDDLEWARES = {
'Taobao.middlewares.TaobaoDownloaderMiddleware': 543,
}
ITEM_PIPELINES = {
'Taobao.pipelines.TaobaoPipeline': 300,
}
#middlewares.py
#在中介軟體中設定selenium訪問動態網頁
#在``def process_request(self,request,spider)``中新增下列程式碼
def process_request(self,request,spider):
#使用兩種方法判斷是否使用selenium
#if spider.name == "taobao": #第一種方法
if request.meta.get('use_selenium'):
#設定無介面執行ChromeDriver
option = Options()
option.add_argument('--headless')
driver = webdriver.Chrome(chrome_options=option)
#有介面執行ChromeDriver,如使用有介面時,將下面一行程式碼替換上面三行程式碼
#driver = webdriver.Chorme()
driver.implicitly_wait(15)
driver.get(request.url)
#執行js,獲取動態頁面的整個頁面
js = 'window.scrollTo(0,document.body.scrollHeight)'
driver.execute_script(js)
content = driver.page_source
resp = HtmlResponse(request.url,request=request,body=content)
return resp #被解析函式parse接收
return None