1. 程式人生 > >使用Selenium爬取動態網頁

使用Selenium爬取動態網頁

使用selenium優點:所見既所得

通過page_source屬性可以獲得網頁原始碼

selenium可以驅動瀏覽器完成各種操作,如填充表單、模擬點選等。

獲取單個節點的方法:

find_element_by_id
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partical_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector

#另外,selenium還提供了通用方法find_element(),它需要傳入兩個引數:查詢方式By和值

獲取多個節點的方法:

find_elements_by_id
find_elements_by_name
find_elements_by_xpath
find_elements_by_link_text
find_elements_by_partical_link_text
find_elements_by_tag_name
find_elements_by_class_name
find_elements_by_css_selector

節點互動:

比較常用的方法:
輸入文字時使用send_keys()方法,清空文字使用clear()方法,點選按鈕使用click()方法

執行javascript

對於某些操作,Selenium API並沒有提供,比如,下拉進度條,可以直接模擬執行JavaScript,此時使用execute_script()方法即可實現


from selenium import webdriver

browser = webdriver.Chorme()
browser.get('https://www.zhihu.com/explore')
browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')
browser.execute_script('alert("To Bottom")')

有了這個方法,基本上API沒有提供的所有功能都可以執行JavaScript的方式來實現

異常處理(使用try except語句來捕獲各種異常)

from selenium import webdriver
from selenium.common.exceptions import TimeoutException,NoSuchElementException

browser = webdriver.Chrome()
try:
    browser.get('https://www.baidu.com')
except TimeoutException:
    print("Time Out")
try:
    browser.find_element_by_id('hello')
except NoSuchElementException:
    print('No Element')
finally:
    browser.close()

下面給出一個爬取淘寶網的例子

scrapy startproject Taobao
scrapy genspider taobao www.taobao.com
#taobao.py

import scrapy

class TaobaoSpider(scrapy.Spider):
    name = 'taobao'
    allowed_domains = ['www.taobao.com']

    def start_requests(self):
        urls = ['http://www.taobao.com/']
        for url in urls:
            req = scrapy.Request(url,callback='self.parse,meta={"use_selenium":True}')
            yield req

    def parse(self,response):
        print(response.body)

#setting.py
#啟用
ROBOTSTXT_OBEY = False

DOWNLOADER_MIDDLEWARES = {
   'Taobao.middlewares.TaobaoDownloaderMiddleware': 543,
}

ITEM_PIPELINES = {
   'Taobao.pipelines.TaobaoPipeline': 300,
}

#middlewares.py
#在中介軟體中設定selenium訪問動態網頁
#在``def process_request(self,request,spider)``中新增下列程式碼

def process_request(self,request,spider):
    #使用兩種方法判斷是否使用selenium
    #if spider.name == "taobao":    #第一種方法
    if request.meta.get('use_selenium'):
        #設定無介面執行ChromeDriver
        option = Options()
        option.add_argument('--headless')
        driver = webdriver.Chrome(chrome_options=option)

        #有介面執行ChromeDriver,如使用有介面時,將下面一行程式碼替換上面三行程式碼
        #driver = webdriver.Chorme()

        driver.implicitly_wait(15)
        driver.get(request.url)

        #執行js,獲取動態頁面的整個頁面
        js = 'window.scrollTo(0,document.body.scrollHeight)'
        driver.execute_script(js)
        content = driver.page_source

        resp = HtmlResponse(request.url,request=request,body=content)
        return resp  #被解析函式parse接收
    return None