1. 程式人生 > >爬蟲總結5

爬蟲總結5

1. chromedriver安裝

作業系統 chrome瀏覽器 chromedriver 三者要版本相符

2. selenium使用

from selenium import webdriver
option = webdriver.ChromeOptions()
option.add_argument('--headless') 
option.add_argument('--disable-gpu')
driver = webdriver.Chrome(chromedriver_path,
						  chrome_options=option)
driver.get(url)
# driver.close() # 關閉當前標籤頁
driver.quit() # 一定最後無論怎樣都要關閉瀏覽器!!!

3. driver物件常用的屬性和方法

driver.save_screenshot('xxx.png')
driver.title # 當前頁標題
driver.current_url
driver.get_cookies() # cookies list
# {cookie['name']:cookie['value'] for cookie in driver.get_cookies()}
driver.delete_cookie(cookie_name)
driver.delete_all_cookies()
driver.execute_script(js_str)
driver.page_source # 網頁原始碼

4. switch_to切換

# 根據標籤頁的順序切換到標籤頁的預設位置
driver.switch_to.window(driver.handles[0])
# 切換到已經定位到的frame標籤中
driver.switch_to.frame(frame_element)

5. selenium定位方法

driver.find_element(s)_by_id
						 _class_name
						 _xpath
						 _link_text
						 _partial_link_text
						 _tag_name

6. 提取的方式

提取文字內容
	element.text
提取屬性的值
	element.get_attribute('屬性名')