selenium,獲取cookie,xpath,超級鷹,京東,12306爬取
阿新 • • 發佈:2022-05-10
目錄
- selenium使用-->可以使用程式碼控制模擬人操作瀏覽器
- selenium操作瀏覽器
- 無頭瀏覽器
- 獲取元素位置,屬性,大小
- 等待元素被載入
- 元素操作
- 執行js程式碼
- 切換選項卡即標籤頁-->switch_to.window
- 模擬前進後退
- 異常處理
- elenium登入cnblogs獲取cookie
- 抽屜半自動點贊
- 打碼平臺使用 --》超級鷹使用
- xpath使用
- 爬取京東商品資訊
- 12306軟體自動登入
selenium使用-->可以使用程式碼控制模擬人操作瀏覽器
# 如果使用requests模組,傳送請求獲取的資料不全,它不能執行js # selenium:可以使用程式碼控制模擬人操作瀏覽器 ## 操作某個瀏覽器,就需要有瀏覽器驅動 # http://npm.taobao.org/mirrors/chromedriver/ 谷歌驅動的淘寶映象站 # 注意 # 谷歌瀏覽器版本要跟驅動版本對應 ## 92.0.4515.131 下載相應版本驅動,放到專案程式碼中 # pip3 install selenium # from selenium import webdriver 匯入模組 # import time # # 開啟一個谷歌瀏覽器 # bro=webdriver.Chrome(executable_path='chromedriver.exe') # # #位址列中輸入百度 # bro.get('https://www.cnblogs.com/') # 輸入指定的url地址 # # time.sleep(2) # # print(bro.page_source) # 當前頁面的html內容 # # bro.close() # 關閉瀏覽器
selenium操作瀏覽器
import time from selenium import webdriver """ webdriver指定瀏覽器 executable_path指執行檔案路徑。 """ # 這行程式碼表示打開了谷歌瀏覽器 bro = webdriver.Chrome(executable_path='./chromedriver') """ 隱性等待設定了一個時間,在一段時間內網頁是否載入完成, 如果完成了,就進行下一步;在設定的時間內沒有載入完成,則會報超時載入。 在開頭設定過之後,整個的程式執行過程中都會有效,都會等待頁面載入完成;不需要每次設定一遍; """ bro.implicitly_wait(10) # 在位址列中輸入url bro.get('http://www.baidu.com') # 拿到當前頁面的html內容 # print(bro.page_source) # 找到登入標籤的id login_path = bro.find_element_by_id('s-top-loginbtn') # 點選 login_path.click() # 找到使用者名稱和密碼輸入框 username = bro.find_element_by_id('TANGRAM__PSP_11__userName') password = bro.find_element_by_id('TANGRAM__PSP_11__password') # 在輸入框中寫東西 username.send_keys('[email protected]') password.send_keys('11111') # 找到登入按鈕 baidu_login = bro.find_element_by_id('TANGRAM__PSP_11__submit') baidu_login.click() # 程式等待2秒再關閉 time.sleep(2) # 關閉瀏覽器 bro.close()
無頭瀏覽器
後臺爬取,不顯示介面。
from selenium import webdriver from selenium.webdriver.chrome.options import Options chrome_options = Options() chrome_options.add_argument('window-size=1920x3000') #指定瀏覽器解析度 chrome_options.add_argument('--disable-gpu') #谷歌文件提到需要加上這個屬性來規避bug chrome_options.add_argument('--hide-scrollbars') #隱藏滾動條, 應對一些特殊頁面 chrome_options.add_argument('blink-settings=imagesEnabled=false') #不載入圖片, 提升速度 chrome_options.add_argument('--headless') #瀏覽器不提供視覺化頁面. linux下如果系統不支援視覺化不加這條會啟動失敗 driver=webdriver.Chrome(executable_path='chromedriver.exe',chrome_options=chrome_options) driver.get('https://www.baidu.com') print(driver.page_source) driver.close()
獲取元素位置,屬性,大小
from selenium import webdriver
import time
driver=webdriver.Chrome(executable_path='chromedriver.exe')
driver.get('https://kyfw.12306.cn/otn/resources/login.html')
driver.implicitly_wait(10)
user_login=driver.find_element_by_css_selector('.login-hd-account>a')
user_login.click()
time.sleep(2)
img=driver.find_element_by_id('J-loginImg')
print(img)
print(img.id) #selenium提供的id,忽略
print(img.tag_name) # 標籤名
print('-----')
print(img.location) # img標籤的位置
print(img.size) # img標籤大小
# 獲取屬性
# print(img.get_attribute('src'))
print(img.get_attribute('class'))
driver.close()
等待元素被載入
兩種等待方式:
- 顯示等待
- 隱形等待 --> 推薦使用
from selenium import webdriver
driver=webdriver.Chrome(executable_path='chromedriver.exe')
driver.get('https://www.baidu.com')
'''
# 兩種等待方式
# 顯示等待(忽略掉)
wait=WebDriverWait(driver,10)
wait.until(EC.presence_of_element_located((By.ID,'content_left')))
contents=browser.find_element(By.CSS_SELECTOR,'#content_left')
# 隱式等待:
-driver.implicitly_wait(10)
-driver.find_element_by_css_selector()
-只需要寫一句話,等待所有要獲取的標籤
'''
driver.implicitly_wait(10)
print(driver.page_source)
# 再找控制元件,只要沒載入成功,就會等待,最多等10s
driver.close()
元素操作
- 輸入:send_keys('內容')
- 清除:.clear( )
- 點選:click( )
import time
from selenium import webdriver
bro = webdriver.Chrome(executable_path='./chromedriver')
bro.get('https://www.baidu.com')
bro.implicitly_wait(10)
# 點選操作,點選百度搜索框
input_bro = bro.find_element_by_id('kw')
# 輸入我需要搜尋的資訊
input_bro.send_keys('python')
time.sleep(2)
# 清除輸入框中的python資訊
input_bro.clear()
# 輸入我需要百度的關鍵字
input_bro.send_keys('黑絲')
time.sleep(2)
# 找到百度一下的點選按鈕
baidu_button = bro.find_element_by_id('su')
baidu_button.click()
執行js程式碼
from selenium import webdriver
import time
driver=webdriver.Chrome(executable_path='chromedriver.exe')
driver.get('http://127.0.0.1:8000/')
driver.implicitly_wait(10)
# 可以寫的很高階
driver.execute_script("name='egon';") # 這裡面寫js程式碼
driver.execute_script("alert(name)") # 這裡面寫js程式碼
time.sleep(5)
# driver.close()
切換選項卡即標籤頁-->switch_to.window
import time
from selenium import webdriver
browser=webdriver.Chrome()
browser.get('https://www.baidu.com')
browser.execute_script('window.open()')
print(browser.window_handles) #獲取所有的選項卡
# browser.switch_to_window(browser.window_handles[1])
# browser.switch_to_window(browser.window_handles[1])
browser.switch_to.window(browser.window_handles[1])
browser.get('https://www.taobao.com')
time.sleep(5)
# browser.switch_to_window(browser.window_handles[0])
browser.switch_to.window(browser.window_handles[0])
browser.get('https://www.sina.com.cn')
browser.close()
模擬前進後退
import time
from selenium import webdriver
browser=webdriver.Chrome(executable_path='chromedriver.exe')
browser.get('https://www.baidu.com')
browser.get('https://www.taobao.com')
browser.get('http://www.sina.com.cn/')
browser.back()
time.sleep(3)
browser.forward()
browser.close()
異常處理
from selenium import webdriver
from selenium.common.exceptions import TimeoutException,NoSuchElementException,NoSuchFrameException
browser = webdriver.Chrome()
try:
browser.get('http://www.baidu.com')
except Exception as e:
print(e)
finally:
browser.close()
elenium登入cnblogs獲取cookie
注意:一定要清楚獲取到cookie的當前頁面。不同頁面的cookie是不同的。
import json
import time
from selenium import webdriver
bro = webdriver.Chrome(executable_path='./chromedriver')
bro.implicitly_wait(5)
# 登入,並獲取cookies
bro.get('https://www.cnblogs.com/')
login_button = bro.find_element_by_xpath('//*[@id="navbar_login_status"]/a[6]')
login_button.click()
username = bro.find_element_by_id('mat-input-0')
username.send_keys('[email protected]')
password = bro.find_element_by_id('mat-input-1')
password.send_keys('xJNN0315')
real_login = bro.find_element_by_xpath(
'/html/body/app-root/app-sign-in-layout/div/div/app-sign-in/app-content-container/div/div/div/form/div/button/span[1]')
real_login.click()
# get_cookies() 獲取cookies
# 睡10s也是一樣的,不用重新整理
time.sleep(10)
"""
在這裡重新整理是為了獲取到部落格園主頁面的cookie
下面使用cookie登入時的頁面也是主頁面
"""
bro.refresh()
cookies = bro.get_cookies()
with open('cookie.json', 'w') as f:
json.dump(cookies, f)
# 退出登入狀態,使用cookie登入
bro.get('https://www.cnblogs.com/')
with open('cookie.json','r')as f:
cookie = json.load(f)
time.sleep(2)
for item in cookie:
print(item)
bro.add_cookie(item)
# 重新整理當前頁面
bro.refresh()
抽屜半自動點贊
from selenium import webdriver
import json
import time
#### 登入過程
# bro=webdriver.Chrome(executable_path='chromedriver.exe')
# bro.implicitly_wait(10)
# bro.get('https://dig.chouti.com/')
# try:
# sub_btn=bro.find_element_by_id('login_btn')
# print(sub_btn)
#
# # sub_btn.click() # 報錯
# bro.execute_script('arguments[0].click();',sub_btn)
#
# # username=bro.find_element_by_css_selector('body > div.login-dialog.dialog.animated2.scaleIn > div > div.login-body > div.form-item.login-item.clearfix.phone-item.mt24 > div.input-item.input-item-short.left.clearfix > input')
# username=bro.find_element_by_css_selector('div.input-item>input.login-phone')
# username.send_keys('18953675221')
# # password=bro.find_element_by_css_selector('body > div.login-dialog.dialog.animated2.scaleIn > div > div.login-footer > div.form-item.login-item.clearfix.mt24 > div')
# password = bro.find_element_by_css_selector('div.input-item>input.pwd-password-input')
# password.send_keys('lqz123')
#
# time.sleep(3)
# btn=bro.find_element_by_css_selector('body > div.login-dialog.dialog.animated2.scaleIn > div > div.login-footer > div:nth-child(4) > button')
#
# btn.click()
#
# input('等')
#
# with open('chouti.json','w') as f:
# json.dump(bro.get_cookies(),f)
#
#
#
#
# finally:
# bro.close()
import requests
bro=webdriver.Chrome(executable_path='chromedriver.exe')
bro.implicitly_wait(10)
bro.get('https://dig.chouti.com/')
# 把螢幕滑倒最底下
bro.execute_script('window.scrollTo(0, document.body.scrollHeight);')
# bro.find_elements_by_css_selector('.link-item')
cookie={}
##從檔案中讀出cookie
with open('chouti.json','r') as f:
res=json.load(f)
for item in res:
cookie[item['name']]=item['value']
print(cookie) # requests能夠使用的cookie
div= bro.find_element_by_class_name('link-con')
time.sleep(2)
header={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
}
div_list=div.find_elements_by_class_name('link-item')
for div in div_list:
article_id=div.get_attribute('data-id')
print(article_id)
# 使用requests傳送請求
res=requests.post('https://dig.chouti.com/link/vote',data={'linkId': article_id},cookies=cookie,headers=header)
print(res.text)
bro.close()
打碼平臺使用 --》超級鷹使用
# 人工破解
# 影象識別模組---》數字,字母組合
# 驗證碼破解平臺---》雲打碼,超級鷹
-給它一張圖片---》結果返回 (收費的)
#!/usr/bin/env python
# coding:utf-8
import requests
from hashlib import md5
class Chaojiying_Client(object):
def __init__(self, username, password, soft_id):
self.username = username
password = password.encode('utf8')
self.password = md5(password).hexdigest()
self.soft_id = soft_id
self.base_params = {
'user': self.username,
'pass2': self.password,
'softid': self.soft_id,
}
self.headers = {
'Connection': 'Keep-Alive',
'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
}
def PostPic(self, im, codetype):
"""
im: 圖片位元組
codetype: 題目型別 參考 http://www.chaojiying.com/price.html
"""
params = {
'codetype': codetype,
}
params.update(self.base_params)
files = {'userfile': ('ccc.jpg', im)}
r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files,
headers=self.headers)
return r.json()
def ReportError(self, im_id):
"""
im_id:報錯題目的圖片ID
"""
params = {
'id': im_id,
}
params.update(self.base_params)
r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
return r.json()
if __name__ == '__main__':
chaojiying = Chaojiying_Client('306334678', 'lqz12345', '903641') # 使用者中心>>軟體ID 生成一個替換 96001
im = open('a.jpg', 'rb').read() # 本地圖片檔案路徑 來替換 a.jpg 有時WIN系統須要//
print(chaojiying.PostPic(im, 1902)) # 1902 驗證碼型別 官方網站>>價格體系 3.4+版 print 後要加()
xpath使用
1 一門在html中查詢資料的語言
2 記住的語法:
/ 取當前路徑下的xx
// 取所有路徑下的xx
. 當前路徑
.. 上一層
@ 取屬性
4 lxml解析模組提供的xpath
doc='''
<html>
<head>
<base href='http://example.com/' />
<title>Example website</title>
</head>
<body>
<div id='images'>
<a href='image1.html' name='sss'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>
<a href='image2.html' name='lqz'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>
<a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>
<a href='image4.html' class='li'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>
<a href='image5.html' class='li li-item' name='items'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>
<a href='image6.html' name='items'><span><h5>test</h5></span>Name: My image 6 <br /><img src='image6_thumb.jpg' /></a>
</div>
</body>
</html>
'''
from lxml import etree
# 傳入要解析的內容
html=etree.HTML(doc)
# res=html.xpath('//body')
# print(res)
# 1 所有節點
# a=html.xpath('//*')
# 2 指定節點(結果為列表)
# a=html.xpath('//head')
# 3 子節點,子孫節點
# a=html.xpath('//div/a')
# a=html.xpath('//body//a') #無資料
# a=html.xpath('//body//a')
# 4 父節點
# a=html.xpath('//body//a[@href="image1.html"]/..')
# a=html.xpath('//body//a')
# a=html.xpath('//body//a[@href="image1.html"]')
# a=html.xpath('//body//a[1]/..')
# 也可以這樣
# a=html.xpath('//body//a[1]/parent::*')
# a=html.xpath('//body//a[1]/parent::p')
# 5 屬性匹配
# a=html.xpath('//a[@href="image1.html"]')
# a=html.xpath('//a[@name="sss"]')
# 6 文字獲取 text()
# a=html.xpath('//a[@href="image1.html"]/text()')
# a=html.xpath('//a/text()')
# 7 屬性獲取
# a=html.xpath('//a/@href')
# a=html.xpath('//a[1]/@name')
# # 注意從1 開始取(不是從0)
# a=html.xpath('//body//a[2]/@href')
# 8 屬性多值匹配
# a 標籤有多個class類,直接匹配就不可以了,需要用contains
# a=html.xpath('//a[@class="li"]')
# a=html.xpath('//a[contains(@class,"li")]')
# a=html.xpath('//body//a[contains(@class,"li")]/text()')
# 9 多屬性匹配
# a=html.xpath('//body//a[contains(@class,"li") or @name="items"]')
# a=html.xpath('//body//a[contains(@class,"li") and @name="items"]/text()')
# a=html.xpath('//body//a[contains(@class,"li")]/text()')
# 10 按序選擇
# a=html.xpath('//a[2]/text()')
# a=html.xpath('//a[2]/@href')
# a=html.xpath('//a[2]/@name')
# 取最後一個
# a=html.xpath('//a[last()]/@href')
# 位置小於3的
# a=html.xpath('//a[position()<3]/@href')
# 倒數第二個
# a=html.xpath('//a[last()-2]/@href')
# 11 節點軸選擇
# ancestor:祖先節點
# 使用了* 獲取所有祖先節點
# a=html.xpath('//a/ancestor::*')
# # 獲取祖先節點中的div
# a=html.xpath('//a/ancestor::div')
# attribute:屬性值
# a=html.xpath('//a[1]/attribute::*')
# child:直接子節點
# a=html.xpath('//a[1]/child::*')
# a=html.xpath('//a[1]/child::img/@src')
# descendant:所有子孫節點
# a=html.xpath('//a[6]/descendant::*')
# following:當前節點之後所有節點
# a=html.xpath('//a[1]/following::*')
# a=html.xpath('//a[1]/following::*[1]/@href')
# following-sibling:當前節點之後同級節點
# a=html.xpath('//a[1]/following-sibling::*')
# a=html.xpath('//a[1]/following-sibling::a')
# a=html.xpath('//a[1]/following-sibling::*[2]/text()')
# a=html.xpath('//a[1]/following-sibling::*[2]/@href')
print(a)
爬取京東商品資訊
摳圖使用超級鷹破解驗證碼
from selenium import webdriver
from selenium.webdriver.common.keys import Keys # 鍵盤按鍵操作
import time
def get_goods(driver):
try:
# 找到所有類名叫gl-item的標籤
goods = driver.find_elements_by_class_name('gl-item')
for good in goods:
detail_url = good.find_element_by_tag_name('a').get_attribute('href')
p_name = good.find_element_by_css_selector('.p-name em').text.replace('\n', '')
price = good.find_element_by_css_selector('.p-price i').text
p_commit = good.find_element_by_css_selector('.p-commit a').text
img=good.find_element_by_css_selector('div.p-img img').get_attribute('src')
if not img:
img='http:'+good.find_element_by_css_selector('div.p-img img').get_attribute('data-lazy-img')
msg = '''
商品 : %s
連結 : %s
圖片 : %s
價錢 :%s
評論 :%s
''' % (p_name, detail_url,img, price, p_commit)
print(msg, end='\n\n')
button = driver.find_element_by_partial_link_text('下一頁')
button.click()
time.sleep(1)
get_goods(driver)
except Exception:
pass
def spider(url, keyword):
driver = webdriver.Chrome(executable_path='./chromedriver')
driver.get(url)
driver.implicitly_wait(3) # 使用隱式等待
try:
input_tag = driver.find_element_by_id('key')
input_tag.send_keys(keyword)
input_tag.send_keys(Keys.ENTER) # 敲回車
get_goods(driver)
finally:
driver.close()
if __name__ == '__main__':
spider('https://www.jd.com/', keyword='精品內衣')
12306軟體自動登入
from selenium import webdriver
import base64
from PIL import Image
import time
from chaojiying import Chaojiying_Client
from selenium.webdriver import ActionChains
# 不讓程式檢測出是用驅動控制
from selenium.webdriver.chrome.options import Options
options = Options()
options.add_argument("--disable-blink-features=AutomationControlled")
bro=webdriver.Chrome(executable_path='./chromedriver.exe',chrome_options=options)
bro.get('https://kyfw.12306.cn/otn/resources/login.html')
bro.implicitly_wait(10)
# 把視窗設定全屏
bro.maximize_window()
try:
username_login_btn=bro.find_element_by_css_selector('.login-hd-account>a')
username_login_btn.click()
username=bro.find_element_by_id('J-userName')
password=bro.find_element_by_id('J-password')
login_btn=bro.find_element_by_id('J-login')
username.send_keys('liuqingzheng')
password.send_keys('lqz12345')
img_code=bro.find_element_by_id('J-loginImg')
print(img_code.size)
print(img_code.location)
# 獲取驗證碼圖片的兩種方案
# 方案一:整體截圖,根據位置摳出驗證碼圖片
# bro.save_screenshot('main.png') # 對整個頁面進行截圖,main.png
#
# location=img_code.location
# size=img_code.size
# print(location)
# print(size)
# #驗證碼的座標
# img_tu = (int(location['x']), int(location['y']), int(location['x'] + size['width']), int(location['y'] + size['height']))
# #使用pillow開啟截圖
# img=Image.open('./main.png')
# #從截圖中按照位置扣除驗證碼
# code_img=img.crop(img_tu)
# # 把扣出來的圖,儲存到本地
# code_img.save('./code2.png')
# 方案二:把圖片的base64編碼轉成圖片儲存到本地
img_base64=img_code.get_attribute('src')
img_base64_real=img_base64.split(',')[-1]
img_1=base64.b64decode(img_base64_real)
with open('code.jpg','wb') as f:
f.write(img_1)
# 呼叫超級鷹,完成驗證碼破解
# 呼叫超級鷹識別
chaojiying = Chaojiying_Client('306334678', 'lqz12345', '903641') # 使用者中心>>軟體ID 生成一個替換 96001
im = open('code.jpg', 'rb').read() # 本地圖片檔案路徑 來替換 a.jpg 有時WIN系統須要//
res=chaojiying.PostPic(im, 9004) # 1902 驗證碼型別 官方網站>>價格體系 3.4+版 print 後要加()
# 123,155|42,135|11,77---->[[123,155],[42,135],[11,77]]
print(res)
result=res['pic_str']
all_list = []
if '|' in result:
list_1 = result.split('|')
count_1 = len(list_1)
for i in range(count_1):
xy_list = []
x = int(list_1[i].split(',')[0])
y = int(list_1[i].split(',')[1])
xy_list.append(x)
xy_list.append(y)
all_list.append(xy_list)
else:
x = int(result.split(',')[0])
y = int(result.split(',')[1])
xy_list = []
xy_list.append(x)
xy_list.append(y)
all_list.append(xy_list)
print(all_list)
### 在頁面中點選破解的圖案
#點選 [[123,155],[42,135],[11,77]]
for item in all_list:
ActionChains(bro).move_to_element_with_offset(img_code,item[0],item[1]).click().perform()
time.sleep(1)
time.sleep(5)
login_btn.click()
time.sleep(1)
# 滑動滑塊
span=bro.find_element_by_id('nc_1_n1z')
ActionChains(bro).drag_and_drop_by_offset(span, 300, 0).perform()
time.sleep(30)
print(bro.get_cookies())
except Exception as e:
print(e)
finally:
bro.close()
bro.quit() # 關閉整個瀏覽器