Python3使用selenium庫簡單爬蟲（二）

阿新 • • 發佈：2018-12-10

使用selenium爬取豆瓣圖書top250書籍資訊

1、上一篇文章Python3使用selenium庫簡單爬蟲（一）通過元素的id、name、class_name定位元素，這次使用xpath定位元素

（1）使用xpath定位元素的幾種表示方法：

* 匹配任意元素

//*[@id='kw'] 匹配任意id='kw'的元素

//*[@class='s_ipt'] 匹配任意class='s_ipt'的元素

//input[@class='s_ipt'] 匹配input標籤下class='s_ipt'的元素

2、定位元素過程中注意因為有很多條資訊，所以是find_elements

_by_xpath

3、time sleep() 函式推遲呼叫執行緒的執行，5表示推遲執行5秒，因為頁面的載入需要時間，如果點選下一頁以後立刻開始定位元素，而那個時候元素還沒有載入完成，那麼程式就容易報錯。

#! usr/bin/env python
#coding:utf-8

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

#開啟谷歌瀏覽器訪問豆瓣圖書top250官網
browser = webdriver.Chrome("C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe")
browser.get('https://book.douban.com/top250')

for i in range(0,10):
    # 得到標題
    title = browser.find_element_by_xpath("//div[@id='content']//h1").text
    # 列印標題
    print(title)
    # 獲取當前頁面有關圖書資訊的元素物件的列表
    book_list = browser.find_elements_by_xpath("//tr[@class='item']")
    for ele in book_list:
        print(ele.text + '\n')
    # 輸出當前頁數
    print("--------第%s頁--------"%(i+1))

    # 訪問下一頁
    next_page = browser.find_element_by_class_name("next").click()
    time.sleep(5)
    print('\n')

browser.quit()

Python3使用selenium庫簡單爬蟲（二）

使用selenium爬取豆瓣圖書top250書籍資訊 1、上一篇文章Python3使用selenium庫簡單爬蟲（一）通過元素的id、name、class_name定位元素，這次使用xpath定位元素（1）使用xpath定位元素的幾種表示方法： * 匹

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

class 實例實例代碼編碼 mat 分享 aik logs title 一、開發爬蟲的步驟 1.確定目標抓取策略：打開目標頁面，通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。 ①先看url的格式, F12觀察一下鏈接的形式;② 再看目標文本信息的

爬蟲（二）：Urllib庫詳解

lib lwp ces lin 設置內置 col http測試 url 什麽是Urllib： python內置的HTTP請求庫 urllib.request : 請求模塊 urllib.error : 異常處理模塊 urllib.parse： url解析模塊 urllib

Python從零開始寫爬蟲（二）BeautifulSoup庫使用

Beautiful Soup 是一個可以從HTML或XML檔案中提取資料的Python庫， BeautifulSoup在解析的時候是依賴於解析器的，它除了支援Python標準庫中的HTML解析器，還支援一些第三方的解析器比如lxml等。可以從其官網得到更詳細的資訊：http://beau

自學Python爬蟲（二）Requests庫的使用

前言 Urllib和requests庫都是python3中傳送請求的庫，但是比較而言，Requests庫更加強大和易用，所以學習python3就不要學習urllib了，2020年python2的庫就不再更新，所以我們學習python3更有意義！例項引入 import requ

簡單小爬蟲（二）

針對上個爬蟲小程式後續做了一些修改增加了一些功能功能：開啟瀏覽器進行觀看首先我們要安裝 selenium Selenium也是一個用於Web應用程式測試的工具。Selenium測試直接執行在瀏覽器中，就像真正的使用者在操作一樣。支援的瀏覽器包括IE、Mozilla Firefox、Moz

Linux gmp類庫的簡單使用（二）

GMP常用函式介紹（這裡只簡單介紹一下整數函式，如需更多請自行閱讀手冊） 1.初始化函式 mpz_t integ;// 定義 mpz_init (integ)//　初始化，預設值為０ 2.賦值函式

git簡單使用（二）---遠程倉庫的建立與遠程庫的克隆

sym amp www 關聯加密為什麽 ria 地址什麽詳細網址：https://www.liaoxuefeng.com/wiki/896043488029600/898732864121440 遠程倉庫請自行註冊GitHub賬號。由於你的本地Git倉庫

Python爬蟲（二）：Requests庫

所謂爬蟲就是模擬客戶端傳送網路請求，獲取網路響應，並按照一定的規則解析獲取的資料並儲存的程式。要說 Python 的爬蟲必然繞不過 Requests 庫。 1 簡介對於 Requests 庫，官方文件是這麼說的： Requests 唯一的一個非轉基因的 Python HTTP 庫，人類可以安全享用。警告

vue-router單頁應用簡單示例（二）

數據 prop tps div -1 可重用性 example 定位 .com 我們先來理一下思路。圖1:main.js 引入vue,App.vue,router/index.js文件聲明要渲染的Id為app，將App.vue中的模版渲染到入口界面（就

前端自動化工具 grunt 插件的簡單使用（二）

前端自動化工具 grunt 插件的簡單使用（二）一、contrib-concat 插件的使用1、安裝 “grunt-contrib-concat ”插件命令（在終端進入到項目根目錄執行） npm install grunt-contrib-concat --save-dev2、在項目根目

Discuz!X3.1數據庫的操作（二）

資源釋放 ech tro art www. 處理類型 row limit 數據庫自定義query 方法名：BD::query() 參數解釋： $sql：自定義SQL語句 $arg：需要綁定的數據 $unbuffered：是否使用無緩存查詢 12345678910

【4】簡單繪圖（二）

dispose alt draw bsp rom 形狀 .html yellow tex 在上一篇裏已經向大家介紹了如何使用GDI+繪制簡單的圖像,這一篇繼續向大家介紹其它一些繪圖知識. 1.首先我們來看下上一篇中我們使用過的Pen. Pen的屬性主要有: Color(顏色

Yii 2.0 數據庫簡單操作（轉）

conf enables sel base attr brush 個數對象創建數據庫　　開始使用數據庫首先需要配置數據庫連接組件，通過添加 db 組件到應用配置實現（"基礎的" Web 應用是 config/web.php），DSN( Data Source Name

javascript 對象簡單介紹（二）

則表達式數字 orange red 1.4 dom 空白字符手冊 document JavaScript Array（數組）對象數組對象的作用是：使用單獨的變量名來存儲一系列的值。什麽是數組?數組對象是使用單獨的變量名來存儲一系列的值。如果你有一組數據（例如：車名字

路由器簡單配置-（二）

nvram 加載 enca 自動 rabl mic 都是 start 手動電腦中arp -a查看arp表電腦中arp -s IPadd MAC進行arp綁定電腦中arp -d清除arp緩存路由器arp -a查看arp表路由器arp IPadd MAC進行arp綁定

Python學習筆記-數據庫的使用（二）

person mode web服務器進行 ali mysq pat setting 構造 1 在MySQL創建表 1)啟動mysql #service mysqld start 2)創建項目 #django-admin.py startproject web_04 3)

Python學習之路（三）爬蟲（二）

版權特殊機器人 zhang col 取出 log arch robots 通用爬蟲和聚焦爬蟲根據使用場景，網絡爬蟲可分為通用爬蟲和聚焦爬蟲兩種. 通用爬蟲通用網絡爬蟲是捜索引擎抓取系統（Baidu、Google、Yahoo等）的重要組成部分。主要目

MySQL數據庫高級（二）——自定義函數

MySQL 自定義函數 MySQL數據庫高級（二）——自定義函數一、自定義函數簡介自定義函數 (user-defined function UDF)是一種對MySQL擴展的途徑，其用法和內置函數相同。自定義函數的兩個必要條件：A、參數B、返回值（必須有）。函數可以返回任意類型的值。二、自定

Eigen庫筆記整理（二）

向量 pre geo 直接 gpo 歐拉角 () blog 初始化 Eigen/Geometry 模塊提供了各種旋轉和平移的表示旋轉矩陣直接使用 Matrix3d 或 Matrix3f Eigen::Matrix3d rotation_matrix = Eigen::M

Python3使用selenium庫簡單爬蟲（二）

使用selenium爬取豆瓣圖書top250書籍資訊

相關推薦