爬蟲-xpath的應用（6）

阿新 • • 發佈：2020-07-17

什麼是xpath

1】xpath使用路徑表示式在xml和html中進行導航
2】xpath包含標準庫
3】xpath是一個w3c的標準

在本文將會利用scrapy的select實現。故而將會安裝以下的依賴包

pip install twisted
pip install lxml
pip install scrapy
注意在安裝lxml的時候會出現依賴的處理得問題。可以安裝vscode來進行處理

xpath的節點關係

父親節點
子節點
同胞節點
先輩節點
後代節點

xpath語法【xpath的外掛安裝方式，我的部落格前面也有】

程式碼實現與解析：

html = """ 

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>bobby基本資訊</title>
    <script src="//code.jquery.com/jquery-1.11.3.min.js"></script>
</head>
<body>
    <div id="info">
        <p style="color: blue">講師資訊</p>
        <div class="teacher_info info">
            python全棧工程師，7年工作經驗，喜歡鑽研python技術，對爬蟲、
            web開發以及機器學習有濃厚的興趣，關注前沿技術以及發展趨勢。
            <p class="age">年齡: 29</p>
            <p class="name bobbyname" data-bind="bobby bobby2">姓名: bobby</p>
            <p class="work_years">工作年限: 7年</p>
            <p class="position">職位: python開發工程師</p>
        </div>
        <p style="color: aquamarine">課程資訊</p>
        <table class="courses">
          <tr>
            <th>課程名</th>
            <th>講師</th>
            <th>地址</th>
          </tr>
          <tr>
            <td>django打造線上教育</td>
            <td>bobby</td>
            <td><a href="https://coding.imooc.com/class/78.html">訪問</a></td>
          </tr>
          <tr>
            <td>python高階程式設計</td>
            <td>bobby</td>
            <td><a href="https://coding.imooc.com/class/200.html">訪問</a></td>
          </tr>
          <tr>
            <td>scrapy分散式爬蟲</td>
            <td>bobby</td>
            <td><a href="https://coding.imooc.com/class/92.html">訪問</a></td>
          </tr>
          <tr>
            <td>django rest framework打造生鮮電商</td>
            <td>bobby</td>
            <td><a href="https://coding.imooc.com/class/131.html">訪問</a></td>
          </tr>
          <tr>
            <td>tornado從入門到精通</td>
            <td>bobby</td>
            <td><a href="https://coding.imooc.com/class/290.html">訪問</a></td>
          </tr>
        </table>
    </div>

</body>
</html>
 
"""

from scrapy import Selector
sel = Selector(text=html)
#注意標籤的順序是重1開始的，不是0
name_xpath = "//div[1]/div[1]/p[2]/text()"
#獲取使用者名稱字
name = ""
#extract,是將資料提取出來同時轉化為字串
tag_texts = sel.xpath(name_xpath).extract()
if tag_texts:
    name = tag_texts[0]
print(name)

#教師資訊
teacher_tag = sel.xpath("//div[@class='teacher_info info']/p 
")
#使用contains函式可以實現僅僅匹配一個型別
teacher_tag1 = sel.xpath("//div[contains(@class, 'teacher_info')]/p")

爬蟲-xpath的應用（6）

什麼是xpath 1】xpath使用路徑表示式在xml和html中進行導航 2】xpath包含標準庫 3】xpath是一個w3c的標準

ESP32 學習日誌（6）——TCP客戶端應用

技術標籤：ESP32 學習日誌嵌入式一、應用簡介使用者可以通過ESP32提供的API來建立TCP客戶端。本文介紹ESP32中建立TCP客戶端以及與伺服器之間的資料收發。

傳統.NET 4.x應用容器化體驗（6）

在Windows Container中，沒有寫日誌的情況下，如何排查系統的異常資訊？本文介紹瞭如何在Windows Container中通過事件日誌排查ASP.NET應用程式的異常日誌資訊，雖然文章很短小，但希望對你有用。對於傳統.NET 4.x應

Yii 框架應用（Applications）操作例項詳解

本文例項講述了Yii 框架應用（Applications）操作。分享給大家供大家參考，具體如下：

HotSpot的物件模型（6）

接著上一篇，我們繼續來講oopDesc相關的子類。 3、instanceOopDesc類 instanceOopDesc類的例項表示除陣列物件外的其它物件。在HotSpot中，物件在記憶體中儲存的佈局可以分為三塊區域：物件頭（header）、物件欄位資料

Pytorch框架學習---（6）hook函式和CAM類啟用圖

本節簡單總結Pytorch中hook函式，CAM演算法生成注意力圖【文中思維導圖採用MindMaster軟體】

爬蟲-資料儲存（8）

Python的orm資料儲存有三大型別： pymysl，sqlachemy，peewee 安裝： pipinstallpymysql【解決peewee的驅動依賴問題】

老司機帶你玩轉面試（6）：分散式鎖、併發競爭、雙寫一致

前文回顧建議前面文章沒看過的同學先看下前面的文章：「老司機帶你玩轉面試（1）：快取中介軟體 Redis 基礎知識以及資料持久化」

爬蟲-多程序（10）

#1. 例項化Thread #2. 繼承Thread類 import time from threading import Thread def sleep_task(sleep_time):

Puppeteer爬蟲實戰(三)（轉載）

本篇文章針對大家熟知的技術站點作為目標進行技術實踐。確定需求訪問目標網站並按照篩選條件（關鍵詞、日期、作者）進行檢索並獲取返回資料中的目標資料。進行技術拆分如下：

王道資料結構（6）簡單的模式匹配演算法

程式碼： #include <stdio.h> #include \"stdlib.h\" //巨集定義 #define TRUE1 #define FALSE0 #define OK1

SpringBoot（6）— Bean懶載入@Lazy和迴圈依賴處理

==========================Bean懶載入@Lazy介紹================================== 一、問題介紹

從0開始的智慧車程式碼（6）

桶形失真是由鏡頭引起的成像畫面呈桶形膨脹狀的失真現象。會將一些明顯的跳變點誤判成普通的弧線。

CI4框架應用六 - 控制器應用（轉載）

這節我們來分析一下控制器的應用，我們看到系統提供的控制器都是繼承自一個BaseController，我們來分析一下這個BaseController的作用

鐳射相機資料融合（6）--鐳射相機標定

轉載於：https://www.cnblogs.com/zoucheng/p/7868264.html 如果自己想要搭建一個鐳射相機系統，那麼首要的就是要確定鐳射與相機的位置關係。那麼下面將介紹一些典型的標定方法歷史。

計算機程式設計實訓記錄（6）

這幾天都在摸魚ヽ(✿ﾟ▽ﾟ)ノ導致進度太慢了，所以趕緊寫吧上一篇我們搞定了五個函式，這篇就繼續寫剩下的函式吧。

43 遞迴的思想與應用（上）

原文：https://www.cnblogs.com/wanmeishenghuo/p/9677857.html參考狄泰軟體相關教程

44 遞迴的思想與應用（中）

原文：https://www.cnblogs.com/wanmeishenghuo/p/9678143.html參考狄泰軟體相關教程將大問題分解，先將第一個節點拿出來，將其它的節點看成一個整體。

myBatis原始碼解析-配置檔案解析（6）

前言本來打算此次寫一篇關於SqlSession的解析，但發現SqlSession涉及的知識太多。所以先結合mybatis配置檔案（我們專案中常寫的如mybatisConfig.xml），來分析下mybatis初始化時做了些什麼，進而分析語句的執行。此

從零搭建Spring Boot腳手架（6）：整合Redis作為快取

1. 前言上一文我們整合了Mybatis Plus，今天我們會把快取也整合進來。快取是一個系統應用必備的一種功能，除了在減輕資料庫的壓力之外。還在儲存一些短時效的資料場景中發揮著重大作用，比如儲存使用者Token、簡訊

爬蟲-xpath的應用（6）

相關推薦