爬蟲—lxml提取資料

阿新 • • 發佈：2021-06-13

我們好久不見~

來更新部落格啦！最近在學爬蟲，scrapy學不下去了，有點難搞啊，學點簡單的吧哈哈哈哈

好啦，開始今天的分享~

首先得安裝lxml庫，pip install lxml

我們使用lxml庫對html這樣的字串進行解析，將它還原為一個HTML頁面，換句話說，Python裡面的lxml庫只做了這樣一件事：將html字串進行解析，供Xpath語法進行資料提取。

使用lxml中的etree對html進行處理，將它還原成網頁

這裡我們也需要先了解一下Xpath的知識，也很簡單，我們通過一個具體的例子來演示一下

text = \
"""
<ul class="ullist" padding="1" spacing="1">
    <li>
        <div id="top">
            <span class="position" width="350">職位名稱</span>
            <span>職位類別</span>
            <span>人數</span>
            <span>地點</span>
            <span>釋出時間</span>
        </div>
        <div id="even">
            <span class="l square">
              <a target="_blank" href="position_detail.php?id=33824&amp;keywords=python&amp;tid=87&amp;lid=2218">python開發工程師</a>
            </span>
            <span>技術類</span>
            <span>2</span>
            <span>上海</span>
            <span>2018-10-23</span>
        </div>
        <div id="odd">
            <span class="l square">
              <a target="_blank" href="position_detail.php?id=29938&amp;keywords=python&amp;tid=87&amp;lid=2218">python後端</a>
            </span>
            <span>技術類</span>
            <span>2</span>
            <span>上海</span>
            <span>2018-10-23</span>
        </div>
        <div id="even">
            <span class="l square">
              <a target="_blank" href="position_detail.php?id=31236&amp;keywords=python&amp;tid=87&amp;lid=2218">高階Python開發工程師</a>
            </span>
            <span>技術類</span>
            <span>2</span>
            <span>上海</span>
            <span>2018-10-23</span>
        </div>
        <div id="odd">
            <span class="l square">
              <a target="_blank" href="position_detail.php?id=31235&amp;keywords=python&amp;tid=87&amp;lid=2218">python架構師</a>
            </span>
            <span>技術類</span>
            <span>1</span>
            <span>上海</span>
            <span>2018-10-23</span>
        </div>
        <div id="even">
            <span class="l square">
              <a target="_blank" href="position_detail.php?id=34531&amp;keywords=python&amp;tid=87&amp;lid=2218">Python資料開發工程師</a>
            </span>
            <span>技術類</span>
            <span>1</span>
            <span>上海</span>
            <span>2018-10-23</span>
        </div>
        <div id="odd">
            <span class="l square">
              <a target="_blank" href="position_detail.php?id=34532&amp;keywords=python&amp;tid=87&amp;lid=2218">高階影象演算法研發工程師</a>
            </span>
            <span>技術類</span>
            <span>1</span>
            <span>上海</span>
            <span>2018-10-23</span>
        </div>
        <div id="even">
            <span class="l square">
              <a target="_blank" href="position_detail.php?id=31648&amp;keywords=python&amp;tid=87&amp;lid=2218">高階AI開發工程師</a>
            </span>
            <span>技術類</span>
            <span>4</span>
            <span>上海</span>
            <span>2018-10-23</span>
        </div>
        <div id="odd">
            <span class="l square">
              <a target="_blank" href="position_detail.php?id=32218&amp;keywords=python&amp;tid=87&amp;lid=2218">後臺開發工程師</a>
            </span>
            <span>技術類</span>
            <span>1</span>
            <span>上海</span>
            <span>2018-10-23</span>
        </div>
        <div id="even">
            <span class="l square">
              <a target="_blank" href="position_detail.php?id=32217&amp;keywords=python&amp;tid=87&amp;lid=2218">Python開發（自動化運維方向）</a>
            </span>
            <span>技術類</span>
            <span>1</span>
            <span>上海</span>
            <span>2018-10-23</span>
        </div>
        <div id="odd">
            <span class="l square">
              <a target="_blank" href="position_detail.php?id=34511&amp;keywords=python&amp;tid=87&amp;lid=2218">Python資料探勘講師 </a>
            </span>
            <span>技術類</span>
            <span>1</span>
            <span>上海</span>
            <span>2018-10-23</span>
        </div>
    </li>
</ul>
 
"""

以上這段是我們今天用到的例子，這是文字格式，以下圍繞這個來展開

首先，我們要把他轉換為HTML網頁形式，那就需要用到etree函數了，使用etree之前需要先導包

from lxml import etree
#解析為HTML
html = etree.HTML(text)
print(html)

這時候列印html會發現不是我們想要的結果：

因為HTML網頁是不能直接打印出來的，我們需要把它轉換為字串然後進行輸出

#如果想看到HTML裡的內容需要轉換為字串型別並解碼d = etree.tostring(html,encoding='utf8').decode('utf8') 
print(d)

這時候輸出的就是我們想看到的，所以如果想要看內容一定要進行上述轉換

下面我們來提取一些資訊，作為練習

####獲取所有的div標籤
divs = html.xpath('//div')

for div in divs:
    d = etree.tostring(div,encoding='utf8').decode('utf8')
    print(d)
    print('*'*50)
    
####獲取某個指定的div標籤
div = html.xpath('//div[1]') [0]
    
print(etree.tostring(div,encoding=' 
utf8').decode('utf8'))
    
####獲取所有id="even"的div標籤
divs = html.xpath('//div[@id="even"]')
for div in divs:
    d = etree.tostring(div,encoding='utf8').decode('utf8')
    print(d)
    print('*'*50)
 
    
####獲取所有div的id屬性
###/@可以用來獲取屬性的值
divs = html.xpath('//div/@id')
print(divs)

####獲取所有a標籤的href屬性的值
hrefs = html.xpath('//a/@href')
print(hrefs)

經過上述練習，我們來提取一下div中的所有職位資訊

####獲取div裡所有的職位資訊
divs = html.xpath('//div')[1:]
works=[]
for div in divs:     
    work = {}#新建一個空字典
    #獲取href
    url = div.xpath('.//a/@href')[0]
    #獲取a標籤的文字資訊
    position = div.xpath('.//a/text()')[0]
    #獲取工作型別
    work_type = div.xpath('.//span[2]/text()')[0]
    #獲取職位人數
    work_num = div.xpath('.//span[3]/text()')[0]
    #獲取工作地點
    area = div.xpath('.//span[4]/text()')[0]
    #獲取釋出時間
    time = div.xpath('.//span[5]/text()')[0]
    work = {
            "url":url,
            "position":position,
            "work_type":work_type,
            "work_num":work_num,
            "area":area,
            "time":time
            }

    works.append(work)
    print(works)

上述程式碼跑完會發現：

works裡存放了所有的職位資訊

好了，今天的分享結束啦，如果有xpath看不懂的可以留言哦~

爬蟲—lxml提取資料

我們好久不見~ 來更新部落格啦！最近在學爬蟲，scrapy學不下去了，有點難搞啊，學點簡單的吧哈哈哈哈

Python爬蟲基於lxml解決資料編碼亂碼問題

lxml是python的一個解析庫，支援HTML和XML的解析，支援XPath解析方式，而且解析效率非常高

Scrapy 入門：爬蟲類詳解（Parse()函式、選擇器、提取資料）

安裝 & 建立專案 # 安裝Scrapy pip install scrapy # 建立專案 scrapy startproject tutorial # tutorial為專案名

乾貨分享！網路爬蟲，提取網站資料。

1　什麼是網路爬蟲網路爬蟲是指從網站提取資料的技術，該技術可以將非結構化資料轉換為結構化資料。

教你使用python生成器重構提取資料方法，來優化你的爬蟲程式碼

前言在剛開始學習python的時候，有看到過迭代器和生成器的相關內容，不過當時並未深入瞭解，更談不上使用了，其實是可以用生成器來改造一下的，所以本次就使用生成器來優化一下爬蟲程式碼

Python3實現的爬蟲爬取資料並存入mysql資料庫操作示例

本文例項講述了Python3實現的爬蟲爬取資料並存入mysql資料庫操作。分享給大家供大家參考，具體如下：

python每5分鐘從kafka中提取資料的例子

我就廢話不多說了，直接上程式碼吧！ import sys sys.path.append(\"..\") from datetime import datetime

Python網路爬蟲資訊提取mooc程式碼例項

例項一--爬取頁面 import requests url=\"https//itemjd.com/2646846.html\" try: r=requests.get(url) r.raise_for_status()

Python定時從Mysql提取資料存入Redis的實現

設計思路： 1.程式一旦run起來，python會把mysql中最近一段時間的資料全部提取出來

win10系統下怎麼批量提取資料夾中所有檔名稱

在使用win10系統的過程中，有時候需要獲取資料夾中所有檔案的名稱，而那個資料夾中的檔案又太多的話，如果一個個複製太麻煩了，那麼其實我們可以建立一個簡單的指令碼命令來批量提取資料夾中所有檔名稱，下面給大家分

淺談如何使用vb.net從資料庫中提取資料

1.設定從Model中的Sub Main 啟動 2.程式結構 3.Model1 Imports System.Windows.Forms.Application Module Module1

附: Python 爬蟲資料庫儲存資料

1.筆記 #-*- codeing = utf-8 -*- #@Time : 2020/7/15 22:49 #@Author : HUGBOY #@File : hello_sqlite3.py #@Software: PyCharm

Python3爬蟲lxml解析庫安裝（轉載）

lxml的安裝 Windows 在Windows環境下，可以先嚐試利用pip安裝，開啟命令列窗戶輸入pip3 install lxml,如果沒有報錯，則安裝成功。

VBA通過ado方式提取資料彙總表格操作-20200811

用ADO方式提取表格裡面的資料，比vba操作excel開啟方式快很多。我這裡是全部讀取再篩選的。如果第一行不是標題【也是資料的話】提取不到。

入門資料採集，python爬蟲常見的資料採集與儲存、

本文介紹兩種方式來實現python爬蟲獲取資料，並將python獲取的資料儲存到檔案中。一、第一種方式：主要通過爬取百度官網頁面資料，將資料儲存到檔案baidu.html中，程式執行完開啟檔案baidu.html檢視效果。具體程式碼

matlab從fig圖中提取資料

1 如果你的fig檔案中的影象每個畫素都有資料，可以通過以下方式獲得影象每個點的值，輸出data是矩陣，大小是影象畫素的行列數

如何使用scrapy中的ItemLoader提取資料

1. 簡述我們在用scrapy爬取資料時，首先就要明確我們要爬取什麼資料。scrapy提供了Item物件這種簡單的容器，我們可以通過Item定義提取資料的格式，需要爬取哪些欄位，其提供了類似於字典的API以及用於宣告可用欄位

python從PDF中提取資料的示例

01 前言資料是資料科學中任何分析的關鍵，大多數分析中最常用的資料集型別是儲存在逗號分隔值(csv)表中的乾淨資料。然而，由於可移植文件格式(pdf)檔案是最常用的檔案格式之一，因此每個資料科學家都應該瞭解如何從

python爬蟲分散式獲取資料的例項方法

在我們進行衛生大掃除的時候，因為工作任務較多，所以我們會進行分工，每個人負責不同的打掃專案。同樣分工合作的理念，在python分散式爬蟲中也得到了應用。我們需要給不同的爬蟲分配指令，讓它們去分頭行動獲取同一

SQL-006以店存量提取資料驗證現存量

/* Formatted on 2020/12/08 17:46:58 (QP5 v5.326) */ DECLARE CURSOR c_rmb_onhandnum_withnocode IS SELECT *

爬蟲—lxml提取資料

相關推薦