python在lxml中使用XPath語法進行#資料解析

阿新 • • 發佈：2018-12-29

在lxml中使用XPath語法：

獲取所有li標籤：

from lxml import etree

html = etree.parse('hello.html')
print type(html) # 顯示etree.parse() 返回型別

result = html.xpath('//li')

print(result) # 列印<li>標籤的元素集合

獲取所有li元素下的所有class屬性的值：

from lxml import etree

html = etree.parse('hello.html')
result = html.xpath('//li/@class')

print(result)

獲取li標籤下href為www.baidu.com的a標籤：

from lxml import etree

html = etree.parse('hello.html')
result = html.xpath('//li/a[@href="www.baidu.com"]')

print(result)

獲取li標籤下所有span標籤：

from lxml import etree

html = etree.parse('hello.html')

#result = html.xpath('//li/span')
#注意這麼寫是不對的：
#因為 / 是用來獲取子元素的，而 <span> 並不是 <li> 的子元素，所以，要用雙斜槓

result = html.xpath('//li//span')

print(result)

獲取li標籤下的a標籤裡的所有class：

from lxml import etree

html = etree.parse('hello.html')
result = html.xpath('//li/a//@class')

print(result)

獲取最後一個li的a的href屬性對應的值：

from lxml import etree

html = etree.parse('hello.html')

result = html.xpath('//li[last()]/a/@href')
# 謂語 [last()] 可以找到最後一個元素

print(result)

獲取倒數第二個li元素的內容：

from lxml import etree

html = etree.parse('hello.html')
result = html.xpath('//li[last()-1]/a')

# text 方法可以獲取元素內容
print(result[0].text)

獲取倒數第二個li元素的內容的第二種方式：

from lxml import etree

html = etree.parse('hello.html')
result = html.xpath('//li[last()-1]/a/text()')

print(result)

使用requests和xpath爬取電影天堂

import requests
from lxml import etree

BASE_DOMAIN = 'http://www.dytt8.net'
HEADERS = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36',
'Referer': 'http://www.dytt8.net/html/gndy/dyzz/list_23_2.html'
}

def spider():
    url = 'http://www.dytt8.net/html/gndy/dyzz/list_23_1.html'
    resp = requests.get(url,headers=HEADERS)
    # resp.content：經過編碼後的字串
    # resp.text：沒有經過編碼，也就是unicode字串
    # text：相當於是網頁中的原始碼了
    text = resp.content.decode('gbk')
    # tree：經過lxml解析後的一個物件，以後使用這個物件的xpath方法，就可以
    # 提取一些想要的資料了
    tree = etree.HTML(text)
    # xpath/beautifulsou4
    all_a = tree.xpath("//div[@class='co_content8']//a")
    for a in all_a:
        title = a.xpath("text()")[0]
        href = a.xpath("@href")[0]
        if href.startswith('/'):
        detail_url = BASE_DOMAIN + href
        crawl_detail(detail_url)
        break

def crawl_detail(url):
    resp = requests.get(url,headers=HEADERS)
    text = resp.content.decode('gbk')
    tree = etree.HTML(text)
    create_time = tree.xpath("//div[@class='co_content8']/ul/text()")[0].strip()
    imgs = tree.xpath("//div[@id='Zoom']//img/@src")
    # 電影海報
    cover = imgs[0]
    # 電影截圖
    screenshoot = imgs[1]
    # 獲取span標籤下所有的文字
    infos = tree.xpath("//div[@id='Zoom']//text()")
    for index,info in enumerate(infos):
    if info.startswith("◎年　　代"):
        year = info.replace("◎年　　代","").strip()

    if info.startswith("◎豆瓣評分"):
        douban_rating = info.replace("◎豆瓣評分",'').strip()
        #print(douban_rating)

    if info.startswith("◎主　　演"):
        # 從當前位置，一直往下面遍歷
        actors = [info]
        for x in range(index+1,len(infos)):
            actor = infos[x]
            if actor.startswith("◎"):
            actors.append(actor.strip())
            print(",".join(actors))


if __name__ == '__main__':
spider()

從giebook上覆制過來的，部落格園的markdown好像對格式不相容，縮排沒辦法顯示

python在lxml中使用XPath語法進行#資料解析

在lxml中使用XPath語法：獲取所有li標籤： from lxml import etree html = etree.parse('hello.html') print type(html) # 顯示etree.parse() 返回型別 result = html.xpath('//li')

使用sklearn中的方法進行資料劃分

train_test_split的引數 test_size : float, int, None, optional If float, should be between 0.0 and 1.0 and represent the proportion &

Java中使用Jackson進行JSON解析和序列化

Java中使用Jackson進行JSON解析和序列化 1.新增依賴，在Maven的pom.xml檔案中新增以下依賴 <dependency> <groupId>com.fasterxml.jackson.core</groupId>

unity3D中使用Socket進行資料通訊（二）

上一篇部落格主要介紹了使用socket搭建服務端和客戶端程式，這一篇來說說socket的資料傳輸，我們使用socket的目的是解決點對點之間的資料傳輸，之前提到了socket中一個重要的概念：埠。而socket傳輸資料的方式就是埠與埠之間以流（stream）的方式傳輸資料，s

SpringBoot中利用MyBatis進行資料操作

本例所用環境： SpringBoot MySQL MyBatis jdk1.8 Maven 首先我們先建立一個SpringBoot 專案。資料庫連線配置 ##資料庫連線配置(部署到哪臺，對應的ip需修改) spring.datasource.url=jdbc

對vue中的data進行資料初始化

this.$data是表示當前的改變後的this中的資料，而this.$options.data()是表示沒有賦值前的this中的資料,表示初始話的data. 當在頁面中要對data中的資料進行多組操作時，防止每組資料之間的影響，可以先對資料進行初始化後在進行賦值。一般可以使用Objec

MongoDB中使用MongoTemplate 進行資料操作初級，高階操作

1.簡介查了好多關於MongoDB的文字，大部分基於資料庫的，很少有Template的，這裡總結下 2.實現程式碼 2.1插入物件： MongoTemplate mongos = MongoInstance.getMongo(); 獲得模板物件在專案中用： @

爬蟲入門之————————————————使用xpath語法獲取資料

準備工作 ⚫瞭解爬蟲的資料處理體系結構 ⚫ 處理資料的軟體準備採集到的結構化資料[如 html 網頁文件資料] python 開發環境 lxml 第三方庫結構化資料基本理論：DOM 模型 1結構化資料具備有一定的結構，有預定義規則的資料模型，統稱為結構化資料

unity3D中使用Socket進行資料通訊（三）

今天跟大家繼續學習下socket，由於最近有個招標引數需要給之前的一款產品做教師端以及後臺資料庫部分，忙了將近兩個禮拜，今天剛釋出了，就繼續我們的socket通訊部分。之前服務端一直在VS中去做，考慮到後面客戶端與伺服器一體化，就把服

JAVA中使用JSON進行資料傳遞

最近在做一個基於JAVA Servlet的WEB應用以及對應的Anroid應用客戶端的開發工作。其中，在介面的訪問和資料的傳輸方面使用的比較多的是使用JSON物件來操作格式化資料：在伺服器端採用JSON字串來傳遞資料並在WEB前端或者Android客戶端使用JSON來

Android中使用SQlite進行資料操作

本文參考了這篇文章：http://www.ibm.com/developerworks/cn/opensource/os-cn-sqlite/ 簡介： SQLite 是一款非常流行的嵌入式資料庫，它支援 SQL 查詢，並且只用很少的記憶體。Android在執行時集成了 SQ

XPath語法在C#中使用XPath示例

基礎知識 border 簡單 nbsp 定位 spa table adding white XPath可以快速定位到Xml中的節點或者屬性。XPath語法很簡單，但是強大夠用，它也是使用xslt的基礎知識。示例Xml： 1 2 3 4 5 6 7 8 9 1

如何使用python對資料夾中的檔案進行批量改名（增、刪、改字串欄位）

【時間】2018.10.12 【題目】如何使用python對資料夾中的檔案進行批量改名（增、刪、改字串欄位）【問題描述】今天需要對資料夾中的檔案進行批量改名，主要是因為名字中多出了自己不想要的字元段“data”想要將其刪除。這裡便以刪除名字中的字元段為例，至於增、改道理類

python中使用PIL模組中的ImageEnhance進行圖片資料增強

使用此方法將圖片進行資料增強，具體增強圖片的形式是如下幾種： """ 1、對比度：白色畫面(最亮時)下的亮度除以黑色畫面(最暗時)下的亮度； 2、色彩飽和度：：彩度除以明度，指色彩的鮮豔程度，也稱色彩的純度； 3、色調：向負方向調節會顯現紅色，正方向調節則增加黃色。適合對膚色物件進行微調； 4、

ByteBuf 一個用於在通訊中的資料解析傳輸組裝的自定義容器類

在做和硬體通訊的專案的時候，通訊的內容一般都是最基本的byte陣列,比如BLE，UART等等方式，傳遞的都是byte陣列。移動端在接收的時候，就需要去解析byte陣列，然後從中通過拼接和或（|）以及位移等運算來得到想要的資料型別，比如說，unsignedByte,short,int,float

八折進行中 | 2018 中國大資料技術大會（BDTC）首輪講師陣容震撼來襲！

暌違一載，今又相約。作為年度技術趨勢與行業應用的風向標，2018 中國大資料技術大會（BDTC 2018）攜主題“大資料新應用”再度強勢來襲，穩踏技術時代浪潮，勢將引爆今冬技術圈。 2018 年12 月 6-8 日，由中國計算機學會主辦，CCF大資料專家委員會承辦，CS

linux中如何新增dns反向解析資料

問：什麼是dns反向解析呢？答：DNS的反向解析式將IP地址轉化為域名這個實驗示在我上個文章，做完dns正向解析以後做的，所以這裡我只需要做如下操作 ps：如果不知道dns正向解析是怎麼做的，可以去看我前幾篇部落格 vim /etc/named.rfc1912.

linux中如何新增dns正向解析資料

問：什麼是dns正向解析呢答：就是將域名轉化為IP地址我這裡的環境是已經配置好了dns快取記憶體服務再此基礎上，我想做這個實驗，只需要將虛擬機器中/etc/named.conf第18行內容註釋掉，如下圖然後開啟/etc/name.rfc1912.zon

對資料夾中的檔案進行分別壓縮並加密

呼叫系統的winRAR工具對檔案進行壓縮和加密 1 import zipfile as zf 2 import platform as pf 3 import subprocess 4 import os 5 import os.path 6 7 rootdir = r'' #設定檔

python中的選擇結構以及解析語法的便利用法

#選擇結構示例1： #判斷num的大小輸出目標值target {num大於或等於零時target =num num小於零時target = -num} 傳統結構 def Func(num) : if num >= 0 : target

python在lxml中使用XPath語法進行#資料解析

在lxml中使用XPath語法：

使用requests和xpath爬取電影天堂

相關推薦