Python爬蟲lxml解析實戰

阿新 • • 發佈：2018-10-21

img 標簽 lxml display XML score 解析 url 子節點

XPath常用規則
/                            從當前節點選取直接子節點
//                           從當前節點選取子孫節點
.                            選取當前節點
..                           選取當前節點的父節點
@                          選取屬性
*                           通配符，選擇所有元素節點與元素名
@*                        選取所有屬性
[@attrib]               選取具有給定屬性的所有元素
[@attrib 
=‘value‘]    選取給定屬性具有給定值的所有元素
[tag]                     選取所有具有指定元素的直接子節點
[tag=‘text‘]            選取所有具有指定元素並且文本內容是text節點

"""爬取豆瓣網站的信息"""
import requests
from lxml import etree

# 請求頭設置
headers = {
    "User-Agentv": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3554.0 Safari/537.36 
",
    "Referer": "https://movie.douban.com/",
}

url = "https://movie.douban.com/cinema/nowplaying/chongqing/"
# 發起請求
rep = requests.get(url, headers=headers)
text = rep.text
# 轉換成html格式
html = etree.HTML(text)
# 找到子孫節點ul標簽
ul = html.xpath("//ul[@class=‘lists‘]")[0]
# 當前ul下的所有li標簽
lis = ul.xpath("./li")
movies  
= []
# 循環每個li標簽
for li in lis:
    # 直接@li標簽的屬性獲取值
    title = li.xpath("@data-title")[0]
    score = li.xpath("@data-score")[0]
    region = li.xpath("@data-region")[0]
    actors = li.xpath("@data-actors")[0]
    director = li.xpath("@data-director")[0]
    liimg = li.xpath(".//img/@src")
    movie = {
        "title": title,
        "score": score,
        "region": region,
        "actors": actors,
        "director": director,
        "liimg": liimg,
    }
    movies.append(movie)
print(movies)

View Code

可參考博客鏈接(我就懶得寫了)：http://www.cnblogs.com/zhangxinqi/p/9210211.html#_label11

Python爬蟲lxml解析實戰

img 標簽 lxml display XML score 解析 url 子節點 XPath常用規則 / 從當前節點選取直接子節點 // 從當前節點選取子孫節點 .

Python爬蟲bs4解析實戰

zha opened 計費 pos 常用方法 ngs bsp 運維工程師 strings 1.常用方法 from bs4 import BeautifulSoup html = """ <table class="tablelist" cellpadding="

python爬蟲之解析網頁的工具pyquery

div blog import 很多 aof pyquery from text lec 主要是對http://www.cnblogs.com/zhaof/p/6935473.html這篇博客所做的筆記有疑惑可以去看這篇文章from pyquery import PyQue

Python爬蟲【解析庫之beautifulsoup】

close **kwargs contents pip and lac 代碼 ide num 解析庫的安裝 pip3 install beautifulsoup4 初始化 BeautifulSoup(str,"解析庫") from bs4 import B

python爬蟲三大解析資料方法：bs4 及爬小說網案例

bs4 python獨有可以將html文件轉成bs物件，可以直接呼叫bs物件的屬性進行解析安裝 pip install bs4 本地html Beautiful(“open(‘路徑’)”,‘lxml’) 網路html Beautiful

python爬蟲三大解析資料方法：正則及圖片下載案例

基本正則用法回顧 # 提取python key = 'javapythonc++php' print(re.findall('python', key)[0]) # 提取hello world key = '<html><h1>hello world</h

Python爬蟲之解析網頁

常用的類庫為lxml, BeautifulSoup, re(正則) 以獲取豆瓣電影正在熱映的電影名為例,url='https://movie.douban.com/cinema/nowplaying/beijing/' 網頁分析部分網頁原始碼 <ul class="lists">

python爬蟲五大解析器

python有五大解析器一、正則表示式，使用第三方庫 re(re) 1.匹配規則有模式描述 \w 匹配字母、數字及下劃線 \W 匹配不是字母、數字

python爬蟲三大解析資料方法：xpath 及爬段子網案例

下載 pip install lxml 瀏覽器外掛外掛xpath安裝，XPath Helper 瀏覽器快捷鍵control+shift+x 用於測試自己的xpath是否寫對了注意 etree建立物件時 etree.parse('本地路徑') 或 et

python爬蟲-lxml匹配

一、lxml匹配 lxml 是python三方的結構匹配模組, lxml是python的一個解析庫，支援HTML和XML的解析，支援XPath解析方式，而且解析效率非常高 1.lxml匹配步驟（1）匯入模組： from lxml import etree （2）l

Python爬蟲學習，實戰一糗事百科（2017/7/21更新）

前言這幾天學習爬蟲，網上看了一些教程，發現這個 http://cuiqingcai.com/990.html 是相當不錯的。但可惜的是，整個教程是兩年前的，但是Python是2.x版本的，跟現在的3.x有一些基本的語法不同；還有糗事百科也經過了改版。總

python爬蟲如何解析json檔案 json檔案的解析提取和jsonpath的應用

這是通過抓包工具抓取到的json檔案然後json檔案線上解析，把內容複製貼上進去解析得出下面的內容（右邊框內）json檔案的地址url="http://www.lagou.com/lbs/getAllCitySearchLabels.json"用python來解析並提取出其

Python爬蟲入門到實戰-史上最詳細的爬蟲教程

技術分享圖片 color blog .com 教程 robot http 進階馬哥高薪實戰學員【Python爬蟲入門到實戰-史上最詳細的爬蟲教程，限時免費領取】爬蟲分類和ROBOTS協議爬蟲URLLIB使用和進階爬蟲URL編碼和GETPOST請求 Python爬

python requests爬蟲使用lxml解析HTML獲取資訊不對等的問題

python requests爬蟲使用lxml解析HTML獲取資訊不對等的問題我們在用lxml解析HTML文字時，有時會碰到“<”p“>”標籤有換行“<“br”>”的情況，如果我們用獲取xpath的方法，迴圈獲得該元素下的所有text()文字，同一個“<

Python爬蟲解析網頁的三種方法，lxml、BeautifulSoup、re案例！

常用的類庫為lxml，BeautifulSoup，re(正則) 學習Python中有不明白推薦加入交流群號：960410445 &nb

python爬蟲之xpath和lxml解析內容

上兩章說了urllib和request庫如何訪問一個頁面或者介面，從而獲取資料，如果是訪問介面，還好說，畢竟返回的json還是很好解析的，他是結構化的，我們可以把它轉化成字典來解析，但是如果返回的是xml或者html,就有點麻煩了，今天就主要說一下如果解析這些h

Python爬蟲解析htm時lxml的HtmlElement對象獲取和設置inner html方法

3.6 The target 接口導入模塊查找內容 XML encoding Python的lxml是一個相當強悍的解析html、XML的模塊，最新版本支持的python版本從2.6到3.6，是寫爬蟲的必備利器。它基於C語言庫libxml2 和 libxslt，進行了

Python爬蟲實戰--（二）解析網頁中的元素

使用requests傳送請求首先匯入requests庫和beautifulsoup庫 import requests from bs4 import BeautifulSoup 呼叫requests.get()方法獲得指定url的res

Python3網路爬蟲快速入門實戰解析（一小時入門 Python 3 網路爬蟲）

一前言三爬蟲實戰優美桌布下載 1實戰背景2實戰進階3整合程式碼愛奇藝VIP視訊下載 1實戰背景2實戰升級3編寫程式碼四總結一前言強烈建議：請在電腦的陪同下，閱讀本文。本文以實戰

Python爬蟲解析html：lxml的HtmlElement物件獲取和設定inner html

開發十年，就只剩下這套架構體系了！ >>>

Python爬蟲lxml解析實戰

相關推薦