python爬蟲之xpath的基本使用

一、簡介

　　XPath 是一門在 XML 文件中查詢資訊的語言。XPath 可用來在 XML 文件中對元素和屬性進行遍歷。XPath 是 W3C XSLT 標準的主要元素，並且 XQuery 和 XPointer 都構建於 XPath 表達之上。

二、安裝

1	`pip3 install lxml`

三、使用

　　1、匯入

1	`from` `lxml` `import` `etree`

　　2、基本使用

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 from lxml import etree wb_data = """ <div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">third item</a></li> <li class="item-1"><a href="link4.html">fourth item</a></li> <li class="item-0"><a href="link5.html">fifth item</a> </ul> </div> """ html = etree.HTML(wb_data) print (html) result = etree.tostring(html) print (result.decode( "utf-8" ))

　　從下面的結果來看，我們印表機html其實就是一個python物件，etree.tostring(html)則是不全裡html的基本寫法，補全了缺胳膊少腿的標籤。

1 2 3 4 5 6 7 8 9 10 11 <Element html at 0x39e58f0 > <html><body><div> <ul> <li class = "item-0" ><a href = "link1.html" >first item< / a>< / li> <li class = "item-1" ><a href = "link2.html" >second item< / a>< / li> <li class = "item-inactive" ><a href = "link3.html" >third item< / a>< / li> <li class = "item-1" ><a href = "link4.html" >fourth item< / a>< / li> <li class = "item-0" ><a href = "link5.html" >fifth item< / a> < / li>< / ul> < / div> < / body>< / html>

　　3、獲取某個標籤的內容(基本使用)，注意，獲取a標籤的所有內容，a後面就不用再加正斜槓，否則報錯。

　　寫法一

1 2 3 4 5 6 7 8 9 10 11 12 13 html = etree.HTML(wb_data) html_data = html.xpath( '/html/body/div/ul/li/a' ) print (html) for i in html_data: print (i.text) <Element html at 0x12fe4b8 > first item second item third item fourth item fifth item

　　寫法二（直接在需要查詢內容的標籤後面加一個/text()就行）

1 2 3 4 5 6 7 8 9 10 11 12 html = etree.HTML(wb_data) html_data = html.xpath( '/html/body/div/ul/li/a/text()' ) print (html) for i in html_data: print (i) <Element html at 0x138e4b8 > first item second item third item fourth item fifth item

　　4、開啟讀取html檔案

1 2 3 4 5 6 #使用parse開啟html的檔案 html = etree.parse( 'test.html' ) html_data = html.xpath( '//*' )<br> #列印是一個列表，需要遍歷 print (html_data) for i in html_data: print (i.text)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 html = etree.parse( 'test.html' ) html_data = etree.tostring(html,pretty_print = True ) res = html_data.decode( 'utf-8' ) print (res) 列印： <div> <ul> <li class = "item-0" ><a href = "link1.html" >first item< / a>< / li> <li class = "item-1" ><a href = "link2.html" >second item< / a>< / li> <li class = "item-inactive" ><a href = "link3.html" >third item< / a>< / li> <li class = "item-1" ><a href = "link4.html" >fourth item< / a>< / li> <li class = "item-0" ><a href = "link5.html" >fifth item< / a>< / li> < / ul> < / div>

　　5、列印指定路徑下a標籤的屬性（可以通過遍歷拿到某個屬性的值，查詢標籤的內容）

1 2 3 4 5 6 7 8 9 10 11 html = etree.HTML(wb_data) html_data = html.xpath( '/html/body/div/ul/li/a/@href' ) for i in html_data: print (i) 列印： link1.html link2.html link3.html link4.html link5.html

　　6、我們知道我們使用xpath拿到得都是一個個的ElementTree物件，所以如果需要查詢內容的話，還需要遍歷拿到資料的列表。

　　查到絕對路徑下a標籤屬性等於link2.html的內容。

1 2 3 4 5 6 7 8 9 html = etree.HTML(wb_data) html_data = html.xpath( '/html/body/div/ul/li/a[@href="link2.html"]/text()' ) print (html_data) for i in html_data: print (i) 列印： [ 'second item' ] second item

　　7、上面我們找到全部都是絕對路徑（每一個都是從根開始查詢），下面我們查詢相對路徑，例如，查詢所有li標籤下的a標籤內容。

1 2 3 4 5 6 7 8 9 10 11 12 13 html = etree.HTML(wb_data) html_data = html.xpath( '//li/a/text()' ) print (html_data) for i in html_data: print (i) 列印： [ 'first item' , 'second item' , 'third item' , 'fourth item' , 'fifth item' ] first item second item third item fourth item fifth item

　　8、上面我們使用絕對路徑，查找了所有a標籤的屬性等於href屬性值，利用的是/---絕對路徑，下面我們使用相對路徑，查詢一下l相對路徑下li標籤下的a標籤下的href屬性的值，注意，a標籤後面需要雙//。

1 2 3 4 5 6 7 8 9 10 11 12 13 html = etree.HTML(wb_data) html_data = html.xpath( '//li/a//@href' ) print (html_data) for i in html_data: print (i) 列印： [ 'link1.html' , 'link2.html' , 'link3.html' , 'link4.html' , 'link5.html' ] link1.html link2.html link3.html link4.html link5.html

　　9、相對路徑下跟絕對路徑下查特定屬性的方法類似，也可以說相同。

1 2 3 4 5 6 7 8 9 html = etree.HTML(wb_data) html_data = html.xpath( '//li/a[@href="link2.html"]' ) print (html_data) for i in html_data: print (i.text) 列印： [<Element a at 0x216e468 >] second item

　　10、查詢最後一個li標籤裡的a標籤的href屬性

1 2 3 4 5 6 7 8 9 html = etree.HTML(wb_data) html_data = html.xpath( '//li[last()]/a/text()' ) print (html_data) for i in html_data: print (i) 列印： [ 'fifth item' ] fifth item

　　11、查詢倒數第二個li標籤裡的a標籤的href屬性

1 2 3 4 5 6 7 8 9 html = etree.HTML(wb_data) html_data = html.xpath( '//li[last()-1]/a/text()' ) print (html_data) for i in html_data: print (i) 列印： [ 'fourth item' ] fourth item

　　12、如果在提取某個頁面的某個標籤的xpath路徑的話，可以如下圖：

　　//*[@id="kw"]

　　解釋：使用相對路徑查詢所有的標籤，屬性id等於kw的標籤。

常用

一、簡介

　　參照

二、安裝

1	`pip3 install lxml`

三、使用

　　1、匯入

1	`from` `lxml` `import` `etree`

　　2、基本使用

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

from lxml import etree wb_data = """ <div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-inactive"><a href="link3.html">third item</a></li> <li class="item-1"><a href="link4.html">fourth item</a></li>

      &n   
 
  
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    python網絡爬蟲-數據采集之遍歷單個爬蟲
      target   follow   ndt   數據采集   http   lan   python   www   win   8D湛91G坡嗇1訝Dhttp://www.facebolw.com/space/2102892/following
T判捕9墳17猿9PFV瞬http://www.facebo 

  
 

    

    
    python爬蟲--解析網頁幾種方法之正則表達式
      ima   3.5   ref   string   tex   href   quest   user   lin   1、正則表達式
正則表達式是一個特殊的字符序列，它能幫助你方便的檢查一個字符串是否與某種模式匹配。
re 模塊使 Python 語言擁有全部的正則表達式功能。
re.match函數
re. 

  
 

    

    
    python爬蟲--解析網頁幾種方法之BeautifulSoup
      first   div   xml html   find   抓取   XML   格式   速度慢   析取    
 
一.解析器概述
soup=BeautifulSoup(response.body)
對網頁進行析取時，並未規定解析器，此時使用的是python內部默認的解析器“html.parser” 

  
 

    

    
    Python爬蟲從入門到成妖之3-----Scrapy框架的命令行詳解
      參數   成了   openssl   入門   文件中   crawler   1.0   使用   lob   創建爬蟲項目
scrapy startproject 項目名
例子如下：

E:\crawler>scrapy startproject test1
New Scrapy pro 

  
 

    

    
    Python爬蟲從入門到成妖之7-----Scrapy框架中Download Middleware用法
      例子   start   col   res   urn   鉤子   exception   安裝   打印   這篇文章中寫了常用的下載中間件的用法和例子。Downloader Middleware處理的過程主要在調度器發送 requests請求的時候以及網頁將 response結果返回給 spiders 

  
 

    

    
    深入淺出爬蟲之道： Python、Golang與GraphQuery的對比
      本文將分別使用 Python ，Golang 以及 GraphQuery 來解析某網站的 素材詳情頁面 ，這個頁面的特色是具有清晰的資料結構，但是DOM結構不夠規範，無法通過單獨的選擇器定位頁面元素，對頁面的解析造成了一些曲折。通過這個頁面的解析過程，深入淺出的瞭解爬蟲的解析思想與這些語言之間的異同。 
 
 

  
 

    

    
    Python的學習筆記DAY7---關於爬蟲（2）之Scrapy初探
       
 
 
         首先是安裝，python3+windows10 64位。 
         安裝Scrapy，安裝，直接pip install Scrapy.....下載了半天報錯。。好像是沒有lxml這 

  
 

    

    
    Python進階(十八)-Python3爬蟲小試牛刀之爬取CSDN部落格個人資訊
       
  
  
 分享一下我的偶像大神的人工智慧教程！http://blog.csdn.net/jiangjunshow 
 也歡迎轉載我的文章，轉載請註明出處 https://blog.csdn.net/mm2zzyzzp 
  
   
   
  Python進階(十八)-Python3爬蟲實踐 
 
 

  
 

    

    
    scrapy框架爬蟲爬取糗事百科 之 Python爬蟲從入門到放棄第不知道多少天（1）
      Scrapy框架安裝及使用 
1. windows 10 下安裝 Scrapy 框架： 
　　前提：安裝了python-pip  
　　1. windows下按住win+R 輸入cmd 
　　2. 在cmd 下 輸入 
　　　　　　pip install scrapy 
　　　　　　pip inst 

  
 

    

    
    python：爬蟲爬取資料的處理之Json字串的處理（2）
       
  
  
 #Json字串的處理 Json字串轉化為Python資料型別 
 import json
JsonStr ='{"name":"sunck","age":"18","hobby":["money","power","English"],"parames":{"a":1,"b":2}}'
Js 

  
 

    

    
    Python網路爬蟲之requests庫Scrapy爬蟲比較
       
 
  
  
 requests庫Scrapy爬蟲比較 相同點： 都可以進行頁面請求和爬取，Python爬蟲的兩個重要技術路線 兩者可用性都好，文件豐富，入門簡單。 兩者都沒有處理JS，提交表單，應對驗證碼等功能（可擴充套件） 想爬取有驗證碼的，換需要學習別的庫知識。 
 不同點：  Scrapy,非同 

  
 

    

    
    Python網路爬蟲之股票資料Scrapy爬蟲例項介紹，實現與優化！（未成功生成要爬取的內容！）
       
 
  
  
 結果TXT文本里面竟然沒有內容！cry~  
 編寫程式： 步驟： 
  1. 建立工程和Spider模板 
 2. 編寫Spider 
 3. 編寫ITEM Pipelines
 
  程式碼：成功建立 
 D:\>cd pycodes
    
   D:\pycodes> 

  
 

    

    
    Python極簡教程之八：網路爬蟲入門
       
  
  
 讀取網頁 
 下載後使用gbk解碼。 
 import urllib2

url = 'http://www.domain.com/domestic'
# download
resp = urllib2.urlopen(url).read()
# decode
resp = resp.dec 

  
 

    

    
    python爬蟲（四）---scrapy框架之騰訊招聘專案實戰
       
  
  
 目的：功能就是翻頁請求 
 步驟：如下 
  
  
 爬取職位名，職位連結等 
   職位名：  職位詳情連結：  職位類別：  人數:  地點:  釋出時間：  
  
  
 下一步驟：寫爬蟲 ：tencent.py檔案寫 
  
  
 方法一： 
   
 或者這樣寫  

  
 

    

    
    # 深入淺出爬蟲之道： Python、Golang與GraphQuery的對比
      深入淺出爬蟲之道： Python、Golang與GraphQuery的對比
本文將分別使用 Python ，Golang 以及 GraphQuery 來解析某網站的 素材詳情頁面 ，這個頁面的特色是具有清晰的資料結構，但是DOM結構不夠規範，無法通過單獨的選擇器定位頁面元素，對頁面的解析造成了一些曲折。通過這 

  
 

    

    
    python之scrapy(五)分散式爬蟲
      
                Scrapy是一個比較好用的Python爬蟲框架，你只需要編寫幾個元件就可以實現網頁資料的爬取。但是當我們要爬取的頁面非常多的時候，單個主機的處理能力就不能滿足我們的需求了（無論是處理速度還是網路請求的併發數），這時候分散式爬蟲的優勢就顯現出來。

一、分散式爬蟲的原理

下 

  
 

    

    
    python網路爬蟲-資料採集之遍歷單個爬蟲
      
                
     之所以稱之為爬蟲（Web Carwler）是因為它們可以沿著網路爬行。它們的本質就是一種遞迴方式。為了找到URL連結，它們必須首先獲取網頁內容，檢查這個頁面的內容，在尋找另外一個URL，然後後獲取URL對應的網頁內容，不斷迴圈這一過程。不過要注意的是：你可以這樣重 

  
 

    

    
    python爬蟲入門八：多程序/多執行緒 python佇列Queue Python多執行緒（2）——執行緒同步機制 python學習筆記——多程序中共享記憶體Value & Array python 之 多程序  Python多程序 Python 使用multiprocessing 特別耗記
      什麼是多執行緒/多程序 
引用蟲師的解釋： 
 
 計算機程式只不過是磁碟中可執行的，二進位制（或其它型別）的資料。它們只有在被讀取到記憶體中，被作業系統呼叫的時候才開始它們的生命期。 
 程序（有時被稱為重量級程序）是程式的一次執行。每個程序都有自己的地址空間，記憶體，資料棧以及其它記錄其執行軌跡的輔助資料 

  
 

    

    
    初試python爬蟲之：豆瓣電影爬蟲
      
                因為課程需要，前兩天花了一天學習python並寫了一個豆瓣電影的爬蟲。課程要求是這樣的：爬取豆瓣網站上，電影排名在前50名的電影，包括電影名字，電影評分，電影簡介，爬下來的電影資料進行分類，按照不同分類儲存在資料庫/Excel中的不同表中。python的環境安裝配置，以及語法 

  
 

    

    
    python當爬蟲遇到了防盜鏈_之_天涯圖片下載andweibo微博圖片下載
      
圖片下載被禁，試了加標頭檔案、加防盜鏈，失敗orz= =
url:http://bbs.tianya.cn/post-funinfo-6678943-1.shtml
圖片url：http://img3.laibafile.cn/p/l/229969207.jpg
首先試著下載圖片：s = requests. 

  

            

          
        
      
    
    
  
    搜尋
    
        
      
      
    
  
 
  
  
    基礎教學
     
    Mysql入門  
     Sql入門 
      Android入門 
       Docker入門 
        Go語言入門 
         Ruby程式入門 
          Python入門 
           Python進階 
            Django入門 
             Python爬蟲入門 
             
      
      
  
   
  
    最近訪問
    
  	      
  
      
    
  

 

 


  
    
      
        
          首頁
前端設計
程式設計
免費資源
實用技巧
資料庫
資訊
字典
        
          Copyright © 2002-2020  程式人生 796T.COM All rights reserved.

python爬蟲之xpath的基本使用 python爬蟲之xpath的基本使用

python爬蟲之xpath的基本使用

python網絡爬蟲-數據采集之遍歷單個爬蟲

python爬蟲--解析網頁幾種方法之正則表達式

python爬蟲--解析網頁幾種方法之BeautifulSoup

Python爬蟲從入門到成妖之3-----Scrapy框架的命令行詳解

Python爬蟲從入門到成妖之7-----Scrapy框架中Download Middleware用法

深入淺出爬蟲之道： Python、Golang與GraphQuery的對比

Python的學習筆記DAY7---關於爬蟲（2）之Scrapy初探

Python進階(十八)-Python3爬蟲小試牛刀之爬取CSDN部落格個人資訊

scrapy框架爬蟲爬取糗事百科之 Python爬蟲從入門到放棄第不知道多少天（1）

python：爬蟲爬取資料的處理之Json字串的處理（2）

Python網路爬蟲之requests庫Scrapy爬蟲比較

Python網路爬蟲之股票資料Scrapy爬蟲例項介紹，實現與優化！（未成功生成要爬取的內容！）

Python極簡教程之八：網路爬蟲入門

python爬蟲（四）---scrapy框架之騰訊招聘專案實戰

# 深入淺出爬蟲之道： Python、Golang與GraphQuery的對比

python之scrapy(五)分散式爬蟲

python網路爬蟲-資料採集之遍歷單個爬蟲

python爬蟲入門八：多程序/多執行緒 python佇列Queue Python多執行緒（2）——執行緒同步機制 python學習筆記——多程序中共享記憶體Value & Array python 之多程序 Python多程序 Python 使用multiprocessing 特別耗記

初試python爬蟲之：豆瓣電影爬蟲

python當爬蟲遇到了防盜鏈_之_天涯圖片下載andweibo微博圖片下載