1. 程式人生 > >每天一個python段子(1):xpath

每天一個python段子(1):xpath

暫時設定為填空題,有興趣的可以按大綱自行補完~

背景知識:

版本

xpath的版本進化是不斷擴充套件的過程,所以基本語法是通用的。如果需要在刁鑽的的場景下使用,就得用心研究下不同版本的用法了。

  • XPath 1.0 在1999年澳門迴歸那年,成為W3C標準,並被廣泛實現和使用在Java,C#, Python 或者Javascript中。
  • XPath 2.0 在2007年納入標準,並與XQuery1.0這個基友繫結在一起。
  • XPath 3.0 在2014年納入標準,又跟Xquery 3.0基友在一起。

語法:

  1. 絕對路徑

  2. 相對路徑

  3. 條件篩選

  4. 多路徑同時選擇

選擇物件:

  1. text

  2. 屬性

  3. tag名

  4. 萬用字元

除錯須知:

  1. 瀏覽器會自動在table節點下補加入tbody元素來達到html標準的效果。有可能還有其他坑,所以安全起見,使用wget下載一份html檔案,基於檔案除錯xpath。
  2. 推薦一些好用的瀏覽器除錯外掛。
    chrome瀏覽器:XPath Helper
    firefox瀏覽器: FirePath

相關庫

  • lxml
  • scrapy