Python 爬蟲開發之xpath使用

阿新 • • 發佈：2018-11-10

在進行爬蟲開發中，需要的頁面資訊進行解析處理，獲取到需要的關鍵資料。可以利用xpath進行對頁面的xml檔案進行解析處理，獲取到需要的關鍵資料。
XPath使用:
XPath 可用來在 XML 文件中對元素和屬性進行遍歷.
from lxml import etree
import urllib2
req = urllib2.Request(url)
req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')
web_info = urllib2.urlopen(req).read()
html = etree.HTML(web_info)
result = etree.tostring(html) #tostring 是補全缺失的html標籤
html_data = result.xpath('/html/body/div/ul/li/a/text()') 獲取某個標籤的資料

，返回的是物件，可以通過遍歷得到具體的資料
html_data = html.xpath('/html/body/div/ul/li/a/@href') 獲取某個標籤的屬性 獲取屬性值用@
html_data = html.xpath('/html/body/div/ul/li/a[@href="link2.html"]/text()') 獲取a表現屬性為link2.html的內容
html_data = html.xpath('//li/a/text()') 使用相對路徑獲取a標籤的內容
html_data = html.xpath('//li/a//@href') 使用相對路徑獲取a標籤的屬性值

Python 爬蟲開發之xpath使用

在進行爬蟲開發中，需要的頁面資訊進行解析處理，獲取到需要的關鍵資料。可以利用xpath進行對頁面的xml檔案進行解析處理，獲取到需要的關鍵資料。XPath使用:XPath 可用來在 XML 文件中對元素和屬性進行遍歷.from lxml import etreeimport urllib2req = urll

python爬蟲學習之XPath基本語法

XPath 使用路徑表示式來選取 XML 文件中的節點或節點集。節點是通過沿著路徑（path）或者步（steps）來選取的。 XML例項文件我們將在下面的例子中使用這個XML文件。 <?xml version="1.0" encoding="ISO-8859-1"?> <

python網頁爬蟲開發之五-反爬

build referer mac eee pac -o strip 不響應 win64 1、頭信息檢查是否頻繁相同隨機產生一個headers， #user_agent 集合 user_agent_list = [ ‘Mozilla/5.0 (Windows N

python網頁爬蟲開發之六-Selenium使用

scrip python ref ges 加載圖片 browser 網頁加載 content 很慢 chromedriver禁用圖片，禁用js，切換UA selenium 模擬chrome瀏覽器，此時就是一個真實的瀏覽器，一個瀏覽器該加載的該渲染的它都加載都渲染，所以爬取

2017.08.10 Python爬蟲實戰之爬蟲攻防

ebs 1-1 間隔 ima pic setting fin 數據 del 1.創建一般的爬蟲：一般來說，小於100次訪問的爬蟲都無須為此擔心（1）以爬取美劇天堂為例，來源網頁：http://www.meijutt.com/new100.html，項目準備： scrapy

2017.08.10 Python爬蟲實戰之爬蟲攻防篇

5.1 inux ice 一個 1.0 ninja 多網站 alt bject 1.封鎖user-agent破解： user-agent是瀏覽器的身份標識，網站就是通過user-agent來確定瀏覽器類型的。有很多網站會拒絕不符合一定標準的user-agent請求網頁，如果

Python爬蟲常用之登錄(一) 思想

訪問 size 其他驗證碼方法身份驗證一定的常用加密爬蟲主要目的是獲取數據,常見的數據可以直接訪問網頁或者抓包獲取,然後再解析即可. 一些較為隱私的數據則不會讓遊客身份的訪問者隨便看到,這個時候便需要登錄獲取. 一般獲取數據需要的是登錄後的cookie作為身份

python爬蟲學習之路-遇錯筆記-1

sig packages ror caused 技術 bsp img exception mage 當在編寫爬蟲時同時開啟了Fidder解析工具時，訪問目標站點會遇到以下錯誤： File "C:\Users\litao\AppData\Local\Programs\P

python爬蟲scrapy之如何同時執行多個scrapy爬行任務

還需學習 lis 參數文件名其中 .project 自定義 com 背景：　　剛開始學習scrapy爬蟲框架的時候，就在想如果我在服務器上執行一個爬蟲任務的話，還說的過去。但是我不能每個爬蟲任務就新建一個項目吧。例如我建立了一個知乎的爬行任務，但是我在這個爬行任務中

Python測試開發之---list、str、dict、tuple小結

split 常用方法 split() nco item 它的 ase 小寫字母 -- str的常用方法有： str.digits 0-9的表示str.uppercase 大寫字母str.lowercase 小寫字母str.letters 所有字母" ".join(s

python爬蟲scrapy之rules的基本使用

highlight 目的創建 true ans 滿足 topic hole auth Link Extractors Link Extractors 是那些目的僅僅是從網頁(scrapy.http.Response 對象)中抽取最終將會被follow鏈接的對象? Scra

python 爬蟲入門之正則表達式一

簡單換行 find www. ever page oct search utf python 正則表達式知識點正則常用符號. : 匹配任意字符，換行符除外* ：匹配前一個字符 0 次或者無限次？：匹配前一個字符 0次或者1次.* ：貪心算法.*？：非貪心算

python web開發之flask框架學習(2) 加載模版

模版文件簡書 nbsp 什麽 blog python 目錄 pan col 上次學習了flask的helloword項目的創建，這次來學習flask項目的模版加載: 第一步：創建一個flask項目第二步:在項目目錄的templates文件夾下創建一個html文件

Python Web開發之路

markdown OS utils ask href .cn http www. class Flask相關 1、DBUtils數據庫連接池 2、Flask之初體驗 Python Web開發之路

python+selenium基礎之XPATH定位

方式沒有基礎元素 w3c com pytho round con 世界上最遠的距離大概就是明明看到一個頁面元素矗在那裏，但是我卻定位不到！！ selenium定位元素的方法有很多種，像是通過id、name、class_name、tag_name、link_text

Python爬蟲開發系列之一》開發IDE安裝

開發 size 環境配置技術 keyword -s www 版本是不是中國有句古話說：工欲善其事，必先利其器！在我最開始學 Python 的時候，因為沒有去探索好用的工具，吃了很多苦頭。磕磕絆絆走過來之後才知道，好的工具給效率帶來的提升不是從 1 到 1.1 倍速

Python爬蟲開發【第1篇】【urllib2】

返回JSON數據驗證 ajax 本地磁盤發送請求 doc 大寫總結錯誤 1、urlopen # urllib2_urlopen.py # 導入urllib2 庫 import urllib2 # 向指定的url發送請求，並返回服務器響應的類文件對象 respo

Python爬蟲開發【第1篇】【正則表達式】

返回 true ccf color arch iter 子串 call last 1、正則表達式　　它是對字符串操作的一種邏輯公式，就是用事先定義好的一些特定字符、及這些特定字符的組合，組成一個“規則字符串”，這個“規則字符串”用來表達對字符串的一種過濾邏輯。 2、re

Python爬蟲開發【第1篇】【beautifulSoup4解析器】

res tail {} nbsp catalog XML select 解析器 enc CSS 選擇器：BeautifulSoup4 Beautiful Soup 也是一個HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 數據。 pip 安裝：pip

Python爬蟲開發【第1篇】【爬蟲案例】

selenium NPU word fun isa time input == 百度案例一：網站模擬登錄 # douban.py from selenium import webdriver from selenium.webdriver.common.keys im