python3 xpath和requests應用詳解

阿新 • • 發佈：2020-03-07

根據一個爬取豆瓣電影排名的小應用，來簡單使用etree和request庫。

etree使用xpath語法。

import requests
import ssl
from lxml import etree


ssl._create_default_https_context = ssl._create_unverified_context

session = requests.Session()
for id in range(0,251,25):
 URL = 'https://movie.douban.com/top250/?start=' + str(id)
 req = session.get(URL)
 # 設定網頁編碼格式
 req.encoding = 'utf8'
 # 將request.content 轉化為 Element
 root = etree.HTML(req.content)
 # 選取 ol/li/div[@class="item"] 不管它們在文件中的位置
 items = root.xpath('//ol/li/div[@class="item"]')
 for item in items:
  # 注意可能只有中文名，沒有英文名；可能沒有quote簡評
  rank,name,alias,rating_num,quote,url = "","",""
  try:
   url = item.xpath('./div[@class="pic"]/a/@href')[0]
   rank = item.xpath('./div[@class="pic"]/em/text()')[0]
   title = item.xpath('./div[@class="info"]//a/span[@class="title"]/text()')
   name = title[0].encode('gb2312','ignore').decode('gb2312')
   alias = title[1].encode('gb2312','ignore').decode('gb2312') if len(title) == 2 else ""
   rating_num = item.xpath('.//div[@class="bd"]//span[@class="rating_num"]/text()')[0]
   quote_tag = item.xpath('.//div[@class="bd"]//span[@class="inq"]')
   if len(quote_tag) is not 0:
    quote = quote_tag[0].text.encode('gb2312','ignore').decode('gb2312').replace('\xa0','')
   # 輸出 排名，評分，簡介
   print(rank,quote)
   # 輸出 中文名，英文名
   print(name.encode('gb2312','ignore').decode('gb2312'),alias.encode('gb2312','ignore').decode('gb2312').replace('/',','))
  except:
   print('faild!')
   pass

程式執行結果：

python3 xpath和requests應用詳解

補充知識：requests抓取以及Xpath解析

程式碼：

# requests抓取
import requests
 
# 新浪新聞的一篇新聞的url
url = 'http://news.sina.com.cn/s/2018-05-09/doc-ihaichqz1009657.shtml'
 
res = requests.get(url)
# 檢視編碼方式
enconding = requests.utils.get_encodings_from_content(res.text)
#print(enconding)
 
 
# 列印網頁內容
html_doc = res.content.decode("utf-8")
print(html_doc[:500])
 
# 儲存網頁內容
with open('test.html','w') as f:
 f.write(html_doc)

執行結果：

<!DOCTYPE html>
<!-- [ published at 2018-05-09 18:23:13 ] -->
<!-- LLTJ_MT:name ="澎湃新聞" -->
 
<html>
<head>
<meta charset="utf-8"/>
<meta http-equiv="Content-type" content="text/html; charset=utf-8" />
<meta name="sudameta" content="urlpath:s/; allCIDs:51924,257,51895,200856,56264,258,38790">
<title>小學老師罰學生赤腳跑操場 官方：將按規定處理|赤腳|學生|華龍網_新浪新聞</title>
<meta name="keywords" content="赤腳,學生,華龍網" />
<meta name="tags" content="赤腳,華龍網" />
<meta name="description" content="原標題：潼南一小學體育老師罰學生赤腳跑操場續：區教委向華龍網發來情況

程式碼：

# xpath解析
from lxml import etree
 
# 建立html的樹
tree = etree.HTML(html_doc)
 
# 設定目標路徑（標題）
path_title = '/html/body//h1[@class="main-title"]//text()'
 
# 提取節點
node_title = tree.xpath(path_title)
print("===" * 20)
print(node_title[0])
 
# 設定內容路徑
path_content = '//div[@class="article-content-left"]//div[@id="article"]//text()'
 
# 提取節點
node_content = tree.xpath(path_content)
print("===" * 20)
print("。".join(node_content))

執行結果：

============================================================
小學老師罰學生赤腳跑操場 官方：將按規定處理
============================================================
 
 。　　原標題：潼南一小學體育老師罰學生赤腳跑操場續：區教委向華龍網發來情況說明。
。　　重慶客戶端-華龍網5月9日訊息，這兩天，重慶潼南區朝陽小學二年級6班不少家長心疼不已，因為多個娃兒腳底被磨出了泡。一問才知道，是因為有些學生體育課上沒穿運動鞋，被體育老師要求赤腳在操場上跑步。收到重慶網路問政平臺這一投訴後，華龍網記者立即進行了調查。今（9）日，華龍網釋出了。《重慶潼南一小學體育老師罰學生赤腳跑操場腳底磨出泡當地教委介入》。報道後，潼南教委高度重視並給華龍網傳來官方的情況說明。。
。　。　[說明全文]。
。　　關於家長在華龍網投訴教師上體育課體罰學生的情況說明。
。　　潼南區朝陽小學體育教師鄒老師於2018年5月7日上午上體育課時，發現該班有少部分名學生未按體育課的要求穿運動鞋。該教師認為，穿著涼鞋跑步對學生本人及他人存在安全隱患，塑膠跑道不會對學生光腳運動造成影響，於是就叫未穿運動鞋的學生，脫掉涼鞋進行隨班熱身跑步。當時鄒老師未發現學生有異常情況，也未接到學生有異常情況的反映。後經家長反映到學校，有極少數光著腳跑步的學生有異常情況，學校庚即與部分家長進行了溝通，並及時調查瞭解了此事，並對該教師這種不恰當教學方法進行了批評教育，我們將按相關規定對該教師作出相應的處理。。
。　　重慶市潼南區教育委員會。
。　　2018年5月9日。
。  來源：華龍網。
 
。責任編輯：張義凌 。

以上這篇python3 xpath和requests應用詳解就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

python3 xpath和requests應用詳解

根據一個爬取豆瓣電影排名的小應用，來簡單使用etree和request庫。 etree使用xpath語法。

pytorch::Dataloader中的迭代器和生成器應用詳解

在使用pytorch訓練模型，經常需要載入大量圖片資料，因此pytorch提供了好用的資料載入工具Dataloader。

python3 map函式和filter函式詳解

map()函式可以對一個數據進行同等迭代操作。例如： def f(x): return x * x r = map(f,[1,2,3,4,5,6,7,8,9])

淺談python3打包與拆包在函式的應用詳解

1、序列（拆包） *用作序列拆包：*可對字串、列表、集合、元組、字典、數字元素等序列進行拆包

React冒泡和阻止冒泡的應用詳解

阻止事件冒泡分三種： 1：阻止合成事件往最外層document上的事件冒泡，用e.nativeEvent.stopImmediatePropagation();

JS中佇列和雙端佇列實現及應用詳解

佇列佇列雙端佇列資料結構應用用擊鼓傳花遊戲模擬迴圈佇列用雙端對列檢查一個詞是否構成迴文

vue快取之keep-alive的理解和應用詳解

官方解釋： <keep-alive> 包裹動態元件時，會快取不活動的元件例項，而不是銷燬它們。和 <transition> 相似，<keep-alive> 是一個抽象元件：它自身不會渲染一個 DOM 元素，也不會出現在元件的父元

Python模擬登入requests.Session應用詳解

最近由於某些原因，需要用到Python模擬登入網站，但是以前對這塊並不瞭解，而且目標網站的登入方法較為複雜，所以一下卡在這裡了，於是我決定從簡單的模擬開始，逐漸深入地研究下這塊。

Vue3和Electron實現桌面端應用詳解

目錄 CLI 搭建Vue專案Vue專案改造為markdown編輯器Vue CLI Plugin Electron Builder優化功能啟動全屏顯示修改選單欄編輯器開啟markdonw檔案的內容markdonw的內容存入檔案打包為了方便記錄一些個人隨筆，我最近用Lara

vue中{{}},v-text和v-html區別與應用詳解

{{}}獲取值，不會清空標籤原有內容 v-text 獲取值，會清空標籤原有內容，輸出的是純文字

螞蟻金服服務註冊中心資料分片和同步方案詳解 | SOFARegistry 解析

SOFAStack（Scalable Open Financial Architecture Stack）是螞蟻金服自主研發的金融級分散式架構，包含了構建金融級雲原生架構所需的各個元件，是在金融場景裡錘鍊出來的最佳實踐。

Java web攔截器inteceptor原理及應用詳解

這篇文章主要介紹了java web攔截器inteceptor原理及應用詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

簡單瞭解Java方法的定義和使用實現詳解

這篇文章主要介紹了簡單瞭解Java方法的定義和使用實現詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

DragChartPanel可拖拽曲線應用詳解

DragChartPanel 是java cs架構中的一種圖形展現的開源元件。業務需求需要用到DragChartPanel ，這是一種根據jtable表格中的資料給與展示的圖形元件。它和其他圖形元件區別再與它可以進行拖拽，使用者通過它不僅可以

Java Comparable和Comparator對比詳解

在實際專案開發過程中，我們經常需要對某個物件或者某個集合中的元素進行排序，常用的兩種方式是實現某個介面。常見的可以實現比較功能的介面有Comparable介面和 Comparator介面，那麼這兩個又有什麼區別呢？

Spring Bean的初始化和銷燬例項詳解

本文例項講述了Spring Bean的初始化和銷燬。分享給大家供大家參考，具體如下：

Mongodb副本集和分片示例詳解

前言因為之前沒用過mongo，所以最近的開發踩了不少坑，現在熟練了不少。 mongo在許多地方用起來還有許多不如意的地方，比如不知道如何加行鎖，雖然mongo本身可以加寫鎖，多寫的時候保證原子性，但不能向mysql在事務

Mysql主從複製作用和工作原理詳解

一、什麼是主從複製主從複製，是用來建立一個和主資料庫完全一樣的資料庫環境，稱為從資料庫，主資料庫一般是準實時的業務資料庫。在最常用的mysql資料庫中，支援單項、非同步賦值。在賦值過程中，一個伺服器充當主

mac系統下Redis安裝和使用步驟詳解

前言本篇文章主要講述了Mac下Redis的安裝和使用的經驗，並將python如何操作Redis做了簡單介紹。

Linux(Centos7)下redis5叢集搭建和使用說明詳解

1、簡要說明 2018年十月 Redis 釋出了穩定版本的 5.0 版本，推出了各種新特性，其中一點是放棄 Ruby的叢集方式，改為使用 C語言編寫的 redis-cli的方式，是叢集的構建方式複雜度大大降低。關於叢集的更新可以在 Red

python3 xpath和requests應用詳解

相關推薦