python3 xpath和requests應用

阿新 • • 發佈：2019-02-08

根據一個爬取豆瓣電影排名的小應用，來簡單使用etree和request庫。

etree使用xpath語法。

import requests
import ssl
from lxml import etree


ssl._create_default_https_context = ssl._create_unverified_context

session = requests.Session()
for id in range(0, 251, 25):
    URL = 'https://movie.douban.com/top250/?start=' + str(id)
    req = session.get 
(URL)
    # 設定網頁編碼格式
    req.encoding = 'utf8'
    # 將request.content 轉化為 Element
    root = etree.HTML(req.content)
    # 選取 ol/li/div[@class="item"] 不管它們在文件中的位置
    items = root.xpath('//ol/li/div[@class="item"]')
    for item in items:
        # 注意可能只有中文名，沒有英文名；可能沒有quote簡評
        rank, name, alias, rating_num, quote 
, url = "", "", "", "", "", ""
        try:
            url = item.xpath('./div[@class="pic"]/a/@href')[0]
            rank = item.xpath('./div[@class="pic"]/em/text()')[0]
            title = item.xpath('./div[@class="info"]//a/span[@class="title"]/text()')
            name = title[0].encode('gb2312', 'ignore').decode('gb2312' 
)
            alias = title[1].encode('gb2312', 'ignore').decode('gb2312') if len(title) == 2 else ""
            rating_num = item.xpath('.//div[@class="bd"]//span[@class="rating_num"]/text()')[0]
            quote_tag = item.xpath('.//div[@class="bd"]//span[@class="inq"]')
            if len(quote_tag) is not 0:
                quote = quote_tag[0].text.encode('gb2312', 'ignore').decode('gb2312').replace('\xa0', '')
            # 輸出 排名，評分，簡介
            print(rank, rating_num, quote)
            # 輸出 中文名，英文名
            print(name.encode('gb2312', 'ignore').decode('gb2312'),
                  alias.encode('gb2312', 'ignore').decode('gb2312').replace('/', ','))
        except:
            print('faild!')
            pass

程式執行結果：

這裡寫圖片描述

python3 xpath和requests應用

根據一個爬取豆瓣電影排名的小應用，來簡單使用etree和request庫。 etree使用xpath語法。 import requests import ssl from lxml import e

python3 urllib和requests模組

urllib模組是python自帶的，直接呼叫就好，用法如下： 1 #處理get請求，不傳data，則為get請求 2 import urllib 3 from urllib.request import urlopen 4 from urllib.parse

python3:set 和 frozenset的應用場景及區別

set 是集合，frozenset 是凍結的集合，顧名思義是不可變集合。 set 最大的特性是不重合，在去重的時候用的最多。 1.接受一個可迭代的型別先簡單的看下class 的說明如下： class set(object): """ set() ->

python3爬蟲入門（urllib和requests簡單使用）

知道python有強大的的爬蟲庫，但是對於我們普通小白來說，寫一個完整的爬蟲需要知道什麼甚至瞭解什麼都是很重要的。掌握了這些基本點，才能夠熟悉爬蟲的構成和獲取有用的資訊。編寫一個小爬蟲個人感覺可以分為三個階段： 1：請求，這個就是使用urlib2或者requests

使用python的requests、xpath和多執行緒爬取糗事百科的段子

程式碼主要使用的python中的requests模組、xpath功能和threading多執行緒爬取了糗事百科中段子的內容、圖片和閱讀數、段子作者的性別，年齡和頭像。 # author: aspiring import requests from lxml import

Python3 urllib庫和requests庫

1. Python3 使用urllib庫請求網路 1.1 基於urllib庫的GET請求請求百度首頁www.baidu.com ，不新增請求頭資訊： 1 import urllib.requests 2 3 4 def get_page(): 5　　

【python爬蟲小實戰】python3.x用requests和bs4實現有道翻譯(中英文)

一直用的是python3.x版本的，剛開始學爬蟲的時候學長給了我個爬有道翻譯的小程式，實現中英文翻譯，由於是用urllib庫的，當時也是剛接觸python，所以一臉懵逼，現在學了一個月了，回頭再看了一下，感覺很時間單，於是就用requests庫和bs4，加上js

Windows10下python3和python2同時安裝 python2.exe、python3.exe和pip2、pip3設置

bsp net 運行安裝python all 能夠命令自動添加 exe 1、添加python2到系統環境變量打開，控制面板\系統和安全\系統，選擇高級系統設置，環境變量，選擇Path，點擊編輯，新建，分別添加D:\Python\python27和D:\P

Python3.6 和 Pycharm 詳細安裝教程

python pycharm一.Python3.61.下載Python安裝包 https://www.python.org/ 2.安裝Python 2.1.雙擊安裝，勾選下面兩項，選擇自定義安裝2.2.此處默認，直接下一步2.3.選擇安裝路勁，開始安裝2.4.安裝完成3.運行PythonPython3.6

DOM的概念和簡單應用：使用DOM解析XML數據

rop 手機實例 des dna 文檔轉換 .get val oms 概念：DOM是Document Object Model的簡稱，即文檔數據模型。 Oracle公司提供了JAXP（Java API for XML Processing）來解析XML。JAXP會把XML

BEGINNING SHAREPOINT® 2013 DEVELOPMENT 第6章節--在SharePoint2013中開發、集成和構建應用程序總結

epo pos pop mod data 基礎上註入代碼 enter BEGINNING SHAREPOINT? 2013 DEVELOPMENT 第6章節--在SharePoint2013中開發、集成和構建應用程序總結 SharePoint開發

Python3.x和Python2.x的區別

java amd ued uoj icc 5% ros vma .com %5BjavaSE%5D%20%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84%E4%BA%8C%E5%8F%89%E6%9F%A5%E6%89%BE%E6%A0%91-%E6

Django基礎學習之Cookie 和 Sessions 應用

ima ges disco ttr 實現保存 urn 傳遞 nwr 在Django裏面，使用Cookie和Session看起來好像是一樣的，使用的方式都是request.COOKIES[XXX]和request.session[XXX],其中XXX是您想要取得的東西的ke

使用BatteryHistorian分析和優化應用電量

art man protobuf 工具 tail 數據請求 number 能夠 htm 歡迎Follow我的GitHub, 關註我的CSDN. 在Android項目中, 較難監控應用的電量消耗, 可是用戶卻很關心手機的待機時間. 過度耗電的應用

Linux下安裝Python3.x和第三方庫

方便 tls libpcap 輸入 zlib cert ase $path pip安裝如果本機安裝了python2，盡量不要管他，使用python3運行python腳本就好，因為可能有程序依賴目前的python2環境，比如yum！！！！！不要動現有的python2環境

DataGuard之Apply Services（redo應用和SQL應用）

令行應用 tar 同步官方 blocks ron strong 其他應用服務 Apply Services 根據oracle官方文檔整理 http://docs.oracle.com/cd/E11882_01/server.112/e25608/log_apply.h

[Python3]日期和時間處理

num import time模塊 now() sda 年份 -s 好的等價概述在python中， date、time、datetime類提供了一系列處理日期、時間和時間間隔的函數。在Python裏我們大致可以把其實現日期時間類分為5個： date僅用

Python3.6和Django源碼編譯安裝

$path -s src span app python升級 site python3 裝包 Python3.6源碼編譯安裝系統環境：CentOS 7 下載Python源碼包： https://www.python.org/downloads/ 編譯、安

《移動Web前端高效開發實戰》筆記2——使用Gulp構建一個ECMAScript 6和Sass應用

腳本 x文件 node.js 磁盤 clas res 運行 brush 開發 8.3.1 安裝和配置運行Gulp需要Node.js環境，請參看第二章內容搭建Node.js環境。使用NPM全局安裝Gulp，命令如下： npm install gulp-cli –g 然

Linux自學筆記——DNS和bind應用

dns 正向區域反向區域 DNS（Domain Name System，域名系統），因特網上作為域名和ip地址相互映射的一個分布式數據庫，能夠使用戶更方便的訪問互聯網，而不用去記住能夠被機器直接讀取的ip數串。通過主機名，最終得到該主機名對應的ip地址的過程叫做域名解析（或主機名解析）。DNS協

python3 xpath和requests應用

相關推薦