爬取伯樂線上文章（二）通過xpath提取原始檔中需要的內容

阿新 • • 發佈：2018-11-05

爬取說明

以單個頁面為例，如：http://blog.jobbole.com/110287/

我們可以提取標題、日期、多少個評論、正文內容等

Xpath介紹

1.　xpath簡介

（1）　xpath使用路徑表示式在xml和html中進行導航

（2）　xpath包含標準函式庫

（3）　xpath是一個w3c標準

2.　Xpath的節點關係

（1）　父節點

（2）　子節點

（3）　同胞節點

（4）　先輩節點

（5）　後代節點

3.　Xpath語法

開始爬取

1.　將starts_urls修改為http://blog.jobbole.com/110287/

2.　def parse(self, response)方法中的response自帶有xpath方法

結果為：//*[@id="post-110287"]/div[1]/h1

在parse方法裡面進行解析：

 #業務邏輯
    def parse(self, response):
        title_selector = response.xpath('//*[@id="post-110287"]/div[1]/h1')
        pass

斷點檢視返回的title_selector的型別是SelectorList，裡面存放的是一個selector，為什麼不直接返回一個node型別，這是因為我們獲取的h1下面可能還有很多層，我們可以進一步的做xpath篩選，直接返回node的話就無法做xpath篩選，所以scrapy做了進一步的封裝，可以讓我們進一步進行xpath篩選。

我們可以看到data裡面的值是一個h1標籤，我們可以直接呼叫一個text()函式獲取裡面的值，如下

title_selector = response.xpath('//*[@id="post-110287"]/div[1]/h1/text()')

此時在看data裡面值就是我們需要的內容了

除錯Xpath

在scarpy裡面進行除錯是比較慢的，scrapy提供了一種shell模式，可以在裡面對某個URL進行除錯，如下在cmd裡面

(scrapyenv) E:\Python\Envs\EnterpriseSpider>scrapy shell http://blog.jobbole.com/110287/

(scrapyenv) E:\Python\Envs\EnterpriseSpider>scrapy shell http://blog.jobbole.com/110287/
2018-11-05 10:14:15 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: EnterpriseSpider)
2018-11-05 10:14:15 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.5, cssselect 1.0.3, parsel 1.5.1, w3lib 1.19.0, Twisted 18.9.0, Python 3.6.6 (v3.6.6:4cf1f54eb7, Jun 27 2018, 03:37:03) [MSC v.1900 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.1.0i  14 Aug 2018), cryptography 2.3.1, Platform Windows-10-10.0.17134-SP0
2018-11-05 10:14:15 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'EnterpriseSpider', 'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter', 'LOGSTATS_INTERVAL': 0, 'NEWSPIDER_MODULE': 'EnterpriseSpider.spiders', 'SPIDER_MODULES': ['EnterpriseSpider.spiders']}
2018-11-05 10:14:15 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole']
2018-11-05 10:14:15 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-11-05 10:14:15 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-11-05 10:14:15 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2018-11-05 10:14:15 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-11-05 10:14:15 [scrapy.core.engine] INFO: Spider opened
2018-11-05 10:14:15 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://blog.jobbole.com/110287/> (referer: None)
[s] Available Scrapy objects:
[s]   scrapy     scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s]   crawler    <scrapy.crawler.Crawler object at 0x000002C00C180080>
[s]   item       {}
[s]   request    <GET http://blog.jobbole.com/110287/>
[s]   response   <200 http://blog.jobbole.com/110287/>
[s]   settings   <scrapy.settings.Settings object at 0x000002C00E7DD898>
[s]   spider     <JobboleSpider 'jobbole' at 0x2c00ea8b160>
[s] Useful shortcuts:
[s]   fetch(url[, redirect=True]) Fetch URL and update local objects (by default, redirects are followed)
[s]   fetch(req)                  Fetch a scrapy.Request and update local objects
[s]   shelp()           Shell help (print this help)
[s]   view(response)    View response in a browser
>>>

View Code

使用如下

獲取data裡面值可以用Selector的extract方法，返回的是一個數組

在獲取數組裡面的第一個值就可以獲取我們需要的內容

爬取伯樂線上文章（二）通過xpath提取原始檔中需要的內容

爬取說明以單個頁面為例，如：http://blog.jobbole.com/110287/ 我們可以提取標題、日期、多少個評論、正文內容等 Xpath介紹 1.　xpath簡介（1）　xpath使用路徑表示式在xml和html中進行導航（2）　xpath包含標準函式庫（3）　xpat

爬取伯樂線上文章（三）爬取所有頁面的文章

之前只是爬取某一篇文章的內容，但是如何爬取所有文章修改start_urls = ['http://blog.jobbole.com/all-posts/'] 重新啟動scrapy的shell parse函式需要做兩件事 1. 獲取文章列表頁中的文章URL並交給scrapy下載後並解

Scrapy爬取伯樂線上文章

首先搭建虛擬環境,建立工程 scrapy startproject ArticleSpider cd ArticleSpider scrapy genspider jobbole blog.jobbole.com 修改start_urls = ['http://blog.jobbole.com/all-p

Python網路資料爬取----網路爬蟲基礎（一）

The website is the API......(未來的資料都是通過網路來提供的，website本身對爬蟲來講就是自動獲取資料的API)。掌握定向網路資料爬取和網頁解析的基本能力。 ##Requests 庫的使用，此庫是Python公認的優秀的第三方網路爬蟲庫。能夠自動的爬取HTML頁面；自動的

python爬蟲系列(3.4-使用xpath和lxml爬取伯樂線上)

一、爬取的程式碼 1、網站地址 2、具體實現程式碼 import requests from lxml import etree class JobBole(object): def __init__(self): &

一篇SSM框架整合友好的文章（二）

上一篇講述了DAO 層，mybatis實現資料庫的連線，DAO層介面設計，以及mybtis和spring的整合。DAO層採用介面設計方式實現，介面和SQL實現的分離，方便維護。DAO層所負責的僅僅是介面的設計和實現，而負責的邏輯即一個或多個DAO層介面的拼接是在Sevice層中完成。這篇文章接上篇文章，

Scrapy爬取伯樂線上採用兩種入庫方法

scrapy基本命令 1.建立scrapy專案 scrapy startproject mybole 2.進入專案列表並在專案目錄下建立爬蟲檔案,此處必須加上你要爬取的連結否則會報錯 cd mybole scrapy genspider jobbole

Python爬蟲-爬取伯樂線上美女郵箱

爬取伯樂線上美女郵箱 1.登入介面的進入,設定url，cookie，data，headers 2.進入主頁，點選郵箱連結，需要重新設定url，cookie(讀取重新儲存的cookie)，data，headers 1 ''' 2 爬取伯樂線上的美女聯絡方式 3 需

scrapy突破反爬的幾種方式（二）

上回說到設定隨機 User-Agent ，這次來一個隨機代理 ip 的設定。代理ip 在爬蟲中，為了避免網站將我們的 ip 封掉，我們就要使用代理 ip 。雖然說代理 ip 沒有原裝的好，但是有些時候還是要使用代理ip 來獲取資料的。原理隨機代理 ip 簡單來說

Python爬蟲框架：Scrapy 爬取伯樂線上實戰

專案介紹使用Scrapy框架進行爬取伯樂線上的所有技術文章所用知識點 Scrapy專案的建立 Scrapy框架Shell命令的使用 Scrapy自帶的圖片下載管道 Scrapy自定義圖片下載管道(繼承自帶的管道) Scrapy框架ItemLoader

Python3+Fiddler爬取手機端APP（三） ————使用Appium在真機模擬爬取

最終：例子：爬取天眼查： 1.手機開啟開發者模式，允許USB除錯 2.cmd輸入adb 3.下載apk 4.開啟appium，拖入apk，並填上裝置名 5.寫對應python程式 import selenium import time from ap

Git 系列文章（二）—— Git 基本用法

正文之前上一篇文章簡單介紹了 Git 和 GitHub，這一篇文章用一個倉庫來作為例子介紹 Git 的基本用法，而不是單純地列出每一條 Git 命令這篇文章來自我的部落格正文 1. 倉庫的初始操作初始化首先我先在本地存放 GitHub 倉庫的資料夾

Git系列文章（二）：從github上下載專案，本地修改後提交至github

Spring官方demo綠房子：spring-projects/greenhouse 1、獲取github遠端倉庫地址： [email protected]:spring-projects/greenhouse.git 2、用git克隆專案到本地選擇要克隆的程式碼，滑鼠右

使用scrapy爬取伯樂線上多執行緒存為MySQL資料庫

在spider檔案中的程式為 import scrapy from ..items import BolespiderItem class BoleSpider(scrapy.Spider): name = 'bole' allowed_domains = ['blog.j

Scrapy爬取前程無憂（51job）相關職位資訊

Scrapy爬取前程無憂（51job）python職位資訊開始是想做資料分析的，上網上找教程，看到相關部落格我就跟著做，但是沒資料就只能開始自己爬唄。順便給51job的工作人員提提建議，我爬的時候Scrapy訪問量開到128，relay僅有兩秒，還以為會封ip。沒想到只是改請求頭就

那些年收藏的技術文章（二）-雲筆記篇

Android IM、推送、保活相關 JNI/NDK Material Design Android MultiDex Android安全 Android測試外掛化、元件化開發

java Socket實現簡單線上聊天（二）

接《Java Socket實現簡單線上聊天（一）》，在單客戶端連線的基礎上，這裡第二步需要實現多客戶端的連線，也就需要使用到執行緒。每當有一個新的客戶端連線上來，服務端便需要新啟動一個執行緒進行處理，從而解決之前的迴圈讀取中造成阻塞的問題。寫執行緒通常有兩種方法，整合T

Python3爬蟲小程式——爬取各類天氣資訊（3）

經過前面靜態頁面的爬取已經收集到很多資訊了。最近在看怎麼從動態頁面上爬取資訊，主要用到的還是selenium+phantomJS工具（如何安裝？點選這裡檢視），雖然存在一些缺點（效率不是很高），但是還算不錯。於是乎，前面從天氣網（http://www.tianqi.com

python爬蟲-爬取愛情公寓電影（2018）豆瓣短評並資料分析

說起這部電影，我本人並沒有看，其實原先是想為了情懷看一下，但是好友用親身經歷告訴我看來會後悔的，又去看了看豆瓣評分，史無前例的，，，低。出於興趣就爬取一下這部電影在豆瓣上的短評，並且用詞雲分析一下。 1.分析url 經過分析不難發現每一頁短評的url都是一致的除

Scrapy-Splash爬取淘寶排行榜（三）

五寫spider 1.知道了要爬取的內容，所以，我們首先在start_urls中設定如下： start_urls=['https://top.taobao.com/index.php?topId=TR_FS&leafId=50010850'

爬取伯樂線上文章（二）通過xpath提取原始檔中需要的內容

爬取說明

Xpath介紹

1. xpath簡介

2. Xpath的節點關係

3. Xpath語法

開始爬取

除錯Xpath

相關推薦

1.　xpath簡介

2.　Xpath的節點關係

3.　Xpath語法