scrapy網頁跳轉後進行資料爬取

阿新 • • 發佈：2018-12-20

因為一開始的網站爬取的是一個href，所以需要去跳轉一下，即發一個Request

<a href="https://XXX.com.cn/w/2018-11-24/doc-ihpevhck4340972.html">你好</a>

以下是自己的程式碼：

def parse(self, response):
    href_set = []
    list = response.xpath("//div[@style='display:none;']//li/a/@href").extract()    #獲取href
    for i in range(0, 50, 1):   # 留下前50條資料
        href_set.append(list[i])
    for href in href_set:
        yield scrapy.Request(url=href, callback=self.new_parse)
        #就是這個Request請求了一個新的url，完成之後回撥new_parse函式，進一步處理

def new_parse(self, response):
    myitem = TutorialItem()
    myitem['article_title'] = response.xpath("//h1[@class='main-title']/text()").extract()
    myitem['article_content'] = response.xpath("//div[@class='article']//p/text()").extract()
    # 獲取第一張圖片，可能無圖
    myitem['article_image'] = response.xpath("//div[@class='img_wrapper']//img/@src").extract_first()
    # 把自己的item丟擲給pipeline
    yield myitem

整體的思路就是通過parse的自動呼叫去獲得href，之後用Request請求獲取新網頁內容，進一步處理。

如果爬的網頁有 n 層href，那就呼叫 n 次Request，直到請求到自己想要獲得資料的網頁才進行爬取處理，不然就一直Request，進行跳轉訪問(我的只有一層href，即調一次href)

其實內建函式parse的原理也類似

scrapy網頁跳轉後進行資料爬取

因為一開始的網站爬取的是一個href，所以需要去跳轉一下，即發一個Request <a href="https://XXX.com.cn/w/2018-11-24/doc-ihpevhck4340972.html">你好</a> 以下是自己的程式碼：

132 scrapy框架的認識, 移動端資料爬取, 多執行緒

主要內容: spider: 寫的特別好https://www.cnblogs.com/x-pyue/p/7795315.html 1 多執行緒資料爬取 import requests from lxml import etree import random import re f

Python進行資料爬取

1.基本的爬蟲架構主要包括排程器，URL管理器，網頁下載器，網頁解析器這些部分，實現價值資料的獲取。1.1 URL管理器對待抓取的URL集合和已抓取的URL集合進行管理，避免重複抓取和迴圈抓取。主要有5個部分的功能，判斷待新增URL是否在容器中、新增新

html5之間跳轉頁面傳參，獲取資料以及跳轉後就執行頁面的js程式碼

本次解決的內容如標題：html5之間跳轉頁面傳資料以及跳轉後就執行頁面的js程式碼舉個我的栗子：就是點選視訊圖片描述後，跳轉到播放該視訊的h5，因為跳轉後視訊播放頁面video標籤需要播放地址，一個視訊的話可以寫死地址，多個視訊的話，就要想寫幾十個h5...想想就難受，所以就需要兩個網頁之

關於jQuery Mobile頁面跳轉後網頁不重新整理問題

$.mobile.changePage("03.php"); //手機網頁式跳轉轉跳後，網頁CSS，JS事件都沒有反應，要重新整理一次網頁行有用 $.mobile.changePage這種方式，

Scrapy爬蟲-大資料爬取時記憶體過大的解決辦法(轉)

scrapy有兩個佇列：記憶體佇列和磁碟佇列. 最簡單的辦法，設定持久化吧(-s JOBDIR選項)，可以通過磁碟佇列檢視request。 scrapy crawl somespider -s JOBDIR=myspider 執行scrapy後，會在

實現html5專案跳轉並傳資料到安卓，在activity之間進行傳輸

1、html5中的jsp內容設定為： <input id="print" type="button" class="button basebutton bigbutton" value="列印" > <input id="ycTest" onclick=

react native使用react-navigation跳轉後多頁面資料傳遞總結

前言最近在將後臺的一個管理系統修改成手機app，使用react-native，後端使用的是thinkphp 3.2.3．原本採用的傳統的thinkphp模板標籤渲染頁面，加上js來實現的一套管理系統，現在需要全部手機app，原先跟我說是給我練手的，但是我怎麼

react-router與react-redux跳轉後保存store數據(基於"react-router": "^2.8.0")

spa imp pan item 介紹評論 tdi else mount 1.router引入 import { Route, IndexRoute, Router, hashHistory, browserHistory } from ‘react-router‘;

頁面刷新跳轉後，導航欄高亮顯示跳轉前的點擊位置

欄目 storage 加載 null 隱藏 nload 二級 date split 需求：比如有一個二級或三四級的菜單欄，頁面不跳轉時實現高亮顯示是很容易的，網上有很多這樣的素材。但是頁面一跳轉，新頁面可就記不住你在上一個頁面點擊的位置了，也就不可能高亮顯示。並且很多時候，

給當前頁或者跳轉後頁面的導航欄添加選中樣式

cat oca [0 ddc == list ring this ref $("ul.nav-list li a").each(function () { //$("ul.nav-list li").removeClass("active");

SpringMVC中redirect跳轉後如何保存Model中的數據？

bsp edi nbsp app delete del 支持 msg shtml @RequestMapping(value = "delete-user", method = RequestMethod.POST) public String deleteUser(Lon

vue2.0跳轉後頁面滾動條BUG

document 滾動 blog scrolltop def route body watch pan export default { watch:{ ‘$route‘:function(to,from){

keep-alive 路由跳轉後不刷新頁面

-a this 之前一次 ram 並且觸發卸載但是使用keep-alive記住了狀態通過路由跳轉並且攜帶了參數，之前this.$route.params.list卸載mounted中，第一次進入能夠更新，但是後面再次進入就不會更新了。借用別人的話當引入kee

使用Servlet制作簡單登錄驗證，response下載文件與網頁跳轉

servlet java tomcat http 制作一個登錄驗證：之前已經介紹過Servlet的開發，和HttpServletRequest、HttpServletResponse中的大部分常用方法。現在我們可以通過這幾個知識點制作一個簡單的登錄驗證，這個登錄驗證需要連接數據庫，因為用戶名和

網頁跳轉的多種方式

div gpo oca href ror ava 網頁跳轉 .com ech 通用 Header函數 header("Location: http://www.guanwei.org"); exit; header(‘Refresh:3,Url=other.php‘

【微信ticket跳轉】手機瀏覽器網頁跳轉到微信內置瀏覽器打開

blank turn 12c weixin net 瀏覽器界面一個問題【微信ticket跳轉】手機瀏覽器網頁跳轉到微信內置瀏覽器打開起始不少人已經關註到了招行的智能客服：http://xyk.cmbchina.com/Latte/wx/20150520wkf?fr

網站的導航菜單遠擇一個欄目跳轉後，為導航菜單的這個欄目增加選中的樣式的思路

code location 進行 ret 增加 str nav win clas 比如一個二級菜單，當選中二級菜單時候那麽可以將其父級元素進行展開顯示，同時父級元素的其他同級元素是縮起來的，選中的代碼思路如下： /** * 導航菜單 */ $(document).re

js如何獲取window.location.href跳轉後查詢字符串的值？

fun click ear func ren htm 獲取 earch cli $("#worked_count").parent().attr("onClick","window.location.href=‘view/warn/task_list.html?task_s

解決springmvc中使用redirect跳轉後https變為http

spa class src set dir edi 兼容 setview 圖片方法一：配置文件修改ViewResolver的 redirectHttp10Compatible 屬性，這個屬性是為了兼容 http1.0協議。 <bean id="viewResol

scrapy網頁跳轉後進行資料爬取

相關推薦