爬蟲之Scrapy遞迴爬取網頁資訊

阿新 • • 發佈：2019-02-05

# -*- coding: utf-8 -*-
import re

import scrapy

from zhipin.items import ZhipinItem


class BossZhipinSpider(scrapy.Spider):
    name = 'boss_zhipin'
    allowed_domains = ['https://www.zhipin.com']
    url = 'https://www.zhipin.com/c101020100/h_101020100/?query=python&page=%s'
    offset = 1
    start_urls = [url % offset]

    # https: // www.zhipin.com / c101020100 / h_101020100 /?query = python & page = 1 

    # https: // www.zhipin.com / c101020100 / h_101020100 /?query = python & page = 10

    def parse(self, response):
        item = ZhipinItem()
        for response_part in response.css('#main > div > div.job-list > ul').extract():
            company_size = []
            company_info = re.findall('<em class="vline"></em>(.*?)</p>' 
, response_part)
            # 算出列表長度，拿到偶數位的資料
            # for idx in range(1, len(company_info)+1, 2):
            for idx, val in enumerate(company_info):
                if int(idx) % 2 != 0:
                    if '<em class="vline"></em>' in company_info[idx]:
                        new_item = company_info[idx].rsplit('</em>' 
)[-1]
                        company_size.append(new_item)
                    else:
                        # 沒帶</em>直接加到company_size中
                        company_size.append(company_info[idx])
            result = zip(re.findall('title">(.*?)</div>', response_part),
                         re.findall('<span class="red">(.*?)</span>', response_part),
                         re.findall('ka="search_list_company_\d+_custompage" target="_blank">(.*?)</a>', response_part),
                         company_size,
                         re.findall('釋出於(.*?)</p>', response_part))
            for job_item in result:
                """
                處理元組資料，返回item
                """
                item['job_title'] = job_item[0]
                item['job_salary'] = job_item[1]
                item['job_company'] = job_item[2]
                item['company_size'] = job_item[3]
                item['publish_date'] = job_item[4]
                yield item

        if self.offset < 10:
            self.offset += 1
            yield scrapy.Request(self.url % self.offset, callback=self.parse, dont_filter=True)

在遞迴爬取過程中遇到一個warning：

2018-07-24 16:38:09 [scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'www.zhipin.com':

問題出現原因：

因為 Request中請求的 URL 和 allowed_domains 中定義的域名衝突，所以將Request中請求的URL過濾掉了，無法請求

問題解決方案，有個引數dont_filter：

yield scrapy.Request(self.url % self.offset, callback=self.parse, dont_filter=True)

遞迴無法停止？分析下條件，將程式碼縮排下就可以了！！！

爬蟲之Scrapy遞迴爬取網頁資訊

# -*- coding: utf-8 -*- import re import scrapy from zhipin.items import ZhipinItem class BossZhipinSpider(scrapy.Spider):

Scrapy爬蟲教程之URL解析與遞迴爬取

前面介紹了Scrapy如何實現一個最簡單的爬蟲，但是這個Demo裡只是對一個頁面進行了抓取。在實際應用中，爬蟲一個重要功能是”發現新頁面”，然後遞迴的讓爬取操作進行下去。發現新頁面的方法很簡單，我們首先定義一個爬蟲的入口URL地址，比如《Scrapy入門教程》中的

爬蟲練習之遞迴爬取入口頁面下所有連結(scrapy-redis分散式)

1. 實現scrapy-redis前的一些準備 pycharm中安裝scrapy和scrapy-redis模組 pycharm中開啟scrapy-redis原始碼所在資料夾同scrapy用法,修改四個檔案items, settings, pipelin

利用scrapy框架遞迴爬取菜譜網站

介紹：最近學習完scrapy框架後，對整個執行過程有了進一步的瞭解熟悉。於是想著利用該框架對食譜網站上的美食圖片進行抓取，並且分別按照各自的命名進行儲存。 1、網頁分析爬取的網站是www.xinshipu.com,在爬取的過程中我發現使用xpath對網頁進行解析時總是找不到對應的標籤

scrapy爬蟲之item/itemloader機制爬取豆瓣電影top250

簡介前面的博文網頁的基本解析流程就是先通過 css/xpath 方法進行解析，然後再把值封裝到 Item 中，如果有特殊需要的話還要對解析到的資料進行轉換處理，這樣當解析程式碼或者資料轉換要求過多的時候，會導致程式碼量變得極為龐大，從而降低了可維護性。同時在

Java爬蟲學習《一、爬取網頁URL》

導包，如果是用的maven，新增依賴： <dependency> <groupId>commons-httpclient</groupId> <artifactId>commons

python 爬蟲如何通過scrapy框架簡單爬取網站資訊--以51job為例

Scrapy框架三大優點： Scrapy框架是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。 Scrapy

python爬蟲框架Scrapy安裝與爬取示例

環境：python3.6，自帶pip # 安裝 pip install scrapy 自動下載所需元件 Installing collected packages: lxml, cssselect, six, w3lib, parsel, pyasn1, attrs, idn

java爬蟲爬取網頁資訊

今天接觸到一個專案中非要讓我用爬蟲來爬取一個學校網頁的新聞頁面加子頁面所有文字資訊，畢竟需求就是上帝，然後查詢了一會之後發現並不難就是匹配字元、標籤是有些麻煩好了直接上pom.xml &

爬蟲小白——利用pycharm爬取網頁內容

概述：這是一個利用pycharm在phthon環境下做的一個簡單爬蟲分享，主要通過對豆瓣音樂top250的歌名、作者（專輯）的爬取來分析爬蟲原理什麼是爬蟲？我們要學會爬蟲，首先要知道什麼是爬蟲。網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者

爬蟲（進階），爬取網頁資訊並寫入json檔案

import requests # python HTTP客戶端庫，編寫爬蟲和測試伺服器響應資料會用到的類庫 import re import json from bs4 import BeautifulSoup import copy print('正在爬取網頁連結……'

爬蟲-----selenium模塊自動爬取網頁資源

pri 輸入文字豆瓣移動相關 append 字符 scrollto value selenium介紹與使用 1 selenium介紹　　什麽是selenium？selenium是Python的一個第三方庫，對外提供的接口可以操作瀏覽器，然後讓瀏覽器完成自動化的操

第一週、學會爬取網頁資訊總結

目標：爬取網頁，獲得自己需要的資訊步驟：1. 匯入需要的模組2. 利用request向目標網站獲得網頁資訊3. 用BeautifulSoup解析所獲得的網頁 3. 獲得需要的資訊所在的標籤內容 4. 精簡標籤獲得關鍵資訊5. 獲得關鍵資訊之後，再處理（比如比大小）1、匯入需要的模組BeautifulSoup模

python 3.3 爬取網頁資訊小例

# -*- coding:gb2312 -*- import urllib.request source_stram = urllib.request.urlopen("http://www.12306.cn/mormhweb/kyfw/") #save_path=

python根據標籤爬取網頁資訊

這裡以豆瓣TOP250為案例，爬取網頁資訊import requests#python HTTP客戶端庫，編寫爬蟲和測試伺服器響應資料會用到的類庫 import re from bs4 import B

[python] 常用正則表示式爬取網頁資訊及分析HTML標籤總結

這篇文章主要是介紹Python爬取網頁資訊時，經常使用的正則表示式及方法。它是一篇總結性文章，實用性比較大，主要解決自己遇到的爬蟲問題，也希望對你有所幫助~ 當然如果會Selenium基於自動化測試爬蟲、BeautifulSoup分析網頁DOM節點，這就更方便了，但本文更多

Python爬取網頁資訊並且儲存到MySQL資料庫

今天在執行一小Python爬取某網頁的資訊的時候，結果，報錯了，根據錯誤，應該是資料庫連線失敗，密碼有錯誤檢查程式密碼應該沒錯呀，然後直接訪問資料庫，我的天，試了好多次，都快放棄自己了，昨晚明明成功的呀然後開啟Navicat，檢視昨晚設定的連線屬性，沒錯呀，密碼就是

python爬取網頁資訊

一、簡單瞭解html網頁 1.推薦瀏覽器：使用Chrome瀏覽器，在檢查元素中可以看到HTML程式碼和css樣式。 2.網頁構成：網頁的內容主要包括三個部分：javascript主要針對功能，html針對結構，css針對樣式。在本地檔案中通常是三部分，html+imag

HtmlUnit、httpclient、jsoup爬取網頁資訊並解析

1.爬取頁面效果圖點選"百度一下"按鈕前頁面點選"百度一下"按鈕後頁面天涯社群登入頁面登入進去之後個人主頁二、具體實現程式碼 HtmlUnit(底層也

Python3爬蟲學習4：降爬取的資訊儲存到本地

將爬取的資訊儲存到本地之前我們都是將爬取的資料直接列印到了控制檯上，這樣顯然不利於我們對資料的分析利用，也不利於儲存，所以現在就來看一下如何將爬取的資料儲存到本地硬碟。 1.對.txt檔案的操作讀寫檔案是最常見的操作之一，python3 內建了讀寫

爬蟲之Scrapy遞迴爬取網頁資訊

在遞迴爬取過程中遇到一個warning：

問題出現原因：

問題解決方案，有個引數dont_filter：

遞迴無法停止？分析下條件，將程式碼縮排下就可以了！！！

相關推薦