【反爬】之雲鎖伺服器安全反爬

阿新 • • 發佈：2021-10-14

什麼是雲鎖？

雲鎖其實是個伺服器安全軟體，主業也不是反爬蟲，不過有一條是可以防止cc攻擊，而爬蟲行為就像是頻次不高的cc攻擊，因而直接請求目標站並不能返回目標內容。

雲鎖如何反爬蟲？

（1）封禁高頻IP
（2）放個cookie

# -*- coding: UTF-8 -*-

import os
import sys
from spiders.market_supervision_penalty.govement_penalty_base_spider import govement_penalty_base_spider
from utils.common_util import *
import 
 datetime
import time
from bs4 import BeautifulSoup
from spiders.base_spiders.base_spider import *
from urllib.parse import urlencode
from config.proxy.config import *
from utils.date_util import current_datetime


class nmg_market_gov_hlbe(govement_penalty_base_spider):

    name = "nmg_market_gov_hlbe 
"

    def __init__(self, increment=None, *args, **kwargs):
        super(nmg_market_gov_hlbe, self).__init__(*args, **kwargs)

        self.increment = increment

        self.headers = {
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9 
',
            'Accept-Encoding': 'gzip, deflate',
            'Accept-Language': 'zh-CN,zh;q=0.9',
            'Host': 'scjdglj.hlbe.gov.cn',
            'Referer': 'http://scjdglj.hlbe.gov.cn/chufa/qiangzhi2/',
            'Upgrade-Insecure-Requests': '1',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36',
        }


    def start_requests(self):
        index_url = "http://scjdglj.hlbe.gov.cn/chufa/qiangzhi2/"
        yield scrapy.Request(url=index_url, method='GET', headers=self.headers,
                             encoding="utf-8", dont_filter=True)

    def parse(self, response):
        resp_url = response.url
        resp_meta = copy.deepcopy(response.meta)
        try:
            resp_js = '''
            var screen = {
                width : 1920,
                height: 1080
            }

            var cookie = null;
            var location = null;
            var window = {
                location: {
                    href: 'http://scjdglj.hlbe.gov.cn/chufa/qiangzhi2/'
                }
            }

            function stringToHex(str) {
                var val = "";
                for (var i = 0; i < str.length; i++) {
                    if (val == "") val = str.charCodeAt(i).toString(16); else val += str.charCodeAt(i).toString(16);
                }
                return val;
            }



            function YunSuoAutoJump() {
                var width = screen.width;
                var height = screen.height;
                var screendate = width + "," + height;
                var curlocation = window.location.href;
                if (-1 == curlocation.indexOf("_security_verify_")) {
                    cookie = "srcurl=" + stringToHex(window.location.href) + ";path=/;";
                }
                location = stringToHex(screendate)
                return [location , cookie]
            }

                        '''
            scurl = pyv8_engine_service(resp_js, functionName='YunSuoAutoJump').split(',')[1].split(';')[0]
            header = deepCopy(self.headers)
            cookie = response.headers["Set-Cookie"].decode().split(";")[0]
            header["cookie"] = cookie + ';' + scurl
            cookie_url = 'http://scjdglj.hlbe.gov.cn/chufa/qiangzhi2/?security_verify_data=313932302c31303830'
            yield scrapy.Request(url=cookie_url, method='GET', headers=header,meta={**resp_meta,'cookie':cookie},
                                 encoding="utf-8", dont_filter=True,callback=self.parse_scurl)
        except:
            traceback.print_exc()
            self.logger.info(f"parse error url: {resp_url}")

    def parse_scurl(self, response):
        resp_url = response.url
        resp_meta = copy.deepcopy(response.meta)
        try:
            resp_soup = BeautifulSoup(response.text, 'html5lib')
            cookie_str, coolie_dict = getSetcookie2Str(response)
            if "security_session_mid_verify" in cookie_str:
                header = deepCopy(self.headers)
                header["cookie"] = cookie_str
                if "list"  in str(resp_meta):
                    yield scrapy.Request(url=resp_meta['list'], method='GET',headers=header,
                                         encoding="utf-8", dont_filter=True, callback=self.parse_list, meta=resp_meta)
                elif "detail" in str(resp_meta):
                    yield scrapy.Request(url=resp_meta['detail'], method='GET',headers=header,
                                         encoding="utf-8", dont_filter=True, callback=self.parse_detail, meta=resp_meta)
                else:
                    yield scrapy.Request(url='http://scjdglj.hlbe.gov.cn/chufa/qiangzhi2/', method='GET', headers=header,
                                         encoding="utf-8", dont_filter=True, callback=self.parse_number,meta=resp_meta)
            else:
                header = deepCopy(self.headers)
                header["cookie"] = resp_meta['cookie']
                yield scrapy.Request(url=resp_url, method='GET', headers=self.headers,meta=resp_meta,
                                     encoding="utf-8", dont_filter=True, callback=self.parse_scurl)
        except:
            traceback.print_exc()
            self.logger.info(f"parse error url: {resp_url}")

    def parse_number(self, response):
        resp_url = response.url
        resp_meta = copy.deepcopy(response.meta)
        try:
            resp_soup = BeautifulSoup(response.text, 'html5lib')
            search_number = 2 if self.increment else 2
            for index in range(1, search_number + 1):
                if index > 1:
                    send_url = 'http://scjdglj.hlbe.gov.cn/chufa/qiangzhi2/{}/'.format(index)
                    yield scrapy.Request(url=send_url, method='GET', headers=self.headers,
                                         encoding="utf-8", dont_filter=True, callback=self.parse_list)
                else:
                    yield scrapy.Request(url=resp_url, method='GET', headers=self.headers,
                                         encoding="utf-8", dont_filter=True, callback=self.parse_list)
        except:
            traceback.print_exc()
            self.logger.info(f"parse error url: {resp_url}")

    def parse_list(self, response):
        resp_url = response.url
        try:
            resp_soup = BeautifulSoup(response.text, 'html5lib')
            if "security_verify_" not in response.text:
                detail_list = resp_soup.select('div.w670 li')[1:21]
                for detail in detail_list:
                    if "href" in str(detail):
                        detail_url = response.urljoin(detail.select_one('a')['href'])
                        meta = {
                            "pub_time":detail.select('div')[-1].text.strip(),
                            'docno': detail.select_one('div').text,
                            'fileno':detail.select('div')[1].text
                        }
                        yield scrapy.Request(url=detail_url, method='GET', headers=self.headers,meta=meta,
                                             encoding="utf-8", dont_filter=True, callback=self.parse_detail)
            else:
                yield scrapy.Request(url=resp_url, method='GET', headers=self.headers, meta={"list":resp_url},
                                     encoding="utf-8", dont_filter=True, callback=self.parse)
        except:
            traceback.print_exc()
            self.logger.info(f"parse error url: {resp_url}")

【反爬】之雲鎖伺服器安全反爬

什麼是雲鎖？雲鎖其實是個伺服器安全軟體，主業也不是反爬蟲，不過有一條是可以防止cc攻擊，而爬蟲行為就像是頻次不高的cc攻擊，因而直接請求目標站並不能返回目標內容。

【IIS問題】解決HTTP500內部伺服器錯誤辦法之歸納

今天在檢視電腦裡的圖片時發現了這組圖片，是關於解決安裝IIS後出現HTTP500內部伺服器錯誤問題的一組捕捉圖片，應該說我安裝IIS也有好多次了，每次安裝完後都要出現這個問題，奇怪的是，雖然是同一個問題，

【故障公告】阿里雲 RDS 例項 CPU 100% 故障引發全站無法正常訪問

非常抱歉，今天凌晨 3:20~8:30 左右，我們使用的阿里雲 RDS 例項 SQL Server 2016 標準版突然出現 CPU 100% 故障，造成全站無法正常訪問，由此給您帶來巨大的麻煩，請您諒解。

【Android休眠】之Android休眠機制

受不了xxxx噁心人的行為，遂搬遷至部落格園。始發：2016-12-14 21:42:13 一、休眠概述

【Android休眠】之PowerKey喚醒源實現

受不了xxxx噁心人的行為，遂搬遷至部落格園。始發：2016-12-15 22:19:01 版本資訊：

【Android休眠】之AutoSleep

受不了xxxx噁心人的行為，遂搬遷至部落格園。始發：2016-12-16 13:12:15 版本資訊：

【Python + Appium】之元素定位總結(待更新)

一、ID定位 uiautomatorviewer裡面的：resource-id driver.find_element(By.ID,\"com.csks.businesses:id/tv_number\").click()

【訊息佇列】之 RabbitMQ安裝

RabbitMQ 環境 centos 7 安裝 vi /etc/yum.repos.d/rabbitmq-erlang.repo [rabbitmq-erlang] name=rabbitmq-erlang

【日誌收集】之Loki

Loki 收集日誌元件 loki 服務端 promtail 收集器Agent grafana 展示部署 Loki [root@localhost ~]# cat loki-local-config.yaml

【日程四】阿里雲IOT平臺 + Spring Boot 為前端實現資料介面

一、地圖上一篇我們引入了Mybatis + Mysql 的支援，並且實現了User的增刪查改。這篇我們有了新需求，需要刪掉有關user的一切，只保留思想。

【轉載】【Codec系列】之常用位元速率控制演算法分析

來源：部落格園，作者：SoaringLee_fighting 連結：https://www.cnblogs.com/SoaringLee/p/10532170.html

【開源專案】之智慧樓宇服務機器人

2019獨角獸企業重金招聘Python工程師標準>>> 第一章專案總體介紹目前，機器人的用途已經滲入到社會生活的方方面面，在工業生產中，機器人可以代替人類完成惡劣環境下的貨物搬運以及裝置檢測等任

【開源專案】之智慧燈

2019獨角獸企業重金招聘Python工程師標準>>> 我有個七彩燈，可以用app控制顏色，完全DIY，完全開源。你喜歡嗎？原創申明：轉載請註明出處：http://club.gizwits.com/thread-2830-1-1.html 作

【漏洞復現】Shiro<=1.2.4反序列化漏洞

0x01 概述 Shiro簡介 Apache Shiro是一個強大且易用的Java安全框架,執行身份驗證、授權、密碼和會話管理。使用Shiro的易於理解的API，您可以快速、輕鬆地獲得任何應用程式，從最小的移動應用程式到最大的網路和企業

【小工具】阿里雲視訊上傳工具

配置檔案如下：ID和Key是配置阿里雲的引數，上傳視訊的網頁地址，提供了本地呼叫api上傳的方法，也可以不用配置網頁地址，手動去阿里雲後臺上傳。

【Python自動化】之運用Git+jenkins整合來執行展示pytest+allure測試報告

目錄：一、安裝allure　　二、生成allure報告三、結合jenkins來整合pytest+allure 四、

【docker基礎】之安裝MySQL

檢視本地是否已經安裝 docker images # 輸出 REPOSITORYTAGIMAGE IDCREATEDSIZE hello-worldlatestbf756fb1ae6511 months ago13.3kB

【常用API】之執行緒池ThreadPoolExecutor

執行緒池：ThreadPoolExecutor 預設先建立好指定個數的執行緒，放入執行緒池中。需要使用的時候，先到池子裡面，那出來，使用。用完在還回去，不要銷燬掉。

【MySQL基礎】之儲存過程和函式

儲存過程事先經過編譯並存儲在資料庫中的一段sql語句的集合。簡化應用開發人員的很多工作減少資料在資料庫和應用伺服器之間的傳輸提高了資料處理的效率

【HTML+CSS】之如何改變複選框樣式

技術標籤：程式碼例項常用技巧htmlcsscss3 描述: 通過CSS改變複選框預設樣式 input[type = "checkbox"]{

【反爬】之雲鎖伺服器安全反爬

什麼是雲鎖？

相關推薦