1. 程式人生 > >scrapy中介軟體 部署 日誌

scrapy中介軟體 部署 日誌

IP代理:

  1. 抓取網上免費代理,測試
  2. 代理供應商提供的代理(收費)
  3. ADSL撥號,每次重新撥號會更換本地IP,但是會有1~3秒延遲
  4. VPN/VPS 虛擬主機(翻牆爬取國外網站)
  5. Tor網路(暗網) 洋蔥瀏覽器

自動生成user-agent

pip install fake_useragent
匯入:
from fake_useragent import UserAgent

ua_obj = UserAgent()
ua_obj.ie
ua_obj.chrome
ua_obj.random

  1. 如果有重複圖片、檔案,儲存到本地只有一份,後續改名只能成功一次,後面再改名。

  2. 用商品名稱做為圖片名儲存,如果圖片名裡有"/",則儲存時會當作路徑結點使用。
    file_name = “Huawei Mate20 Pro 8GB/128GB 月光灰”
    if “/” in file_name:
    file_name.replace("/", “-”)

模擬登陸:

  1. 直接傳送賬戶密碼的POST請求,記錄cookie,再發送其他頁面的請求
  2. 先發送登入頁面的get請求,獲取登入引數,再發送登入的post請求,提交賬戶密碼和登入引數,並記錄cookie,再發送其他頁面的請求
  3. 直接將cookies儲存在請求報頭裡,直接傳送附帶登入狀態的請求,獲取頁面。

Scrapyd遠端部署和執行爬蟲、停止爬蟲、監控爬蟲執行狀態

服務端:

  1. 安裝客戶端和伺服器端的工具:
    埠: 6800
    客戶端:pip install scrapyd-client
    伺服器端:pip install scrapyd

  2. 伺服器端開啟scrapyd服務(提供一個監聽6800埠的web)
    修改 default_scrapyd.conf

    配置檔案裡的 bind_address 為 0.0.0.0
    再開啟服務
    ubuntu: $ scrapyd

以下全部是客戶端的操作:

  1. 修改scrapy專案的scrapy.cfg檔案,新增 配置名稱和url
    [deploy:scrapyd_Tencent3]
    url = http://192.168.37.80:6800

  2. 將專案部署到指定scrapyd伺服器上(每次本地有任何變動,必須重新部署一次)
    scrapyd-deploy scrapyd_Tencent3 -p Tencent3

  3. 啟動指定 scrapyd服務上的 指定專案的 指定爬蟲(會生成該爬蟲的jobid值,用於區分)
    curl http://192.168.37.80:6800/schedule.json

    -d project=Tencent3 -d spider=tencent_crawl

  4. 停止指定 scrapyd服務上的 指定專案的 指定爬蟲
    curl http://192.168.37.80:6800/cancel.json -d project=Tencent3 -d job=jobid值

scrapyd-web

相關推薦

scrapy中介軟體 部署 日誌

IP代理: 抓取網上免費代理,測試 代理供應商提供的代理(收費) ADSL撥號,每次重新撥號會更換本地IP,但是會有1~3秒延遲 VPN/VPS 虛擬主機(翻牆爬取國外網站) Tor網路(暗網) 洋蔥瀏覽器 自動生成user-agent pip insta

python爬蟲之scrapy中介軟體介紹

一、概述   1.中介軟體的作用           在scrapy執行的整個過程中,對scrapy框架執行的某些步驟做一些適配自己專案的動作.      例如scrapy內建的HttpErrorMiddleware,可以在ht

Scrapy中介軟體應用

Scrapy中介軟體應用 代理ip中介軟體 這裡使用的代理ip是阿布雲:https://www.abuyun.com/ 絕無打廣告,也沒給我錢,純粹使用者體驗,而且註冊之後可以申請試用,試用時間可以向管理多次索要。 編寫自己的代理ip中介軟體 middlewares.py

Python爬蟲:Scrapy中介軟體middleware和Pipeline

Scrapy提供了可自定義2種中介軟體,1個數據處理器 名稱 作用 使用者設定 資料收集器(Item-Pipeline) 處理item 覆蓋 下載中介軟體(Downloader-M

三十二、scrapy中介軟體的使用

1. scrapy中介軟體的分類和作用 1.1 scrapy中介軟體的分類 根據scrapy執行流程中所在位置不同分為: 下載中介軟體 爬蟲中介軟體 1.2 scrapy中間的作用:預處理request和response物件 如對非200響應的

Jboss-7.1中介軟體部署

Jboss標準部署規範 系統版本:CentOS6.5 Jboss版本:jboss-as-7.1.1-Final Jboss下載地址:http://www.jboss.org/jbossas/down

【Gin-API系列】Gin中介軟體日誌模組(四)

日誌是程式開發中必不可少的模組,同時也是日常運維定位故障的最重要環節之一。一般日誌類的操作包括日誌採集,日誌查詢,日誌監控、日誌統計等等。本文,我們將介紹日誌模組在Gin中的使用。 ## Golang如何列印日誌 * 日誌列印需要滿足幾個條件 1. 重定向到日誌檔案 2. 區分日誌級別,一般有`DEBUG`,

Koa2學習系列09-記錄日誌——開發日誌中介軟體,記錄專案中的各種形式資訊

log 日誌中介軟體 最困難的事情就是認識自己。   在一個真實的專案中,開發只是整個投入的一小部分,版本迭代和後期維護佔了極其重要的部分。專案上線運轉起來之後,我們如何知道專案運轉的狀態呢?如何發現線上存在的問題,如何及時進行補救呢?記錄日誌就是解決困擾的關鍵方

Scrapy——5 下載中介軟體常用函式、scrapy怎麼對接selenium、常用的Setting內建設定有哪些

Scrapy——5   下載中介軟體常用的函式 Scrapy怎樣對接selenium 常用的setting內建設定   (Downloader Middleware)下載中介軟體常用函式有哪些  Scrapy怎樣對接Selenium 設定

Scrapy爬蟲 -- 編寫下載中介軟體,實現隨機User-Agent

Scrapy爬蟲 -- 編寫下載中介軟體,實現隨機User-Agent 實現步驟: 1. 在middlewares.p中,新建一個下載中介軟體; 2. 建立process_request方法(引擎傳送request物件到下載器時的回撥函式),實現隨機User-Agent的功能; 3.

徹底搞懂Scrapy中介軟體(二)

在上一篇文章中介紹了下載器中介軟體的一些簡單應用,現在再來通過案例說說如何使用下載器中介軟體整合Selenium、重試和處理請求異常。 在中介軟體中整合Selenium 對於一些很麻煩的非同步載入頁面,手動尋找它的後臺API代價可能太大。這種情況下可以使用Selenium和ChromeDriver或者Se

徹底搞懂Scrapy中介軟體(三)

在前面兩篇文章介紹了下載器中介軟體的使用,這篇文章將會介紹爬蟲中介軟體(Spider Middleware)的使用。 爬蟲中介軟體 爬蟲中介軟體的用法與下載器中介軟體非常相似,只是它們的作用物件不同。下載器中介軟體的作用物件是請求request和返回response;爬蟲中介軟體的作用物件是爬蟲,更具體地

docker容器日誌收集方案(方案N,其他中介軟體傳輸方案)

由於docker虛擬化的特殊性導致日誌收集方案的多樣性和複雜性下面接收幾個可能的方案 ​   這個方案各大公司都在用只不過傳輸方式大同小異 中介軟體使用kafka是肯定的,kafka的積壓與吞吐能力相當強悍,其實kafka就是專門為傳輸日誌設計的,鏈路當中可以對日誌進行壓縮等。 這裡與方案

web叢集部署(例項大於等於2個),nginx作為中介軟體時候,後端websocket有時候訊息無法傳遞給客戶端

最近公司有一個需求:新訂單需要及時提醒到後臺管理者,基於這一點我決定採用Websocket來實現。 當我把專案部署到生產環境的時候發現一個問題: 建立了Websocket連線後,每當有新的訂單發起,客戶端都會受到新訂單提醒。這時候就遇到一個問題,新訂單進來之後 客戶端有時候會有提醒 有時候卻

如何將報表服務部署到金蝶中介軟體

1. 獲取潤乾的應用包 demo(此應用包可從設計器安裝目錄…\report5\web\webapps 下獲取) 放到金蝶的…\AAS-V9.0\domains\mydomain\applications 目錄下 2. 放置資料庫的驅動包至…\AAS-V9.0\lib 目錄下或者在金蝶控制

scrapy Downloader Middlewares 中介軟體

class UserAgentMiddleware(object): """ Change User-Agent """ def process_request(self, request, spider): agent = random.choice(agents

在node中介軟體(微服務)架構中,用一個node去部署多個專案比較好,還是一個專案對應一個node比較好?

第一種: 一個專案對應一個node服務; 優點:前端跟node也是可以獨立開發,降低耦合,也可單獨部署; 缺點:一個專案對應一個node,專案多的話,維護不方便; 第二種:一個node下,部署多個專案,可以以這個node作為底盤,在點選進入專案時,讓其載入該專案

徹底搞懂Scrapy中介軟體(一)

中介軟體是Scrapy裡面的一個核心概念。使用中介軟體可以在爬蟲的請求發起之前或者請求返回之後對資料進行定製化修改,從而開發出適應不同情況的爬蟲。 “中介軟體”這個中文名字和前面章節講到的“中間人”只有一字之差。它們做的事情確實也非常相似。中介軟體和中間人都能在中途劫持資料,做一些修改再把資料傳遞出去。不同點

AgileEAS.NET SOA中介軟體平臺更新日誌 2015-04-28

一、前言      AgileEAS.NET SOA 中介軟體平臺是一款基於基於敏捷並行開發思想和Microsoft .Net構件(元件)開發技術而構建的一個快速開發應用平臺。用於幫助中小型軟體企業建立一條適合市場快速變化的開發團隊,以達到節省開發成本、縮短開發時間,快速適應市場變化的目的。      A

爬蟲2.5-scrapy框架-下載中介軟體

目錄 scrapy框架-下載中介軟體 scrapy框架-下載中介軟體 middlewares.py中有兩個類,一個是xxSpiderMiddleware類 一個是xxDownloaderMiddleware類,xx代表專案名,本次筆記主要記錄DownloaderMiddleware類的一些知識