爬蟲與反爬蟲的較量-圖片反爬

阿新 • • 發佈：2019-03-12

前言補充感覺成功轉行限制壁紙 coo 網站

前言

在去年6月吧，剛轉行做爬蟲的時候，經常拿圖片網還有小說網練手，無意中發現一個壁紙網站叫做娟娟壁紙網，有好多高清壁紙（這不是廣告，哈哈）

當時是寫了全站爬取的代碼。以為自己大工告成的時候，結果剛運行，就發現爬出來的圖片不對。

技術分享圖片

每張圖片都是這樣，我以為遇到了IP限制，於是使用代理，結果仍然是失敗。

難道是請求頭做了限制？好，那我全部帶上。結果依舊失敗。

當時也是忙於找工作,也沒靜下心來仔細想，今天回過頭來繼續盤它。

雖然最後巧妙的用了get請求爬取成功,但是還是沒搞明白原圖反爬的原因。

下面來看一看究竟是怎麽回事。

分析網站

技術分享圖片

附上鏈接：http://www.jj20.com/bz/zrfg/ssrh/5565.html

技術分享圖片

圖片url在網站html代碼中，我爬取的也是這張圖片。

復制圖片鏈接到瀏覽器訪問。

技術分享圖片

正常，瀏覽器能加載，爬蟲為什麽就不能下載。刷新圖片，結果圖片沒了，出現了和爬蟲一樣的結果。

技術分享圖片

回到網站，刷新，結果，圖片沒了，加載不出來。

技術分享圖片

假設是緩存導致的，清理一下瀏覽器的cookie和緩存。再次刷新，圖片又出來了。

爬蟲直接請求鏈接會失敗，具體的反爬策略，我們也不清楚。默認為圖片只能在網站上加載，單獨訪問會失敗。

從網站分析圖片，網站裏可能有下載鏈接。

技術分享圖片

生成壁紙，根據分辨率來的，之前網站爬的應該都是原圖，點進去看一下。

技術分享圖片

刷新，還是這張圖，可以重復訪問。

http://cj.jj20.com/d/cj0.php?p=/up/allimg/611/031213123016/130312123016-0.jpg&w=1536&h=864

這是一個get請求，提交了三個參數p(圖片鏈接)，w(寬)，h(高),生成一張1536乘864的圖片。

單張圖片爬取

（寫一個demo，測試了一下）

import  requests
url = "http://cj.jj20.com/d/cj0.php?p=/up/allimg/611/031213123016/130312123016-0.jpg&w=1536&h=864"
res = requests.get(url).content # 
以二進制字節碼保存
with open(‘1.jpg‘,‘wb‘) as f:
    f.write(res)

技術分享圖片

（單張圖片爬取成功）寬和高都是可以自己改的，看自己桌面分辨率自己改。

本文主要介紹爬取思路，全站爬取代碼後續再補充。

對於上面的網站原圖反爬，我至今不是特別明白是什麽原因，希望了解這方面的大牛，可以留言告知，我會盡快回復。

溫馨提示

如果您對本文有疑問，請在評論部分留言，我會在最短時間回復。
如果本文幫助了您，也請評論關註，作為對我的一份鼓勵。
如果您感覺我寫的有問題，也請批評指正，我會盡量修改。
本文為原創，轉載請註明出處。
本文所有代碼僅供學習參考，在爬取的同時考慮對方的服務器承受能力，適可而止。

爬蟲與反爬蟲的較量-圖片反爬

前言補充感覺成功轉行限制壁紙 coo 網站前言在去年6月吧，剛轉行做爬蟲的時候，經常拿圖片網還有小說網練手，無意中發現一個壁紙網站叫做娟娟壁紙網，有好多高清壁紙（這不是廣告，哈哈）當時是寫了全站爬取的代碼。以為自己大工告成的時候，結果剛運行，就發現爬出

聚焦爬蟲與通用爬蟲的區別

解析自動優化數據庫告訴統計交易 taobao 多媒體為什麽要學習爬蟲？學習爬蟲，可以私人訂制一個搜索引擎。大數據時代，要進行數據分析，首先要有數據源。對於很多SEO從業者來說，從而可以更好地進行搜索引擎優化。什麽是網絡爬蟲？模擬客戶端發送網絡請求，

Spider-聚焦爬蟲與通用爬蟲的區別

為什麼要學習爬蟲？學習爬蟲，可以私人訂製一個搜尋引擎。大資料時代，要進行資料分析，首先要有資料來源。對於很多SEO從業者來說，從而可以更好地進行搜尋引擎優化。什麼是網路爬蟲？模擬客戶端傳送網路請求，接收請求對應的資料，按照一定的規則，自動抓取網際網路資訊的程式。只要是客戶端(瀏覽器)能做

聚焦爬蟲與通用爬蟲

為什麼要學習爬蟲？學習爬蟲，可以私人訂製一個搜尋引擎。大資料時代，要進行資料分析，首先要有資料來源。對於很多SEO從業者來說，從而可以更好地進行搜尋引擎優化。什麼是網路爬蟲？模擬客戶端傳送網路請求，接收請求對應的資料，按照一定的規則，自動抓取

關於java爬蟲與python爬蟲

前言很多人說學習資料探勘，先從爬蟲入手。接觸了大大小小的專案後，發現數據的獲取是資料建模前的一項非常重要的活兒。在此，我需要先總結一些爬蟲的流程，分別有python版的以及java版的。 url請求 java版的程式碼如下： public Stri

python爬蟲之反爬蟲情況下的煎蛋網圖片爬取初步探索

本次爬蟲網址：http://jandan.net/ooxx 前言：前段時間一直在折騰基於qqbot的QQ機器人，昨天用itchat在微信上也寫了一個機器人，相比webqq，微信的web端功能比較豐富，圖片、檔案等都可以傳輸。今天閒來無事準備給寫個爬蟲豐富微信機器

爬蟲與反爬蟲

團隊不定足夠 image 上線向上互聯真心高級技巧轉自：https://mp.weixin.qq.com/s/-w-yC6PCdTOpfKS8HZEleA 前言爬蟲與反爬蟲，是一個很不陽光的行業。這裏說的不陽光，有兩個含義。第一是，這

爬蟲實踐---悅音臺mv排行榜與簡單反爬蟲技術應用

代碼 int logs 1.8 mac for html req 3.5 由於要抓取的是悅音臺mv的排行榜，這個排行榜是實時更新的，如果要求不停地抓取，這將有可能導致悅音臺官方采用反爬蟲的技術將ip給封掉。所以這裏要應用一些反爬蟲相關知識。目標網址：http://vcha

【Python】爬蟲與反爬蟲大戰

公司學校爬取 nbsp 識別防止 toc 壓力自動爬蟲與發爬蟲的廝殺，一方為了拿到數據，一方為了防止爬蟲拿到數據，誰是最後的贏家？重新理解爬蟲中的一些概念爬蟲:自動獲取網站數據的程序反爬蟲：使用技術手段防止爬蟲程序爬取數據誤傷：反爬蟲技術將普通用戶識別為爬蟲，

爬取豆瓣電影儲存到數據庫MONGDB中以及反反爬蟲

ica p s latest tel mpat side nload self. pro 1.代碼如下： doubanmoive.py # -*- coding: utf-8 -*- import scrapy from douban.items import Douba

我是怎樣把反反爬蟲把數據爬下來的

ie 6 nav 解決讓我 tom safari 判斷 head 5.0 　　最近看到公司的商務一條一條的從某個網站上復制數據到excel裏,於是乎就打算寫個爬蟲把那個網站的數據都爬下來.一般的流程是模擬用戶訪問->獲取數據->解析頁面元素->balab

關於爬蟲與反爬蟲簡略方案

pcl 訪問失效一定的提供服務 user res sniffer .com 像安全與黑客從來都是相輔相成一樣。爬蟲與反爬蟲也是在雙方程序員的鬥智鬥勇的過程不斷發展和成長的。抓包抓包的目的：分析出協議請求使用的數據，請求接口，參數等等。常用的抓包分析工具：

最簡單的網絡圖片的爬取 --Pyhon網絡爬蟲與信息獲取

文件 spa lose man spl roo () pen image 1、本次要爬取的圖片url http://www.nxl123.cn/static/imgs/php.jpg 2、代碼部分 import requestsimport osurl = "ht

爬蟲與反爬蟲與反反爬蟲簡介

info 其他 splay 獲取服務器壓力動態分配服務器取數據用戶一.基本概念簡介　　1.爬蟲：　　　　　　自動獲取網站數據的程序，關鍵是批量的獲取。　　2.反爬蟲：　　　　　　使用技術手段防止爬蟲程序的方法。　　3.誤傷：　　　　　　反爬技術將普通

獨家｜資料造假、爬蟲與反爬蟲戰爭暴露出哪些行業現狀？

一、馬蜂窩“造假門”事件所暴露的行業潛規則上週，估值據傳已高達25億美元、新一輪融資接近尾聲的明星獨角獸公司馬蜂窩陷入了資料造假醜聞。一個由3名年輕海龜組成不足1年、名不見經傳的乎睿資料把馬蜂窩涉嫌資料造假的行為逐條拎出來在社交媒體上傳播。根據乎睿資料團隊提供的資訊，

那些年，我爬過的北科(八)——反反爬蟲之驗證碼識別

寫在前面本章將要介紹一下如何識別簡單的驗證碼。會涉及到一些影象的概念以及機器學習的知識。我們本次識別的驗證碼來自csdn，長相如下：在學習之前，我們先安裝本章需要的三個庫：影象庫Pillow、機器學習庫Scikit-Learn、科學計算庫Numpy。通過pip命令就可以進行安裝。

那些年，我爬過的北科(六)——反反爬蟲之js渲染

反爬蟲和反反爬蟲？從本章開始，我們將要進入反反爬蟲篇的內容。感覺如果是第一聽到這個名字的讀者肯定是懵逼的狀態。現在我們先來介紹一下什麼是爬蟲、反爬蟲、反反爬蟲。爬蟲其實就是我們前面所學的程式碼，直接使用requests.get("http://xxx.com")就能拿到網站的原始碼。但是很多時

京東商品列表反爬解析+下拉url介面構造(反爬蟲)

由於京東運用ajax載入頁面，正常的爬取頁面不能獲得全部頁面內容，之前做過用Scrapy + Selenium實現京東商品列表摘要資訊的爬取，今天又研究了一下其下拉後接口url的構造，終於發現了其中的奧祕！經過分析可以發現：第二次截獲的ur有三處需要構造

天天聊爬蟲，今天我們來聊聊反爬

反爬蟲的幾重措施 1.IP限制如果是個人編寫的爬蟲，IP可能是固定的，那麼發現某個IP請求過於頻繁並且短時間內訪問大量的頁面，有爬蟲的嫌疑，作為網站的管理或者運維人員，你可能就得想辦法禁止這個IP地址訪問你的網頁了。那麼也就是說這個IP發出的請求在

應對js反爬蟲的嘗試，爬取中國人民銀行

應對js反爬蟲的嘗試，爬取中國人民銀行在 - 簡書-爬蟲資料分析學習交流 - 微信群裡有位朋友Jacky提到爬取中國銀行遇到的問題，一時興起便做了嘗試。首先還原問

爬蟲與反爬蟲的較量-圖片反爬

前言

分析網站

單張圖片爬取

溫馨提示

相關推薦