一個爬蟲的故事：這是人乾的事兒？

阿新 • • 發佈：2020-10-10

爬蟲原理

我是一個爬蟲，每天穿行於網際網路之上，爬取我需要的一切。

說起來還要感謝HTTP協議，因為它，全世界的網站和瀏覽器才能夠連線通訊，而我也是藉助HTTP協議，獲取我想要的資料。

我只需要偽裝成一個瀏覽器，向伺服器傳送HTTP請求，就能拿到網頁HTML檔案。

接著，我再按照HTML的格式規範，去解析其中的圖片<img>、連結<a>、表單<form>等等我關注的資訊。

獲取連結標籤以後，我又可以進一步爬取連結背後的網頁，如此反覆，要不了多久，一個網站中暴露出來的內容我就能爬個乾淨。

當然了，咱們做爬蟲也還是有底線的。幹我們這一行，有一個約定俗成的規定，那就是Robots協議。

只要你在網站的根目錄下放置一個叫robots.txt的檔案，裡面寫上哪些目錄禁止訪問，我就會繞道而行，就像這樣：

User-agent: *

Disallow: /a/

Disallow: /b/

Disallow: /c/

就像程式設計師們經常互相鄙視一樣，在咱們爬蟲的圈子裡，也存在鄙視鏈。

地位最高的要數搜尋引擎的爬蟲了，他們高高在上，正大光明的爬，各個網站歡迎還來不及，都想被他們收錄到搜尋引擎之中，給網站帶來流量。這些爬蟲，都是圈子裡的大佬，我們惹不起。

另外有一些爬蟲，他們有的不遵守robots協議，隨意亂爬，有的一天天的淨知道爬美女圖片，把人家伺服器爬崩潰了，這些爬蟲我們也是看不起的。

像我這樣老實本分的爬蟲，平日的工作就是爬取一些網站的資料，像購物網站、點評網站等等。雖然我們很守規矩，但這些個網站還是很不待見我們，為了拿到資料，我們展開了曠日持久的拉鋸戰。

反爬蟲技術

現在很多網站都上雲了，雲上的資源可昂貴了，CPU、記憶體、儲存這些都價格不菲，尤其是網路頻寬，價格是真心貴。

那些網站不待見咱們這些爬蟲也就可以理解了，我們不像搜尋引擎爬蟲可以給他們帶來好處，相反，還會消耗他們的伺服器效能，花掉他們寶貴的流量，那可是白花花的人民幣，誰不心疼啊？

所以這些網站加了一個措施：一旦在HTTP請求中的user-agent欄位發現這是一個爬蟲，那就不搭理我們了。

這個user-agent是HTTP協議中表示客戶端名字的欄位，那個時候我剛剛入行，沒什麼經驗，不懂得偽裝，很容易就被發現。

為了能夠繼續爬資料，我只好改頭換面，偽裝成了瀏覽器的名字，圈子裡有的兄弟還偽裝成了搜尋引擎爬蟲的名字，我可不像他們那樣沒下線。

這一招管用了沒多久，這些網站就升級了策略，通過我們的行為來識別是不是真的瀏覽器。我們畢竟是程式，那速度比人類點選快多了，網站一旦發現我們短時間內發起了很多請求，那就掐斷連線。

我只好降低爬取的頻率，避免被拉入黑名單。

有些網站更狠，在網頁裡面插入一些假的圖片，只有幾個畫素那種，人類的眼睛是看不見的，但是我們不知道啊，對我來說都是<img>標籤，我一訪問就中計了！立刻被拉入黑名單。

沒有辦法，攤上這種事，我只好想辦法換個IP再去爬，真是難頂。

聽說圈子裡有些大佬用上了分散式技術，組團去爬，很多個IP地址，其中一個或者幾個封了也不用怕，我真是很羨慕。

前後端分離

在我的職業生涯中，遇到過一些奇怪的網站，明明網頁中有資料，但是我一訪問拿到的HTML中啥也沒有，一度讓我很鬱悶。

後來才知道，原來他們用上了一個叫前後端分離開發的技術，資料不再從伺服器渲染到HTML網頁中，而是瀏覽器通過單獨的API介面拿到後再動態加載出來，難怪我拿到的只是一個空殼子。

為了拿到資料，我只好也學著去請求這些資料介面，不過因為這些網站都有API閘道器，會檢查請求的Token或者Authorization之類的認證欄位，再加上我不知道他們的介面引數格式，導致我經常拿不到資料。

到了最近兩年，我拿到的網頁HTML越來越簡單了，在瀏覽器中豐富多彩的頁面，一檢視原始碼竟然只有簡單幾行，真是見了鬼了！

終於有一天，一個前輩告訴我，現在流行單頁應用SPA了，頁面全都是在前端動態生成的，拿到的HTML根本沒有價值。

這簡直欺人太甚了！

一不做二不休，我決定弄一個真正的瀏覽器進來，這個內嵌的瀏覽器沒有介面，專門為我服務，嵌入到我的程式中，讓他去真正的渲染網頁，渲染完成後我再去取資料！

這是真正意義上模擬人類去訪問網站了，再也不用模擬繁瑣的資料介面訪問，也不用擔心單頁應用，前端渲染就前端渲染，我再也不怕了！

驗證碼

到後來，不知道是誰發明的，網站們紛紛用上了一種叫驗證碼的技術，給我們出了難題。

開始的驗證碼還算比較簡單，一般都是些簡單的數字、英文字元做了些變形，就像這樣：

圈子裡很快有大佬教我們用文字識別技術OCR來自動識別這種驗證碼，我也折騰了一下，費了老大勁終於可以識別出來，準確率不敢說100%，99%還是有的。

不過沒多久，這驗證碼就變得越來越複雜，什麼漢字識別，物體識別，滑動解鎖，一個比一個難，根本超出了我的理解範圍，你瞧瞧下面這些驗證碼，這是人乾的事兒嗎？

哎，這還真是人才能幹的事，不是我們爬蟲能幹的~

如今，這些網站的反爬蟲技術越來越先進，我們能發揮的空間被一步步擠壓。

前段時間，有個愣頭青爬蟲把一家公司的伺服器給爬崩潰了，把人家正常業務都弄停掉了，他還被抓了起來，現在監管越來越嚴，搞得大家人心惶惶。

內憂外患不斷，不少爬蟲兄弟失業的失業，轉行的轉行，爬蟲這碗飯，真是越來越不好吃了。。。

往期TOP5文章

我是Redis，MySQL大哥被我害慘了！

CPU明明8個核，網絡卡為啥拼命折騰一號核？

因為一個跨域請求，我差點丟了飯碗

完了！CPU一味求快出事兒了！

雜湊表哪家強？幾大程式語言吵起來了！

一個爬蟲的故事：這是人乾的事兒？

爬蟲原理我是一個爬蟲，每天穿行於網際網路之上，爬取我需要的一切。說起來還要感謝HTTP協議，因為它，全世界的網站和瀏覽器才能夠連線通訊，而我也是藉助HTTP協議，獲取我想要的資料。我只需要偽裝成一個瀏覽器，向伺服器傳送HTTP請求，就能拿到網頁HTML檔案。接著，我再按照HTML的格式規範，去解析

3星|《你的品牌需要一個講故事的人》：有理論沒案例

品牌營銷演講稿歐萊雅自己的學生 cci 統計數據 system per 你的品牌需要一個講故事的人（全球一線品牌的致勝秘訣）全書強調品牌營銷需要用故事打動用戶，說了許多講故事的技巧。看得出來作者真的比較有經驗。全書一大缺陷是沒有任何實際的商業案例，也沒有

運維人的故事：一個老運維的心裡話

作者簡介譚志宇，運維總監@胡萊遊戲熟悉運維自動化，擅長架構設計，熟悉各種雲平臺技術和產品、負責設計開發運維平臺管理體系。正文其實我本沒有想過要寫這篇文字，但有次和業內的一位技術朋友聊起當前網際網路技術的話題，聊了很多東西，從網際網路產業的崛起、蓬勃發展、未來的走向又聊到網際網路技

第1次作業：這是我的一個響亮的標題X！

技巧封面 ref 學好計算機迷茫畢業問問題為什麽對他 1.我是回答問題的部分 part 1：從小學開始，我就覺得寫作文是一件很痛苦的事情。（痛苦ing）所以呢，選擇工科好像就是理所當然的。至於為什麽選擇計算機，主要原因就是不知道應該選什麽，正好看到計算機專

老男孩：這是一個改變我的命運的一封原汁原味情書！

老男孩思想 linux oldboy 沒有人能隨隨便便成功，大部分早期成功的人都是曾經遭遇了不同尋常的痛苦所致，馬雲、俞敏洪都是如此；老男孩也是因為追女朋友失敗，從而激發了創業證明自己的欲望！——老男孩自述本文出自 “從運維屌絲到CEO逆襲路” 博客，請務必保留此出處http://oldboy8.

Java程序員：這是一個最好的時代，也是一個最壞的時代

Java狄更斯的《雙城記》有一句話：這是一個最好的時代，也是一個最壞的時代。對大多數人來說，這是一個最壞的時代。因為變化太大、太快，遠遠超過普通人的想象力和承受力。對極少數人來說，這也是一個最好的時代。因為只要敏銳的抓住了機會，然後善於利用，就可能達到一個前所未有的高度。作為技術工作者（程序員），我們享受

每一個關註支付的人都在這裏

有一個 link In 17. emf text neu 思維 strong 做支付的人大概都想過：「如果有一個專門講支付的學院就好了」、「如果有行業峰會就好了」、「如果能聽到業內大咖的分享就好了」……Ping++ 太懂行業內從業人員的痛了：碎片化的支付通道、繁瑣的認證、空

揭秘：技術人突破瓶頸期，離不開這幾個關鍵點

設置良好的發展 ring demo 號稱有關 esp 技術交流群作為一個技術人，不知道你有沒有遇到過下面的情況？“我學不到新東西”“我感覺沒啥成長”“每天都在重復勞動”……其實，每個技術從業者，多多少少都會遇到工作或學習瓶頸期。產生瓶頸期，往往不是因為我們不夠努力，

已知有十六支男子足球隊參加2008 北京奧運會。寫一個程式，把這16 支球隊隨機分為4 個組。注：參賽球隊列表見附錄注2：使用Math.random 來產生隨機數。（也可以使用其它方法） 2. 2

/** * Created by whp on 2018/7/30. */ public class Test { public static void main(String[] args) { String[] str={"象牙海岸","阿根廷","澳大利亞","塞爾

網際網路公司員工都使用假名？阿里程式設計師：每個人心中都有一個江湖

騰訊和阿里都是當今網際網路屆的巨頭之一，想必大家都知道。騰訊和阿里兩個公司雖然風格上大不相同，但是卻都一個相同的公司傳統。那就是騰訊員工，必須給自己起一個英文名；而阿里員工則是給自己起一個武俠花名。最著名的就是：騰訊公司控股董事會主席兼執行長——馬化騰——Pony

阿里巴巴首席架構師被採訪：這幾類人，不適合當一名程式設計師！

很多人都覺得程式設計入門特別難，特別在剛開始的時候，敢問切入一個新的行業不付出點努力，不堅持下不深刻的挖掘下自己的潛力，都會覺得難得不行。程式設計學習的成本相對比較低廉，基本上一本書，一臺電腦就可以開始自己的自學之路，每天都有很多信心滿滿的上路學程式設計的，每天都有垂頭喪氣放棄繼續學習的，程式設計基

Go 語言的下一個大版本：Go 2.0 被安排上了（全面相容1.X，改進錯誤處理和泛型這兩大主題）

今年 8 月 Go 開發團隊公佈了 Go 2.0 的設計草案，包括錯誤處理和泛型這兩大主題。現在備受矚目的 Go 2.0 又有了新動向 —— 昨日 Go 開發團隊在其官方部落格表示，Go 2 已經被安排上了！目前 Go 2 已進入確定變更提案的階段，並公佈了提案評估流程。廢話不多說，先

Go 語言的下一個大版本：Go 2.0 被安排上了（全面兼容1.X，改進錯誤處理和泛型這兩大主題）

.org leader utf8 驅動 cleanup 周期一份早期下一個今年 8 月 Go 開發團隊公布了 Go 2.0 的設計草案，包括錯誤處理和泛型這兩大主題。現在備受矚目的 Go 2.0 又有了新動向 —— 昨日 Go 開發團隊在其官

#程式設計師頂著高溫去面試，結果HR告知招到人，網友：這傻缺HR敗人品

在求職這條路上，除非你是人才和技術大牛能得到公司的邀請和青睞。大多數情況下求職者都是處於被動的，簡歷被HR篩選抽中參加面試，在多輪面試中被層層考察，最後拿到offer。這種面試還算是比較正規的流程，拿不拿得到offer靠的是求職者的能力。就怕有些不正規的公司HR打著招人的幌子，隨意邀請求職者面試來完

程式設計師吐槽：在一個不到五千人的網際網路小廠，年底裁員比京東更狠

一名程式設計師在某網際網路公司工作，到年底卻遇到了裁員，於是吐槽了一番：年底遇到了跟京東一樣的待遇，裁員，在一個不到5000人的網際網路小廠，不同的是，我們公司裁員的指標是20%比京東更狠。現在hr讓我自動提離職申請，說這個月的考勤自由，有點焦慮，有點慌。各位大佬，遇到這種情況是怎麼處理的呢？

某公司招人要求博士學歷卻只給6千薪資，程式設計師：這是鬧著玩麼？

一般公司招聘都不會要求博士學歷，一來給不起高薪資，二來博士學歷是不屑於去小公司從事的，其往往會選擇高校，研究所等機構。不過像華為這樣的大公司，其每年都會招聘博士投入前沿技術研究。無獨有偶，一家位於深圳福田的網際網路公司在招聘網站上放出了一個職位，招聘程式設計師，具體做前端開發工作，要求博士學歷，但薪

一個用訊息佇列的人，不知道為啥用 MQ，這就有點尷尬

訊息佇列為什麼寫這篇文章? 博主有兩位朋友分別是小A和小B: 小A，工作於傳統軟體行業(某社保局的軟體外包公司)，每天工作內容就是和產品聊聊需求，改改業務邏輯。再不然就是和運營聊聊天，寫幾個SQL，生成下報表。又或者接到客服的通知，某某功能故障了，改改資料，然後下班部署上

運維人的故事：以新人角度思考運維，不斷反思與精進

從實習生到公司最年輕的部門副經理，高曉超一步步穩紮穩打——在他身上看不到領導的架子，卻意外地像新人一樣對誰都謙和有禮，而對於資料中心的運維工作，他有自己獨特的理解與詮釋。 2011年，即將畢業的高曉超抱著試一試的心情，撥通了國裕資料人力資源部的電話，一番熱情的陳述後，他獲得了一份面試的

Odoo故事：Odoo實施心得(一個跨專業應屆生實施ERP的艱辛之路)

微塵注 Odoo 10 中國發佈會(2016年12月1號)召開在即，我卻疏離優雅又強大的Odoo很久了。本文是一個客戶的故事，作者作為一名跨專業的應屆生，臨事而懼，勤勉持重，終不負努力。從業者有此態度，相信Odoo的生態圈會越來越好。原文：北京-wang 整理：蘇州-微

Java面試集錦：面試官只問一個問題，30幾人集體懵圈

有的時候面試官的問題真的層出不窮，今天就又遇到了一個奇葩的問題（你是面試官你說了算）。面試時候，直接給拿出了一個特別“複雜”的異常（雖然程式碼並不多），但是全部去面試的人直接就蒙圈了。事後我趕緊惡補了一下Java異常方面的所有資料，整理一番，分享給大家，希望大家能夠引以為戒。別再犯錯。介紹知識點之

一個爬蟲的故事：這是人乾的事兒？

爬蟲原理

反爬蟲技術

前後端分離

驗證碼

往期TOP5文章

相關推薦