抓取網站小竅門 | robots.txt

阿新 • • 發佈：2019-01-10

在我抓取網站遇到瓶頸，想劍走偏鋒去解決時，常常會先去看下該網站的robots.txt檔案，有時會給你開啟另一扇抓取之門。

寫爬蟲有很多苦惱的事情，比如：
1.訪問頻次太高被限制；
2.如何大量發現該網站的URL；
3.如何抓取一個網站新產生的URL，等等；
在這裡插入圖片描述
這些問題都困擾著爬蟲選手，如果有大量離散IP和賬號，這些都不是問題，但是絕大部分公司都不具備這個條件的。
我們在工作中寫的爬蟲大多是一次性和臨時性的任務，需要你快速完成工作就好，當遇到上面情況，試著看下robots.txt檔案。

舉個栗子：
老闆給你佈置一個任務，把豆瓣每天新產生的影評，書評，小組帖子，同城帖子，個人日誌抓取下來。

初想一下，這任務得有多大，豆瓣有1.6億註冊使用者，光是抓取個人日誌這一項任務，每個人的主頁你至少每天要訪問一次。

這每天就得訪問1.6億次，小組/同城帖子等那些還沒算在內。

設計一個常規爬蟲，靠著那幾十個IP是完不成任務的。

初窺robots.txt
當老闆給你了上面的任務，靠著你這一兩杆槍，你怎麼完成，別給老闆講技術，他不懂，他只想要結果。

我們來看下豆瓣的robots.txt

https://www.douban.com/robots.txt
在這裡插入圖片描述
看圖片上面紅框處，是兩個sitemap檔案

開啟sitemap_updated_index檔案看一下：
在這裡插入圖片描述
裡面是一個個壓縮檔案，檔案裡面是豆瓣頭一天新產生的影評，書評，帖子等等，感興趣的可以去開啟壓縮檔案看一下。

也就是說每天你只需要訪問這個robots.txt裡的sitemap檔案就可以知道有哪些新產生的URL。

不用去遍歷豆瓣網站上那幾億個連結，極大節約了你的抓取時間和爬蟲設計複雜度，也降低了豆瓣網站的頻寬消耗，這是雙贏啊，哈哈。

上面通過robots.txt的sitemap檔案找到了抓取一個網站新產生URL的偏方。沿著該思路也能解決發現網站大量URL的問題。

再舉個栗子：
老闆又給你一個任務，老闆說上次抓豆瓣你說要大量IP才能搞定抓豆瓣每天新產生的帖子，這次給你1000個IP把天眼查上的幾千萬家企業工商資訊抓取下來。

看著這麼多IP你正留著口水，但是分析網站後發現這類網站的抓取入口很少(抓取入口是指頻道頁，聚合了很多連結的那種頁面)。

很容易就把儲備的URL抓完了，幹看著這麼多IP工作不飽滿。

如果一次效能找到這個網站幾萬乃至幾十萬個URL放進待抓佇列裡，就可以讓這麼多IP工作飽滿起來，不會偷懶了。

我們來看他的robots.txt檔案：

https://www.tianyancha.com/robots.txt

在這裡插入圖片描述

開啟紅框處的sitemap，裡面有3萬個公司的URL，上圖是1月3號生成的，那個URL是根據年月日生成的，你把URL改成1月2號，又能看到2號的sitemap裡的幾萬個公司URL，這樣就能發現十幾萬個種子URL供你抓取了。

PS：上面的sitemap其實也能解決抓取天眼查最近更新的，新產生URL的問題。

小小的一個取巧，既降低了爬蟲設計的複雜度，又降低了對方的頻寬消耗。

原文

抓取網站小竅門 | robots.txt

抓取網站小竅門 | robots.txt

劍走偏鋒，robots.txt快速抓取網站的小竅門

[記錄]Java網路爬蟲基礎和抓取網站資料的兩個小例項

ajax抓取網站接口圖片瀑布流筆記

使用PHP curl模擬瀏覽器抓取網站信息

爬蟲，可用於增加訪問量和抓取網站全頁內容

爬取網站小豬短租的少量資訊及詳細介紹--爬蟲案例篇

使用python抓取網站圖片，下載到本地

htmlunit做爬蟲繞過驗證碼抓取網站資料

使用爬蟲抓取網站非同步載入資料

PHP簡單爬蟲&HTML DOM解析器&抓取網站內容

使用javascript抓取網站資料

Nginx反爬蟲攻略：禁止某些User Agent抓取網站

Java爬蟲技術之繞過百度雲防護抓取網站內容

如何實現抓取網站訪客手機號的功能

Java爬蟲進階-phantomJS+selenium2抓取網站圖片和小說

如何通過URL抓取網站的資料

JAVA抓取網頁的圖片,JAVA利用正則表示式抓取網站圖片

抓取網站訪問者的QQ號碼

php遠端抓取網站圖片並儲存

抓取網站小竅門 | robots.txt

相關推薦