攻防世界-web高階區-Training-WWW-Robots

阿新 • • 發佈：2021-08-20

前置知識

搜尋引擎

所謂搜尋引擎，就是根據使用者需求與一定演算法，運用特定策略從網際網路檢索出制定資訊反饋給使用者的一門檢索技術。搜尋引擎依託於多種技術，如網路爬蟲技術、檢索排序技術、網頁處理技術、大資料處理技術、自然語言處理技術等，為資訊檢索使用者提供快速、高相關性的資訊服務。搜尋引擎技術的核心模組一般包括爬蟲、索引、檢索和排序等，同時可新增其他一系列輔助模組，以為使用者創造更好的網路使用環境。

網路爬蟲

網路爬蟲（又稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。

robots.txt

robots.txt是一個協議，而不是一個命令。robots.txt是搜尋引擎中訪問網站的時候要檢視的第一個檔案。robots.txt檔案告訴蜘蛛程式在伺服器上什麼檔案是可以被檢視的。

　　當一個搜尋蜘蛛訪問一個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果存在，搜尋機器人就會按照該檔案中的內容來確定訪問的範圍；如果該檔案不存在，所有的搜尋蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。百度官方建議，僅當您的網站包含不希望被搜尋引擎收錄的內容時，才需要使用robots.txt檔案。如果您希望搜尋引擎收錄網站上所有內容，請勿建立robots.txt檔案。

　　robots.txt必須放置在一個站點的根目錄下，而且檔名必須全部小寫。

　　語法：最簡單的 robots.txt 檔案使用兩條規則：

　　· User-Agent: 適用下列規則的漫遊器

　　· Disallow: 要攔截的網頁

　　如果其他網站連結了您robots.txt檔案中設定的禁止收錄的網頁，那麼這些網頁仍然可能會出現在百度的搜尋結果中，但您的網頁上的內容不會被抓取、建入索引和顯示，百度搜索結果中展示的僅是其他網站對您相關網頁的描述。

我們常用的搜尋引擎型別有： (User-agent區分大小寫)

　　google蜘蛛：Googlebot

　　百度蜘蛛：Baiduspider

　　yahoo蜘蛛：Yahoo!slurp

　　alexa蜘蛛：ia_archiver

　　bing蜘蛛：MSNbot

　　altavista蜘蛛：scooter

　　lycos蜘蛛：lycos_spider_(t-rex)

　　alltheweb蜘蛛：fast-webcrawler

　　inktomi蜘蛛： slurp

　　Soso蜘蛛:Sosospider

　　Google Adsense蜘蛛:Mediapartners-Google

　　有道蜘蛛:YoudaoBot

robots.txt檔案的寫法
　　User-agent: * 這裡的代表的所有的搜尋引擎種類，是一個萬用字元

　　Disallow: /admin/ 這裡定義是禁止爬尋admin目錄下面的目錄

　　Disallow: /require/ 這裡定義是禁止爬尋require目錄下面的目錄

　　Disallow: /ABC/ 這裡定義是禁止爬尋ABC目錄下面的目錄

　　Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為字尾的URL(包含子目錄)。

　　Disallow: /? 禁止訪問網站中所有的動態頁面

　　Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片

　　Disallow:/ab/adc.html 禁止爬取ab資料夾下面的adc.html檔案。

　　Allow: /cgi-bin/　這裡定義是允許爬尋cgi-bin目錄下面的目錄

　　Allow: /tmp 這裡定義是允許爬尋tmp的整個目錄

　　Allow: .htm$ 僅允許訪問以".htm"為字尾的URL。

　　Allow: .gif$ 允許抓取網頁和gif格式圖片

robots.txt檔案用法舉例
　　例1. 禁止所有搜尋引擎訪問網站的任何部分

　　User-agent: *

　　Disallow: /

　　例項分析：淘寶網的 Robots.txt檔案

　　User-agent: Baiduspider

　　Disallow: /

　　User-agent: baiduspider

　　Disallow: /

　　很顯然淘寶不允許百度的機器人訪問其網站下其所有的目錄。

　　例2. 允許所有的robot訪問 (或者也可以建一個空檔案 “/robots.txt” file)

　　User-agent: *

　　Allow:

　　例3. 禁止某個搜尋引擎的訪問

　　User-agent: BadBot

　　Disallow: /

　　例4. 允許某個搜尋引擎的訪問

　　User-agent: Baiduspider

　　allow:/

解題過程

開啟網站後

在url後面新增/Robots.txt

然後在最初url後新增f10g.php

得到flag

攻防世界-web高階區-Training-WWW-Robots

前置知識

搜尋引擎

網路爬蟲

robots.txt

解題過程

攻防世界-web高階區-Training-WWW-Robots

攻防世界-web高階區-php_rce

攻防世界-web-高手進階區017-supersqli

xctf攻防世界—Web新手練習區view_source單題思路

xctf攻防世界—Web新手練習區 writeup

攻防世界 WEB 高手進階區 HCTF 2018 warmup Writeup

攻防世界 WEB 高手進階區 tinyctf-2014 NaNNaNNaNNaN-Batman Writeup

攻防世界 WEB 高手進階區 NSCTF web2 Writeup

攻防世界web進階（一）

攻防世界 - Web進階（二）

攻防世界-web-unfinish（sql二次注入）

攻防世界-web-php_rce（ThinkPHP 5.0命令執行漏洞）

攻防世界-web-ics-07（PHP弱型別、linux目錄結構特性繞過檔案型別過濾)

攻防世界-web-Web_php_wrong_nginx_config（繞過登入、目錄瀏覽、後門利用）

攻防世界-web-comment（密碼爆破、.git洩漏、程式碼審計、sql二次注入）

攻防世界-Web進階-supersqli

攻防世界re高手區 Mysterious WP

攻防世界-web PHP2

攻防世界-web進階-Web_php_include

攻防世界-web-favorite_number（php5.5的陣列key溢位、換行符繞過正則跨行匹配、inode號繞過檔名過濾、檔案輸出繞過正則）

攻防世界-web高階區-Training-WWW-Robots

前置知識

搜尋引擎

網路爬蟲

robots.txt

解題過程

相關推薦