攻防世界-web高階區-Training-WWW-Robots
前置知識
搜尋引擎
所謂搜尋引擎,就是根據使用者需求與一定演算法,運用特定策略從網際網路檢索出制定資訊反饋給使用者的一門檢索技術。搜尋引擎依託於多種技術,如網路爬蟲技術、檢索排序技術、網頁處理技術、大資料處理技術、自然語言處理技術等,為資訊檢索使用者提供快速、高相關性的資訊服務。搜尋引擎技術的核心模組一般包括爬蟲、索引、檢索和排序等,同時可新增其他一系列輔助模組,以為使用者創造更好的網路使用環境。
網路爬蟲
網路爬蟲(又稱為網頁蜘蛛,網路機器人,在FOAF社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。
robots.txt
robots.txt是一個協議,而不是一個命令。robots.txt是搜尋引擎中訪問網站的時候要檢視的第一個檔案。robots.txt檔案告訴蜘蛛程式在伺服器上什麼檔案是可以被檢視的。
當一個搜尋蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜尋機器人就會按照該檔案中的內容來確定訪問的範圍;如果該檔案不存在,所有的搜尋蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。百度官方建議,僅當您的網站包含不希望被搜尋引擎收錄的內容時,才需要使用robots.txt檔案。如果您希望搜尋引擎收錄網站上所有內容,請勿建立robots.txt檔案。
robots.txt必須放置在一個站點的根目錄下,而且檔名必須全部小寫。
語法:最簡單的 robots.txt 檔案使用兩條規則:
· User-Agent: 適用下列規則的漫遊器
· Disallow: 要攔截的網頁
如果其他網站連結了您robots.txt檔案中設定的禁止收錄的網頁,那麼這些網頁仍然可能會出現在百度的搜尋結果中,但您的網頁上的內容不會被抓取、建入索引和顯示,百度搜索結果中展示的僅是其他網站對您相關網頁的描述。
我們常用的搜尋引擎型別有: (User-agent區分大小寫)
google蜘蛛:Googlebot
百度蜘蛛:Baiduspider
yahoo蜘蛛:Yahoo!slurp
alexa蜘蛛:ia_archiver
bing蜘蛛:MSNbot
altavista蜘蛛:scooter
lycos蜘蛛:lycos_spider_(t-rex)
alltheweb蜘蛛:fast-webcrawler
inktomi蜘蛛: slurp
Soso蜘蛛:Sosospider
Google Adsense蜘蛛:Mediapartners-Google
有道蜘蛛:YoudaoBot
robots.txt檔案的寫法
User-agent: * 這裡的代表的所有的搜尋引擎種類,是一個萬用字元
Disallow: /admin/ 這裡定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這裡定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這裡定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為字尾的URL(包含子目錄)。
Disallow: /? 禁止訪問網站中所有的動態頁面
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab資料夾下面的adc.html檔案。
Allow: /cgi-bin/ 這裡定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這裡定義是允許爬尋tmp的整個目錄
Allow: .htm$ 僅允許訪問以".htm"為字尾的URL。
Allow: .gif$ 允許抓取網頁和gif格式圖片
robots.txt檔案用法舉例
例1. 禁止所有搜尋引擎訪問網站的任何部分
User-agent: *
Disallow: /
例項分析:淘寶網的 Robots.txt檔案
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
很顯然淘寶不允許百度的機器人訪問其網站下其所有的目錄。
例2. 允許所有的robot訪問 (或者也可以建一個空檔案 “/robots.txt” file)
User-agent: *
Allow:
例3. 禁止某個搜尋引擎的訪問
User-agent: BadBot
Disallow: /
例4. 允許某個搜尋引擎的訪問
User-agent: Baiduspider
allow:/
更多參考robots.txt 檔案詳解_passport_daizi的部落格-CSDN部落格
解題過程
開啟網站後
在url後面新增/Robots.txt
然後在最初url後新增f10g.php
得到flag