1. 程式人生 > 其它 >攻防世界-web高階區-Training-WWW-Robots

攻防世界-web高階區-Training-WWW-Robots

前置知識

搜尋引擎

所謂搜尋引擎,就是根據使用者需求與一定演算法,運用特定策略從網際網路檢索出制定資訊反饋給使用者的一門檢索技術。搜尋引擎依託於多種技術,如網路爬蟲技術、檢索排序技術、網頁處理技術、大資料處理技術、自然語言處理技術等,為資訊檢索使用者提供快速、高相關性的資訊服務。搜尋引擎技術的核心模組一般包括爬蟲、索引、檢索和排序等,同時可新增其他一系列輔助模組,以為使用者創造更好的網路使用環境。

網路爬蟲

網路爬蟲(又稱為網頁蜘蛛,網路機器人,在FOAF社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。

robots.txt

robots.txt是一個協議,而不是一個命令。robots.txt是搜尋引擎中訪問網站的時候要檢視的第一個檔案。robots.txt檔案告訴蜘蛛程式在伺服器上什麼檔案是可以被檢視的。

  當一個搜尋蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜尋機器人就會按照該檔案中的內容來確定訪問的範圍;如果該檔案不存在,所有的搜尋蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。百度官方建議,僅當您的網站包含不希望被搜尋引擎收錄的內容時,才需要使用robots.txt檔案。如果您希望搜尋引擎收錄網站上所有內容,請勿建立robots.txt檔案。

  robots.txt必須放置在一個站點的根目錄下,而且檔名必須全部小寫。

  語法:最簡單的 robots.txt 檔案使用兩條規則:

  · User-Agent: 適用下列規則的漫遊器

  · Disallow: 要攔截的網頁

  如果其他網站連結了您robots.txt檔案中設定的禁止收錄的網頁,那麼這些網頁仍然可能會出現在百度的搜尋結果中,但您的網頁上的內容不會被抓取、建入索引和顯示,百度搜索結果中展示的僅是其他網站對您相關網頁的描述。

我們常用的搜尋引擎型別有: (User-agent區分大小寫)

  google蜘蛛:Googlebot

  百度蜘蛛:Baiduspider

  yahoo蜘蛛:Yahoo!slurp

  alexa蜘蛛:ia_archiver

  bing蜘蛛:MSNbot

  altavista蜘蛛:scooter

  lycos蜘蛛:lycos_spider_(t-rex)

  alltheweb蜘蛛:fast-webcrawler

  inktomi蜘蛛: slurp

  Soso蜘蛛:Sosospider

  Google Adsense蜘蛛:Mediapartners-Google

  有道蜘蛛:YoudaoBot

robots.txt檔案的寫法
  User-agent: * 這裡的代表的所有的搜尋引擎種類,是一個萬用字元

  Disallow: /admin/ 這裡定義是禁止爬尋admin目錄下面的目錄

  Disallow: /require/ 這裡定義是禁止爬尋require目錄下面的目錄

  Disallow: /ABC/ 這裡定義是禁止爬尋ABC目錄下面的目錄

  Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以".htm"為字尾的URL(包含子目錄)。

  Disallow: /? 禁止訪問網站中所有的動態頁面

  Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片

  Disallow:/ab/adc.html 禁止爬取ab資料夾下面的adc.html檔案。

  Allow: /cgi-bin/ 這裡定義是允許爬尋cgi-bin目錄下面的目錄

  Allow: /tmp 這裡定義是允許爬尋tmp的整個目錄

  Allow: .htm$ 僅允許訪問以".htm"為字尾的URL。

  Allow: .gif$ 允許抓取網頁和gif格式圖片

robots.txt檔案用法舉例
  例1. 禁止所有搜尋引擎訪問網站的任何部分

  User-agent: *

  Disallow: /

  例項分析:淘寶網的 Robots.txt檔案

  User-agent: Baiduspider

  Disallow: /

  User-agent: baiduspider

  Disallow: /

  很顯然淘寶不允許百度的機器人訪問其網站下其所有的目錄。

  例2. 允許所有的robot訪問 (或者也可以建一個空檔案 “/robots.txt” file)

  User-agent: *

  Allow:

  例3. 禁止某個搜尋引擎的訪問

  User-agent: BadBot

  Disallow: /

  例4. 允許某個搜尋引擎的訪問

  User-agent: Baiduspider

  allow:/

更多參考robots.txt 檔案詳解_passport_daizi的部落格-CSDN部落格

解題過程

開啟網站後

在url後面新增/Robots.txt

然後在最初url後新增f10g.php

得到flag