robots檢測外掛編寫

阿新 • • 發佈：2020-09-09

首先先把url分割

url = 'https://www.baidu.com/s?wd=123&rsv_spt=1&rsv_iqid=0x8d22781d000014ad&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_dl=tb&rsv_enter=0&rsv_sug3=3&rsv_sug1=2&rsv_sug7=100&rsv_btype=i&inputT=875&rsv_sug4=875'
ends = "robots.txt"

url = url.split('/')
print(url)

輸出

['https:', '', 'www.baidu.com', 's?wd=123&rsv_spt=1&rsv_iqid=0x8d22781d000014ad&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_dl=tb&rsv_enter=0&rsv_sug3=3&rsv_sug1=2&rsv_sug7=100&rsv_btype=i&inputT=875&rsv_sug4=875']

再使用資料清洗，取出前3個，用/連線起來再利用urljoin連線起來ends

from urllib.parse import urljoin

url = 'https://www.baidu.com/s?wd=123&rsv_spt=1&rsv_iqid=0x8d22781d000014ad&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_dl=tb&rsv_enter=0&rsv_sug3=3&rsv_sug1=2&rsv_sug7=100&rsv_btype=i&inputT=875&rsv_sug4=875'
ends = "robots.txt"

url = url.split('/')
url = '/'.join(url[:3])
url = urljoin(url,ends)
print(url)

輸出

https://www.baidu.com/robots.txt
現在得到了目標url再獲取robots.txt內容
匯入再打印出來

import requests
html = requests.get(url)
print(html.text)

列印結果為

G:\python3.8\python.exe "F:/python post/code/RobotsTest.py"
User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: MSNBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Baiduspider-image
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: YoudaoBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Sogou web spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Sogou inst spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Sogou spider2
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Sogou blog
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Sogou News Spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Sogou Orion spider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: ChinasoSpider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Sosospider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh


User-agent: yisouspider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: EasouSpider
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: *
Disallow: /


Process finished with exit code 0

現在把內容寫入robots.txt,再讀取出來判斷我們頭是否存在robots裡面的禁止列表
現在我們架設頭為Googlebot，來判斷是否存在

headers = {'user-agent':'Googlebot'}
with open('robots.txt','w',encoding='utf-8') as f:
    f.write(html.text)

with open('robots.txt','r',encoding='utf-8') as f:
    lines = f.readlines()
    for line in lines:
        line.strip().replace('\n','')

現在就再line裡面，再來判斷是否再line裡面,然後獲取disallow值，存入一個新的裡面,這裡來個標誌flag

lines = f.readlines()
    domain = []
    flag = False
    for line in lines:
        line.strip().replace('\n','')
        if headers['user-agent'] in line:
            flag = True
            continue
        elif line.startswith('Disallow'):
            if flag is True:
                domain.append(line.replace('Disallow',''))
        elif line is None or line == '':
            if flag is True:
                break

這裡來封裝一下完整程式碼

from urllib.parse import urljoin
import requests

# url = 'https://www.baidu.com/s?wd=123&rsv_spt=1&rsv_iqid=0x8d22781d000014ad&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_dl=tb&rsv_enter=0&rsv_sug3=3&rsv_sug1=2&rsv_sug7=100&rsv_btype=i&inputT=875&rsv_sug4=875'
# ends = "robots.txt"

class Robots:
    def __init__(self,url,Agent):
        self.Baseurl = url
        self.url = url
        self.headers = {'user-agent':Agent}
        self.ends = 'robots.txt'
        self.Dourl()
    def Dourl(self):
        url = self.url.split('/')
        url = '/'.join(url[:3])
        url = urljoin(url, self.ends)
        self.url = url

    def getRobots(self):
        html = requests.get(self.url)
        with open('robots.txt', 'w', encoding='utf-8') as f:
            f.write(html.text)

        with open('robots.txt', 'r', encoding='utf-8') as f:
            lines = f.readlines()
            domain = []
            flag = False
            for line in lines:
                line = line.strip().replace('\n', '')
                if self.headers['user-agent'] in line:
                    flag = True
                    continue
                elif line.startswith('Disallow'):
                    if flag is True:
                        domain.append(line.replace('Disallow: ',''))
                elif line is None or line == '':
                    if flag is True:
                        break
        for d in domain:
            if d in self.Baseurl:
                print("網站禁止爬取")
                return False
        return True

if __name__ == '__main__':
    url = input('url is >>')
    agent = input('agent is >>')
    # url = 'https://www.baidu.com/s?wd=123&rsv_spt=1&rsv_iqid=0xc6f64e0200000143&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_dl=tb&rsv_enter=0&rsv_sug3=3&rsv_sug1=1&rsv_sug7=100&rsv_btype=i&inputT=993&rsv_sug4=993'
    # agent = 'Googlebot'
    r = Robots(url, agent)
    print(r.getRobots())

F:\python post\code>python RobotsTest.py
url is >>https://www.baidu.com/s?wd=123&rsv_spt=1&rsv_iqid=0x8d22781d000014ad&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_dl=tb&rsv_enter=0&rsv_sug3=3&rsv_sug1=2&rsv_sug7=100&rsv_btype=i&inputT=875&rsv_sug4=875
agent is >>Googlebot
網站禁止爬取
False

F:\python post\code>

robots檢測外掛編寫

首先先把url分割 url = \'https://www.baidu.com/s?wd=123&rsv_spt=1&rsv_iqid=0x8d22781d000014ad&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_dl=tb&rs

乾坤外掛編寫免費教程-同意加機器人好友外掛-含原始碼

學習內容簡介本教程主要實現: 學習編寫同意別人加機器人好友和同意別人拉機器人入群功能

Burp Suite 引數蒐集外掛編寫(python)

參考文章 portswigger. 開發“屬於你自己”的Burp Suite外掛碰到的問題環境問題教程一大把，下載 jython，然後 BURP 內選擇該環境即可

魔獸世界外掛編寫入門第一個外掛

今天我們來寫一個魔獸世界外掛，通過這篇文章你可以寫出一個自己的外掛。

BurpSuite外掛編寫——輔助漏洞測試

BurpSuite外掛基本編寫原理 BurpSuite外掛的編寫流程並不複雜，主要在實現官方的介面，進而實現對應的功能；首先必須實現IBurpExtender介面，並重寫registerExtenderCallbacks方法，比如最簡單的burp外掛程式碼

689 vue3自定義指令，Teleport元件，外掛編寫

認識自定義指令實現方式一：聚焦的預設實現實現方式二：區域性自定義指令

pocsuite3檢測工具編寫poc

github地址：https://github.com/knownsec/Pocsuite3 首先確定pocsuit的命令執行方式 verify模式為漏洞檢測模式

QGis外掛編寫-GeocodeCN

以前寫的外掛記錄，我把它搬到部落格園上來，程式碼已更新許多，以最新為準。

UE4連線MySQL資料庫外掛開發之編寫增加記錄程式碼

本篇我們首先講上篇中各個部分程式碼的作用，然後接著在SqlBlueprintFunctionLibrary類中新增向資料庫存入資料的程式碼，並且介紹如何添加註釋，暴露給藍圖。

編寫Chrome外掛

新建資料夾 simple-porxy,並在資料夾下新建如下檔案： manifest.json（描述檔案） background.html（後臺執行頁面）

自己動手編寫一個Mybatis外掛：Mybatis脫敏外掛

1. 前言在日常開發中，身份證號、手機號、卡號、客戶號等個人資訊都需要進行資料脫敏。否則容易造成個人隱私洩露，客戶資料洩露，給不法分子可乘之機。但是資料脫敏不是把敏感資訊隱藏起來，而是看起來像真的一樣，

自己動手編寫一個Mybatis外掛之Mybatis脫敏外掛

Ladon外掛-批量檢測網站是否使用Shiro

本文教大家如何用編寫Ladon外掛，並批量檢測網站是否使用Shiro。為何不直接批量檢測是否存在反序列化漏洞？由於檢測Shiro是否存在反序列化漏洞，可能需要傳送多個KEY去檢測，意味著要發比較多的包，對於批量來說可能

安裝快速編寫程式碼外掛emmet 及html語法

一、emmet安裝方法：步驟一：首先你需要為sublime text安裝Package Control元件：按Ctrl+`調出sublime text的console

Skywalking系列部落格6-手把手教你編寫Skywalking外掛

前置知識在正式進入編寫環節之前，建議先花一點時間瞭解下javaagent（這是JDK 5引入的一個玩意兒，最好了解下其工作原理）；另外，Skywalking用到了byte-buddy（一個動態操作二進位制碼的庫），所以最好也熟悉下。

W13Scan 漏洞掃描器之XSS外掛模組編寫示例

一、背景上週將W13Scan目錄結構整理了一番，覺得要深入研究還得從程式碼層，於是嘗試編寫一下外掛；框架本身已經集成了XSS掃描外掛；

SkyWalking Agent端日誌外掛的編寫歷程與使用說明

概述前一段時間順利完成了SkyWalking Agent端logger-plugin外掛的開發，在此做個總結。一方面給外掛的使用方法寫一中文說明，另一方面分享一下該外掛開發過程中的一些考量以及收穫。

初步編寫IDEA\AndroidStudio翻譯外掛的方法

宣告：作者是根據 Hongyang的部落格自己實踐之後，根據自己的理解寫的，有什麼不對的地方還望指正。

gradle構建java編寫的logstash外掛錯誤No signature of method: org.gradle.api.internal.tasks.DefaultTaskDependency

[root@VM_63_147_centos logstash-input-java_input_example]# ./gradlew gem Starting a Gradle Daemon (subsequent builds will be faster)

開啟瀏覽器指定谷歌_Chrome擴充套件開發-編寫一個瀏覽器外掛

技術標籤：開啟瀏覽器指定谷歌谷歌瀏覽器外掛是一種小型的用於定製瀏覽器體驗的程式。通過外掛，可以自定義瀏覽器的一些行為來適應個人的需要，只要你會HTML，JavaScript，CSS就可以動手開發瀏覽器外掛了。

robots檢測外掛編寫

相關推薦