python3爬蟲requests.get(url)出現http 500錯誤

阿新 • • 發佈：2019-02-08

一直想要收集各種一些漏洞的詳細描述，但是如果直接去國家資訊保安漏洞庫，查詢，複製，太機械了，寶寶不想這麼做，漏洞編號我已經找好了，怎樣才能更快的收集它們對應的描述呢？當然是爬蟲了，說幹就幹。

說明

漏洞編號存放於cn.txt文字中，cn.txt和python位於同一目錄中
利用requests和beautifulsoup模組進行爬蟲。
通過檢視網頁原始碼，發現漏洞資訊位於class=’d_ldjj’ 的p標籤中
將爬到的漏洞描述，按行寫入“loudong.xls”excel檔案中

程式碼實現

import pyperclip  
from xlrd import open_workbook  
from 
 xlutils.copy import copy
url='http://www.cnnvd.org.cn/web/xxk/ldxqById.tag?CNNVD='
#browser=webdriver.Firefox()
CNread=open('cn.txt')
fw=open("loudong.xls","w")
lines=CNread.readlines()
k=len(lines)
print(k)
for i in range(k):
    requrl=''.join(['http://www.cnnvd.org.cn/web/xxk/ldxqById.tag?CNNVD=',lines[i]])
    print(requrl)
    webbrowser.open 
(requrl)
    #requests會自動給連線加上\0A，即十六進位制中的換行'\n'
    res=requests.get(requrl)
    res.raise_for_status()
    soup=bs4.BeautifulSoup(res.text)
    #查詢需要的元素
    inf=soup.select('.d_ldjj p')
    li=inf[1].getText()
    vun=li.split('\n')[1]
    fw.writelines(vun)
    print(vun)

請注意，requrl能夠正常被開啟，但是requests總是出現錯誤HTTP 500
requests.exceptions.HTTPError: 500 Server Error: Internal Server Error for url: http://www.cnnvd.org.cn/web/xxk/ldxqById.tag?CNNVD=CNNVD-201504-257%0A
原來requests自動給requrl添加了%0A,導致不能訪問，剛開始我還以為是網站為了抵制爬蟲而設定的，後面發現，其他的網站也存在這種情況，且
requests.get('http://www.cnnvd.org.cn/web/xxk/ldxqById.tag?CNNVD=CNNVD-201504-257')
是正常的，所以‘%0A’並不是被訪問的網站加的，而是requets乾的，只要我們想辦法把它去掉就行，百度一下，%0A發現原來是十六進位制的換行,即’\n’，所以需要去掉換行，可將requrl按行分裂，然後取第一部分：
res=requests.get(requrl.split('\n')[0])
果然這樣修改後，執行成功，看著輸出的一個個漏洞資訊描述，感覺自己棒棒噠~為自己點贊！
至於為什麼會出現這種情況，我也不知道，親愛的小夥伴，你知道嗎？知道的話，解答下唄，你有遇到這種情況嗎？

python3爬蟲requests.get(url)出現http 500錯誤

一直想要收集各種一些漏洞的詳細描述，但是如果直接去國家資訊保安漏洞庫，查詢，複製，太機械了，寶寶不想這麼做，漏洞編號我已經找好了，怎樣才能更快的收集它們對應的描述呢？當然是爬蟲了，說幹就幹。說明

#無引數get請求 r = requests.get(url)

#無引數get請求 r = requests.get(url)import requestsimport jsonurl = "https://httpbin.org/get"r = requests.get(url)#print(r.url)#獲取url#print(r.status_code)#獲取狀

#有headers的get請求 r = requests.get(url,params=params,headers=headers)

#有headers的get請求 r = requests.get(url,params=params,headers=headers)import requestsurl = "https://httpbin.org/get"params = {"show_raw":1}headers = {'User-A

JavaWeb應用出現HTTP 500-Unable to compile class for JSP 錯誤的解決

在上一篇博文中，我們把自己本機的web專案部署到了雲主機的tomcat上。之後通過瀏覽器訪問時，如果出現 HTTP 500-Unable to compile class for JSP 的錯誤，應該怎麼解決呢？通常，造成這種錯誤的原因是你開發時所用的jdk版本以及本地測試

IIS7/8 出現HTTP 500內部伺服器錯誤解決方案

伺服器上安裝了IIS7，部署了一個網站。執行提示：500 - 內部伺服器錯誤！！鬱悶了好久，終於解決了。下邊就分享一下步驟: 訪問提示錯誤如下：進入伺服器，開啟IIS，

伺服器WIN2008R2 iis7.5 PHP+MYSQL環境出現HTTP 500內部伺服器錯誤，錯誤模組名稱: Guard64.dll，網站程式池停止了

一朋友的網站伺服器近日出現網站突然打不開，前端訪問網頁提示HTTP 500內部伺服器錯誤。連線資料庫也連不上。如下圖所示：資料庫連不上：<?php phpinfo();?>也不能輸出顯示。網上找各種原因分析，未能解決。額...因網站原能正常訪問，突然間不能訪問，原

IIS 配置PHP環境HTTP 500錯誤處理方法

iis在搭建php程序的時候遇到了500錯誤，訪phpinfo測試也是500，重新安裝了php，重新搭建網站，網站管理員賬戶，給上everyone權限測試都是500錯誤，糾結了較長一段時間，後來想到了程序池方面的影響，以下步驟是我解決我的問題的處理方法：打開IIS管理器,選擇應用程序池——你的網站應用程序池(

servlet層調用biz業務層出現瀏覽器 500錯誤，解決方法

protected post https string pub 代碼失敗 uid row package com.swift.jztk.servlet; import java.io.IOException; import javax.servlet.Servlet

Restful資料訪問出現HTTP 400錯誤解決

遇到一個頭疼的問題，後臺只有實體類和Repository，沒有Controller和Service，Rest直接提供一個實體類名稱訪問至資料庫，但是昨天在做的時候用Ext提交一個POST請求，出現了400錯誤。 ext程式碼: var formvalues = dataFo

uploadify 上傳檔案出現HTTP 404錯誤

今天發現uploadify 上傳超過100Kb就報錯，報錯http 404錯誤發現上傳低於100Kb可以。解決方案：web目錄，請求篩選，然後“編輯功能設定” 修改最大內容長度。這裡面單位均為B。以下對應修改： <httpRuntime req

使用ip代理池爬蟲時，requests模組get請求出現問題_AttributeError: 'str' object has no attribute 'get'

問題描述：專案使用ip代理池對網頁進行資料爬取，但是requests模組get方法出現問題，出錯如下： File "E:\project\venv\lib\site-packages\requests\api.py", line 75, in get r

服務器出現 HTTP 400、404、500、502 錯誤原因及解決方法

服務器出現 http 400、404基本涵蓋了所有問題HTTP 400 – 請求無效HTTP 401.1 – 未授權：登錄失敗HTTP 401.2 – 未授權：服務器配置問題導致登錄失敗HTTP 401.3 – ACL 禁止訪問資源HTTP 401.4 – 未授權：授權被篩選器拒絕HTTP 401.5 – 未

IIS出現“HTTP 錯誤 500.0，C:phpphp-cgi.exe - FastCGI 進程意外退出”解決方法

c++ pdo_mysq img str 同學打開就是命令 x64 昨天給大家介紹了在windows+iis的平臺上搭建支持php+mysql平臺的文章，教程步驟都是筆者一步一個操作然後一個記錄介紹給大家的，實機演練，教程絕對切實可用，但是不同的同學在不同的環境下

python3 爬蟲之requests模塊使用總結

swd rom 一個 http 寫入 delet pen req 狀態碼 Requests 是第三方模塊，如果要使用的話需要導入。Requests也可以說是urllib模塊的升級版，使用上更方便。這是使用urllib的例子。 import urllib.request

Python3的requests類抓取中文頁面出現亂碼的解決辦法

view www. .com ons 分享圖片 exceptio code gem tex 這種亂碼現象基本上都是編碼造成的，我們要轉到我們想要的編碼，先po一個知識點，嵩天老師在Python網絡爬蟲與信息提取說到過的：response.encoding是指從

【Python3~爬蟲工具】使用requests庫

python3 爬蟲 requestsurllib使用方式參考如下網址：http://blog.51cto.com/shangdc/2090763 使用python爬蟲其實就是方便，它會有各種工具類供你來使用，很方便。Java不可以嗎？也可以，使用httpclient工具、還有一個大神寫的webmagic框架

Python3爬蟲（四）請求庫的使用requests

with open decode python3 url -c highlight pos pen req Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、基本用法： 1. 安裝： pip install requests 2

【爬蟲】002 python3 +beautifulsoup4 +requests 爬取靜態頁面

bgcolor img err 預覽政府 bold 技術貴的頁面元素實驗環境: win7 python3.5 bs4 0.0.1 requests 2.19 實驗日期：2018-08-07 爬取網站：http://www.xhsd.cn/ 現在的網站大多有復雜

python3爬蟲 -----爬取百思不得姐信息-------http://www.budejie.com/

chrom tree www cti mozilla from tar 2-0 sum 1 # -*- coding:utf-8 -*- 2 # author:zxy 3 # Date:2018-10-21 4 5 import request 6 from

【Python3 爬蟲學習筆記】基本庫的使用 7 —— 使用requests

抓取二進位制資料前面我們抓取知乎的一個頁面，實際上它返回的是一個HTML文件。如何抓取圖片、音訊、視訊？圖片、音訊、視訊這些檔案本質上都是由二進位制碼組成的，由於有特定的儲存格式和對應的解析方式，我們才可以看到這些形形色色的多媒體，所以要抓取它們，就要拿到它們的二進位制碼。抓取

python3爬蟲requests.get(url)出現http 500錯誤

說明

程式碼實現

相關推薦