爬取cnvd資料

阿新 • • 發佈：2020-10-09

首先這個網站存在反爬機制，第二，這個是以post的形式傳入的，爬取這2點都有難度

我這裡直接貼程式碼，有註釋

import requests
import xlwt
from lxml import etree
import re
from fake_useragent import UserAgent
ua = UserAgent()
url='https://www.cnvd.org.cn/flaw/list.htm?flag=true'
headers = {
        "User-Agent": ua.random,
            }
resp = requests.post(url, data={'max': 20, 'offset': 0, 'keyword': 'office', 'condition': 1, 'baseinfoBeanbeginTime': '2016-01-01', 'baseinfoBeanendTime': '2020-08-26', 'referenceScope': 1, 'manufacturerId': -1, 'categoryId': -1, 'editionId': -1, 'baseinfoBeanFlag': 0, 'keywordFlag': 0, 'cnvdIdFlag': 0}, headers=headers)   #post傳參內容
text =resp.text
urlhref = re.findall(r'href="/flaw/show(.*?)"', text)
domain = "https://www.cnvd.org.cn/flaw/show"
for urlhrefs in urlhref:
    aas = domain + urlhrefs        #此段url為真實的url,需要上一段程式碼提取cnvd的編號與domain的網端組成真正需要爬取的url
    resps = requests.get(aas, headers=headers)
    texts = resps.text
    html = etree.HTML(texts)
    title = html.xpath("//div[@class='blkContainerSblk']//h1/text()")
    CVE = re.findall(r'target="_blank">(.*?) </a><br>', texts)       #用正則爬取
    CNVD = html.xpath("normalize-space(//table[@class='gg_detail']//tr[1]/td[2]/text())")
    shijian = html.xpath("normalize-space(//table[@class='gg_detail']//tr[2]/td[2]/text())")
    product = html.xpath("normalize-space(//table[@class='gg_detail']//tr[4]/td[2]/text())")
    miaosu = html.xpath("normalize-space(//table[@class='gg_detail']/tbody/tr[6]/td[2]//text())")
    leixing = html.xpath("normalize-space(//table[@class='gg_detail']//tr[7]/td[2]/text())")
    print(miaosu)

　　對於反爬機制，我們可以用隨機ua，也可以用代理ip，關於爬取代理ip,我上一篇文章有原始碼，也可以將header裡面的內容增多，將執行緒變為單執行緒

https://www.cnblogs.com/xinxin999/p/13418524.html

爬取cnvd，需要注意的是他post裡面的引數keywords是關鍵詞,max是一頁最大的內容，我現在設定的是20篇，最大可以是100.offset是位移量，比如你設定的max為20，你想要爬取5頁，offset就設為100.

這裡只截了部分圖，資料處理各位兄弟們自行完善。

爬取cnvd資料

首先這個網站存在反爬機制，第二，這個是以post的形式傳入的，爬取這2點都有難度

python 爬取疫情資料的原始碼

疫情資料程式原始碼 // An highlighted block import requests import json class epidemic_data(): def __init__(self,province):

SpringBoot中使用Jsoup爬取網站資料的方法

爬取資料匯入jar包 <properties> <java.version>1.8</java.version> <elasticsearch.version>7.6.1</elasticsearch.version>

爬取網頁資料例項

爬取拉勾網招聘的職位拉勾網，網址：https://www.lagou.com/ 比如我們要搜尋python的職位

使用selenium再次爬取疫情資料(連結資料庫)

　爬取網頁地址: 　　　　　　　丁香醫生資料庫連線程式碼:　　　　　　　

使用Puppeteer爬取頁面資料，以豆瓣的即將上映頁面為例

Puppeteer簡單介紹 Puppeteer 是 Chrome 開發團隊在 2017 年釋出的一個 Node.js 包,用來模擬 Chrome 瀏覽器的執行。

Python如何爬取51cto資料並存入MySQL

實驗環境 1.安裝Python 3.7 2.安裝requests,bs4，pymysql 模組實驗步驟1.安裝環境及模組

Python爬蟲實戰：自動化登入網站，爬取商品資料

前言隨著網際網路時代的到來，人們更加傾向於網際網路購物。某東又是電商行業的巨頭，在某東平臺中有很多商家資料。今天帶大家使用python+selenium工具獲取這些公開的商家資料

利用Python爬取疫情資料並使用視覺化工具展示

import requests, json from pyecharts.charts import Map, Page, Pie, Bar from pyecharts import options as opts

python爬蟲爬取網頁資料並解析資料

1.網路爬蟲的基本概念網路爬蟲（又稱網路蜘蛛，機器人），就是模擬客戶端傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。

基於Python爬取股票資料過程詳解

基本環境配置 python 3.6 pycharm requests csv time 相關模組pip安裝即可目標網頁分析網頁

Python爬取豆瓣資料實現過程解析

程式碼如下 from bs4 import BeautifulSoup #網頁解析，獲取資料 import sys #正則表示式，進行文字匹配

實戰｜手把手教你用Python爬取儲存資料，還能自動在Excel中視覺化！

大家好，在之前我們講過如何用Python構建一個帶有GUI的爬蟲小程式，很多本文將迎合熱點，延續上次的NBA爬蟲GUI，探討如何爬取虎撲NBA官網資料。並且將資料寫入Excel中同時自動生成折線圖，主要有以下幾個步驟

Node：使用puppeteer爬取網頁資料

puppeteer？高階API的node庫，能夠通過devtool控制headless模式的chrome或者chromium，它可以在headless模式下模擬任何的人為操作。

python爬取天氣資料的例項詳解

就在前幾天還是二十多度的舒適溫度，今天一下子就變成了個位數，小編已經感受到冬天寒風的無情了。之前對獲取天氣都是資料上的蒐集，做成了一個數據表後，對溫度變化的感知並不直觀。那麼，我們能不能用python中的方

關於Python爬取天氣資料的例項詳解內容

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

使用Python爬取Json資料的示例程式碼

一年一度的雙十一即將來臨，臨時接到了一個任務：統計某品牌資料銀行中自己品牌分別在2017和2018的10月20日至10月31日之間不同時間段的AIPL（“認知”(Aware)、“興趣”(Interest)、“購買”(Purchase)、“忠誠”(Lo

python爬取崗位資料並分析_爬取拉勾資料分析崗位

技術標籤：python爬取崗位資料並分析拉勾的反爬機制做得特別殘暴。 javascript加密和直接訪問json資料會給你返回偽裝的資料不說。最殘暴也是最簡單的，限制短時間內的多次訪問。只要爬蟲速度稍快點，就會要你

爬蟲2-python爬取的資料存入mysql**

也可以存入hive、HDFS，這裡選擇存在mysql。一、安裝mysql（python在pyspark一節已配置好）

爬取網頁資料

爬取必應網站資料 import requests from lxml import etree url=\'https://cn.bing.com/\' headers = { \'user-agent\': \'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/

爬取cnvd資料

相關推薦