爬取某網站的所有烏雲漏洞文章，儲存為pdf檔案

阿新 • • 發佈：2019-01-29

鼎鼎大名的烏雲，存在了6年左右，就停擺了，真是可惜。。。

這是從某個網站看到的烏雲文章，爬取儲存下來以作學習使用

建立一個資料夾wooyun，把下面的程式碼儲存到一個檔案如test.py，放在該檔案裡面

# -*- coding: utf-8 -*-
import urllib2
import pdfkit
from lxml import etree
import time
import random
import os
import shutil


def modify_filename(file1,file2,filename,m):
   '''
   更改檔名函式
   如有多個同名檔案，自動在檔名末尾加上數字，從2開始。
   方法遞迴

   ''' 

   if os.path.exists(file2):
        m += 1
        file2 = filename + str(m) + '.pdf'
        modify_filename(file1,file2,filename,m)
   else:
        os.rename(file1,file2)
        return

def main():
    '主函式：爬取所有烏雲文章，以漏洞標題作為檔名'

    # 外迴圈控制頁數
    for i in range(1,167):

        # 建立一個資料夾來存放該頁所有文章，資料夾名字為分頁數字 

        os.mkdir(str(i))

        url = "http://xsspt.com/index.php?do=blist&page=" + str(i)
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
            'Cookie': '__cfduid=db29c8ab99daaf6824f89ff256974cc131532950162; bdshare_firstime=1532950162131; UM_distinctid=164eaf6ebae83c-0945623eb9d7ee-47e1039-1fa400-164eaf6ebaf67b; Hm_lvt_c12f88b5c1cd041a732dea597a5ec94c=1532950162,1532950477; CNZZDATA1260224584=5670' 

            }
        req = urllib2.Request(url,headers=headers)
        res = urllib2.urlopen(req)
        # print(res.getcode())
        # print(res.url)
        html = res.read()

        content = etree.HTML(html)
        # 獲取每頁的文章連結列表
        links = content.xpath('//td/a/@href')

        n = 0
        # 遍歷該分頁裡面的文章連結
        for each in links:
            each = 'http://xsspt.com' + each
            req2 = urllib2.Request(each,headers=headers)
            html2 = urllib2.urlopen(req2).read()
            content2 = etree.HTML(html2)
            # 獲取文章章標題
            title = content2.xpath("//h3[@class='wybug_title']/text()")[0]
            # 設定儲存的檔名，由於windows環境對檔名命名有'/'、'\'、'?'、'|'、'<'、'>'、'"'、'*'有限制，所以要有如下過濾
            filename = title[5:].strip().replace('/','_').replace('\\','_').replace('<','').replace('>','').replace('"','').replace('(','').replace(')','').replace('[','').replace(']','').replace('\\','').replace('%','').replace(';','').replace('*','').replace('?','').replace(':','').replace('|','')
            # file = filename + ".pdf"
            n += 1
            # 初始檔名
            file1 = str(n) + '.pdf'
            # 儲存檔名
            file2 = filename + '.pdf'
            # 儲存pdf檔案到本地
            path_wk = r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe'
            config = pdfkit.configuration(wkhtmltopdf = path_wk)
            pdfkit.from_url(each, file1, configuration=config)

            # m變數值用來區分同名檔案
            m = 1
            # 由於檔名有重複，所以使用遞迴函式來處理，檔案重名的，檔名末尾加遞增數字儲存。如a.pdf,a2.pdf
            modify_filename(file1,file2,filename,m)
            time.sleep(random.randint(1,3))
        # 把當前分頁裡面的所有的文章檔案移動到對應的分頁檔案裡面
        for d in os.listdir('.'):
            if d.split('.')[-1] == 'pdf':
                shutil.move(d,str(i))


if __name__ == '__main__':
    main()

結果如下：
這裡寫圖片描述

這裡寫圖片描述

爬取某網站的所有烏雲漏洞文章，儲存為pdf檔案

鼎鼎大名的烏雲，存在了6年左右，就停擺了，真是可惜。。。這是從某個網站看到的烏雲文章，爬取儲存下來以作學習使用建立一個資料夾wooyun，把下面的程式碼儲存到一個檔案如test.py，放在該檔案裡面 # -*- coding: utf-8 -*- im

python3.6爬蟲案例：爬取某網站所有PPT（下）。

上篇部落格：python3.6爬蟲案例：爬取某網站所有PPT（上）給大家介紹了爬取（http://www.1ppt.com/）網站中的ppt檔案，爬下來的檔案如下：所以，我們就要考慮將其名稱修改為其在網頁中顯示的名字，並將其批量解壓到指定資料夾。一、批量修改壓縮檔名稱。細心的

python 爬蟲爬取某網站的漫畫

文章目錄宣告前言思路流程程式結果宣告為了表示對網站的尊重，已將網站地址隱藏，下載的漫畫之前我就看過了，所以也會刪掉，絕不侵犯網站的利益。前言

項目實戰！爬取5萬篇好奇心日報文章，適合小白練手的實戰案例！

microsoft 找到用戶數 clas 復制 parse span 入門知識 soup Python的知識很多，基本的入門就有很多東西要學，還有各種合樣的庫要學習。很多同學學了一段時間，進展很慢，學了前面忘了後面！要麽就是揠苗助長找一些特別難的例子，結果太難了，失去信心

java爬蟲抓取資料，儲存為excel檔案

下載jsoup jar包和poi jar包 City.java package dataToExcel; public class City { private String name; private String url;

python定向爬蟲——爬取某代理Ip網站上的所有ip

爬取一個網站的基本過程確定目標 –> 分析目標 –> 編寫程式 -> 執行爬蟲分析目標： url 格式資料格式網頁編碼分析目標資料在原始碼裡的結構，以便在獲取整個頁面原始碼後，可以利用正則進行匹配。

第八篇編寫spider爬取jobbole的所有文章

strip 狀態第一個 lds ont style cnblogs pycha 目標通過scrapy的Request和parse，我們能很容易的爬取所有列表頁的文章信息。 PS:parse.urljoin（response.url，post_url）的方法有個好處,

爬取博主所有文章並保存到本地（.txt版）--python3.6

選中搜索 temp getc 變量文件中計數學習 mat 閑話：一位前輩告訴我大學期間要好好維護自己的博客，在博客園發布很好，但是自己最好也保留一個備份。正好最近在學習python，剛剛從py2轉到py3，還有點不是很習慣，正想著多練習，於是萌生了這個想法——用

批量爬取某圖片網站的圖片

批量爬取某圖片網站的圖片宣告：僅用於爬蟲學習，禁止用於商業用途謀取利益 1、網頁解析（1）開啟veer首頁，F12(谷歌瀏覽器)，輸入關鍵字，點選搜尋，點選檢視如圖畫圈位置（2）檢視search中的Headers，找到請求的URL和請求的paylo

python 3 爬取某小說網站小說，註釋詳細

每一行都有註釋，不多解釋了 import requests from bs4 import BeautifulSoup import os if __name__ == '__main__': # 要下載的網頁 url = 'https://www.b

生產者消費者模型爬取某金融網站資料！Python無所不爬！

那麼這個模型和爬蟲有什麼關係呢？其實，爬蟲可以認為是一個生產者，它不斷從網站爬取資料，爬取到的資料就是食物；而所得資料需要消費者進行資料清洗，把有用的資料吸收掉，把無用的資料丟棄。以上便是對生產者消費者模型的簡單介紹了，下面針對本次爬取任務予以詳細說明。分析站點http://www.cfachina.org/

python3多執行緒爬蟲爬取某美女圖片網站的指定頁圖片資源，你懂的

Queue（佇列物件） queue是python3中的標準庫，可以直接import queue引用;佇列是執行緒間最常用的交換資料的形式。 python下多執行緒的思考對於資源，加鎖是個重要的環節。因為python原生的list,dict等，都是not

python3爬蟲爬取圖片，爬取新聞網站文章並儲存到資料庫

2017年9月16日零基礎入門Python，第二天就給自己找了一個任務，做網站文章的爬蟲小專案，因為實戰是學程式碼的最快方式。所以從今天起開始寫Python實戰入門系列教程，也建議大家學Python時一定要多寫多練。目標 1，學習Python爬蟲 2

用Python Scrapy爬取某電影網站並存儲入mysql

爬取目標：javlib，使用框架Scrapy 首先使用在命令列裡scrapy startproject projectname和scrapy genspider spidername指令建立爬蟲。首先定義items.pyimport scrapy class Av

用python爬取某視訊網站彈幕

文章以bilibili的《變態王子與不笑貓》（這是一部正常的日漫，請放心觀看）為例，爬取該番劇下所有視訊的彈幕。困難的地方主要在尋找視訊的cid上，確實花了點時間，最好找到了也有點恍然大悟，再就是請求彈幕的連結地址，也需要去所有請求裡找，耐心很重要。最後，採用多執行緒

爬取某招聘網站的招聘資訊（獵聘）

這該找工作了，俗話說的胡奧，金九銀十嘛。一個一個招聘資訊找著看，有點麻煩。所以心動了下，不如把我想找的資訊都爬取下來，直接sql語句查詢所有相關資訊，多方便，是吧~ 注：如果start-urls只設置一個的話，那麼只會爬取等於或者小於40條資料

python 爬取某音樂平臺所有歌單資訊

# coding: utf-8 import requests import os from lxml import etree import json from spider_project.proxies import proxies import random cl

Python3.7爬蟲大量爬取某小說網站小說並寫入mysql(持續完善中...) 未解決問題:mysql長時間新增超過百萬條數據表鎖甚至崩潰

oot req val page src sele 爬蟲 use uwa 練手之作代碼中還有很多問題持續完善中渣渣阿裏T5 99包郵服務器只開了6個進程 #encoding:utf-8 import requests # 請求 from lxml import

程式設計師的福利：使用WebCollector爬取某美女網站上的圖片

程式設計師的福利：使用WebCollector爬取某美女網站上的圖片 0x00 需求某網站，有海量美女圖片，裡面預設是按美女的英文名字（A-Z）排序的。估算了一下，至少也得有3000+位美女照片，每位的照片數目從幾十張到幾百張不等。瀏覽了幾天，才瀏覽了很少的一部分。心想，

selenium 爬取某基金網站資料

# coding: utf-8 from selenium import webdriver import time driver = webdriver.Chrome() driver.get( 'http://fund.eastmoney.com/data/f

爬取某網站的所有烏雲漏洞文章，儲存為pdf檔案

相關推薦