PDF檔案批量下載爬蟲

阿新 • • 發佈：2019-01-25

參考文章在這兒

https://segmentfault.com/a/1190000010823538

這個爬蟲是下載智慧車官網的技術報告的

# _*_ coding:utf-8_*_
# auther :nsy12
# date   :2018/2/25 
# time   :11:20

import requests
import re, os
from bs4 import BeautifulSoup
import time
import random

FILE_DIR = r'E:\1smart Car\paper'#檔案儲存地址
url_datas = [
    'https://.cn',
    'https://.cn',
    'https://.cn',
    'https://.cn',
    'https://.cn',
    'https://.cn',
    'https://.cn'
]

#顯示下載的文件名稱
def showPdf(pdf_name):
    print(pdf_name + '...')

#儲存文件
def savePdf(url, pdf_name):
    response = requests.get(url, data=None, stream=True)
    if not os.path.exists(FILE_DIR):
        os.makedirs(FILE_DIR)
    with open(os.path.join(FILE_DIR, pdf_name), "wb") as pdf_file:
        for content in response.iter_content():
            pdf_file.write(content)


def downOne(url, pdf_name):
    # showPdf(url, pdf_name)
    savePdf(url, pdf_name)
    print(pdf_name + "has been downloaded!!")


def get_urls(url):
    print("Please wait for second ...")
    html = requests.get(url, data=None)
    # html.encoding = 'utf-8'  # 指定網頁編碼方式（檢視網頁原始碼）
    # print(html.encoding)
    # print(html.status_code)
    # print(html.text)

    soup = BeautifulSoup(html.text, 'lxml')
    # all_a = soup.find('div', class_='cvideotitle').find_all('a')
    all_a = soup.find('div').find_all('a')
    for a in all_a:
        title = a.get_text()
        url_pdf = a['href']
        name = title[19:-18]
        print('------開始儲存：', name)
        downOne(url_pdf, str(name))
        # time.sleep(random.randint(1, 2))

        """
        #將資料寫入記事本
        # with open(r'D:jishubaogao\date.txt', 'a', encoding='gbk') as f:
            f.write(name + '\n')
        """


if __name__ == "__main__":

    for url_data in url_datas:
        get_urls(url_data)
        print("finsh"+url_data)

    print("finsh download")

 在這兒，

soup = BeautifulSoup(html.text, 'lxml')
all_a = soup.find('div').find_all('a')
for a in all_a:
    title = a.get_text()
    url_pdf = a['href']

#在這兒，用bs對div標籤解析，得到所有a標籤中的名稱和連結，其中名稱是這樣的

\r\n              \t\t\t001大連海事大學 電航phi2017.docx\r\n              \t\t

於是對其切片處理，否則會報錯

    name = title[19:-18]
    print('------開始儲存：', name)
    downOne(url_pdf, str(name))
    # time.sleep(random.randint(1, 2))

    #將資料寫入記事本
    with open(r'D:jishubaogao\date.txt', 'a', encoding='gbk') as f:
        f.write(name + '\n')

PDF檔案批量下載爬蟲

參考文章在這兒https://segmentfault.com/a/1190000010823538這個爬蟲是下載智慧車官網的技術報告的# _*_ coding:utf-8_*_ # auther :nsy12 # date :2018/2/25 # time :1

Aras學習筆記 (19) Aras官方專案Download Multiple Files多檔案批量下載使用說明

官方Project下載地址為 https://community.aras.com/en/portfolio/download-multiple-files/ 。最終實現效果為，同時選中多個檔案，右鍵點選"Download Selected Files"選單即可批量下載。多個檔

javaweb通過介面來實現多個檔案壓縮和下載（包括單檔案下載，多檔案批量下載）

程式設計師在做web等專案的時候，往往都需要新增檔案上傳、下載、刪除的功能，有時是單檔案，有時多檔案批量操作，而這些功能的程式碼程式設計師可以自己收藏起來當成工具使用，這樣，程式設計師在進行程式設計的時候就會事半功倍了，那麼接下來的部落格將會介紹各個框架的檔案上傳和下

Android使用okhttp封裝多檔案批量下載（帶進度條，取消下載）

在網上搜索了很多關於okhttp封裝的網路框架，唯獨沒找到完美實現了多個檔案批量下載的案例，當前使用的最多的也就是okhttp了，所以，我學習了各位大神的封裝後，自己也試著封裝了一個關於okhttp的網路請求框架，方便專案中的使用。實現的功能基本如下：

記錄一下：上傳到伺服器上的pdf 檔案直接下載而非在瀏覽器裡開啟

原文地址：https://segmentfault.com/q/1010000000692593/a-1020000000692707 這邊自己記錄一下點選 <a href="Test.pdf">下載</a> 的時候，Chrome 會自動呼叫內建

關於ftp的檔案批量下載（包括資料夾和檔案）的多種方法

博主純手工打字，轉載請註明出處！各位大佬不喜勿噴！先籠統說一下本文針對ftp協議下的資料夾和檔案遞迴下載方法：（I）使用FileZilla工具進行下載；（II）使用指令碼爬取；（III）使用命令直接下載；（IV）python指令碼直接下載。

SpringMVC例項-HTML程式碼生成PDF檔案並下載

前段時間公司的專案，有一個需求是拼接HTML程式碼，然後轉化成PDF供客戶下載，本來以為是個挺簡單的事，就從網上找了個flying saucer在本地生成的Demo，結果在本地生成是成功的，結果在做專案時，發現不可用，後來也是費了很多時間，試了很多方法，最後終於搞定。說一

python批量下載色影無忌和蜂鳥的圖片爬蟲小應用

exce pen 應用 content 沒有 str1 .com pat tar 有些冗余信息。由於之前測試正則表達式。所以沒有把它們給移走。只是不影響使用。# -*- coding:utf-8 -*- import re,urllib,sys,os,time de

爬蟲實踐---排行榜小說批量下載

timeout nis title name 十倍 == mini 好的線程一、目標排行榜的地址：http://www.qu.la/paihangbang/ 找到各類排行旁的的每一部小說的名字，和在該網站的鏈接。二、觀察網頁的結構很容易就能發現，每一個分類都

爬蟲實踐---電影排行榜和圖片批量下載

.com sts mat 模式 filename ise 主演 any cto 1.目標網址：http://dianying.2345.com/top/ 需要找到的信息：電影的名字，主演，簡介，和標題圖片 2.查看頁面結構：容易看到，需要的主題部分，都被包裹在&ls

專案常見功能(1) 下載批量下載大檔案下載下載進度條

最通用的就是讀取伺服器上檔案，response 設定響應頭讓瀏覽器知道這是要下載的，然後response相應即可 1、ajax 響應內容只能是字串，不能是流所以不能傳送請求下載檔案，要使用window.location.href= url 或者 <a href="

實現從oss（阿里雲）伺服器以附件形式下載檔案（含批量下載）

轉載自：https://blog.csdn.net/sinat_28771747/article/details/53520253 筆者在專案中寫一個從阿里雲伺服器上面以附件形式下載檔案的介面時，遇到了問題，網上搜索無任何相關的解決方案，最後通過通過自己查閱API文件，再結合自己的經驗，實現了下

Python實現簡單爬蟲功能--批量下載百度貼吧裡的圖片

在上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片儲存下載，或者使用者用來做桌面桌布，或者用來做設計的素材。　　我們最常規的做法就是通過滑鼠右鍵，選擇另存為。但有些圖片滑鼠右鍵的時候並沒有另存為選項，還有辦法就通過就是通過截圖工具擷取下來，但這樣就降低圖片的清晰度

記錄一次python爬蟲批量下載一個校花網站的妹子圖片

學python也快2個禮拜了，從開始看別人寫的爬蟲程式碼，然後試著抄著學習，感覺沒太大進步，最大收穫就是改了幾處bug（可能有些地方不適用我的pyyhon平臺報錯）。中午看到一個帖子校花妹子圖使用爬蟲進行批量下載，看了下，感覺不錯（我說的技術，哈哈哈）。然後決定自己寫一個爬蟲，已經看書兩個禮

檔案批量打包下載

package zy_cms_web; import java.io.BufferedInputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStrea

七牛雲端儲存 qiniu 測試域名被回收檔案備份批量下載

Markdown版本筆記我的GitHub首頁我的部落格我的微信我的郵箱 MyAndroidBlogs baiqiantao bai

爬蟲---批量下載美女圖片

import urllib.request import os #建立一個資料夾 def url_open(url): req=urllib.request.Request(url)#為它新增一個request頭，這樣更像是瀏覽器

從CSV檔案中讀取jpg圖片的URL地址並多執行緒批量下載

很多時候，我們的網站上傳圖片時並沒有根據內容進行資料夾分類，甚至會直接儲存到阿里雲的OSS或是七牛雲等雲端儲存上。這樣，當我們需要打包圖片時，就需要從資料庫找尋分類圖片，通過CURL進行下載。我最近剛剛完成了一個這樣的任務，覺得會比較常用，就把程式放到了github上分享給大家，希望大家能夠喜歡。 do

另類爬蟲：從PDF檔案中爬取表格資料

簡介本文將展示一個稍微不一樣點的爬蟲。以往我們的爬蟲都是從網路上爬取資料，因為網頁一般用HTML,CSS,JavaScript程式碼寫成，因此，有大量成熟的技術來爬取網頁中的各種資料。這次，我們需要爬取的文件為PDF檔案。本文將展示如何利用Python的camelot模組

Python3批量下載.dat和.hea檔案

在杭州電子科技大學的讀研的哥哥研究專案需要在一個網站上下載資料進行資料分析，總共4000多份文件資料，若是手工點選連結下載的話，不知道要下載到猴年馬月了，還好我哥知道我會爬蟲，嘿嘿，這時候就該展現我Python爬蟲威力了。資料存放的地址程式碼 #https:

PDF檔案批量下載爬蟲

這個爬蟲是下載智慧車官網的技術報告的

相關推薦