盤點一個批量提取pdf檔案目標資訊的實用案例

阿新 • • 發佈：2022-12-04

大家好，我是皮皮。

一、前言

前幾天在幫助粉絲解決問題的時候，遇到一個簡單的小需求，需要批量提取pdf檔案目標資訊，這裡拿出來跟大家一起分享，後面再次遇到的時候，可以從這裡得到靈感。

二、需求澄清

下面他下載的pdf檔案，有幾百個檔案，這裡拿出部分做示例，每個pdf檔案裡邊有一個統一社會信用程式碼，後面的數字和字元是他的目標資訊，需要提取出來。

三、實現過程

這裡實現主要借用了pdf檔案讀取庫和正則表示式來提取，先給出單個pdf檔案提取的方法，程式碼如下所示：

from pdfminer import high_level
import re

text = high_level.extract_text('1.pdf')  # 提取pdf中的文字資訊
# print(text)
regex = r'統一社會信用程式碼：(.*?)\n'
xinyongcode = re.findall(regex, text)
print(xinyongcode)

有了前面的程式碼打底之後，接下來就可以實現批量處理了，程式碼如下所示：

from pdfminer import high_level
from pdfminer.layout import LTTextContainer  # 文字容器
import re
import os

for root, dirs, files in os.walk('./'):
    # root 表示當前正在訪問的資料夾路徑; dirs 表示該資料夾下的子目錄名list;files 表示該資料夾下的檔案list
    # 遍歷檔案
    for f in files:
        file_name = os.path.join(root, f)
        if file_name.endswith('.pdf'):
            text = high_level.extract_text(file_name)  # 提取pdf中的文字資訊
            regex = r'統一社會信用程式碼：(.*?)\n'
            xinyongcode = re.findall(regex, text)
            print(xinyongcode[0])

程式碼執行之後，可以依次得到所有檔案攜帶的目標資訊，如下圖所示：

剩下的工作就不多贅述了，大家自行考慮即可。

三、總結

大家好，我是皮皮。這篇文章主要盤點一個批量提取pdf檔案目標資訊的實用案例，文中針對該問題，給出了具體的解析和程式碼實現，幫助粉絲順利解決了問題。

盤點一個批量提取pdf檔案目標資訊的實用案例

大家好，我是皮皮。一、前言前幾天在幫助粉絲解決問題的時候，遇到一個簡單的小需求，需要批量提取pdf檔案目標資訊，這裡拿出來跟大家一起分享，後面再次遇到的時候，可以從這裡得到靈感。

如何快速提取PDF檔案中的文字？

很多人想要把PDF裡的文字提取出來，卻大費周章走了彎路，到處搜尋“免費PDF轉Word”，其實單純提取文字福昕閱讀器就能實現。

指標輸出檔案中文字_提取pdf檔案中的文字

技術標籤：指標輸出檔案中文字環境說明 windows10系統 python3.6版本安裝網上很多說需要安裝pdfminer3k和pdfminer3k.six，我嘗試了先安裝pdfminer3k後安裝pdfminer3k.six，但是安裝後都會導致pdfminer3k裡面

批量從合同檔案(Word格式)提取合同要素資訊

當使用固定合同模板時，使用本軟體可以將所有合同檔案中的要素資訊（比如：甲方名稱、乙方名稱、專案名稱等）都提取出來儲存在Excel檔案中，稽核合同只需要檢視Excel檔案中的合同要素資訊，不需要檢視合同檔案中固

itextpdf 修改pdf檔案元資料資訊

我們基於FormField 生成pdf 使用了pdfescape 的一個服務，而且預設生成的pdf 檔案元資料資訊包含了pdfescape的資訊，我們可以通過

寫一個簡單node爬蟲,將苑一峰 es6 教程網爬取轉為pdf 檔案

準備工作，很簡單，只需要安裝好node 環境就可以了，另外安裝一個谷歌開發的一個爬蟲框架，puppeteer,這個模組很強大，可以模擬瀏覽器做很多事情，大家可以去官網去學習一下，不多說，直接上程式碼

快速批量提取一個資料夾下的所有檔名

目錄方法1 執行bat檔案方法2 開啟命令列方法1 執行bat檔案我們可以利用“dir /b”命令快速提取某個目錄下面指定字尾的檔名列表

批量將大量檔案的檔名更為提前準備好的檔名（一行一個）

最終效果比如要將“01、第一集”……“25、第二十五集”更為以下效果：　　

如何1秒批量提取電腦資料夾中的所有檔案、資料夾名字到txt/excel

01 在工作，我們經常會遇到這樣的情況，有時候我們在一個資料夾中放了很多的檔案，或者是這個資料夾中有很多的子資料夾，每一個子資料夾的名字又不同，也沒有什麼樣的規律，

讀取目標檔案並從瀏覽器下載pdf檔案

讀取目標檔案獲取讀取流，將讀取流寫入瀏覽器輸出流，實現瀏覽器下載檔案；

R語言中批量提取當前目錄中指定型別的檔案

1、直接測試 dir()## 列出當前目錄中所有檔案 myfile <- list.files()## 將當前目錄中的所有檔案都儲存為字元

linux 下 tensorflow C++ 提取include檔案、第一個hello world

在用C++ 呼叫tensorflow庫時，發現tensorflow 官網沒有介紹如何獲取tensorflow庫標頭檔案，導致在呼叫tensorflow 庫的時候遇見了很多問題。

vue-pdf實現pdf檔案線上預覽

1. 前言 PDF檔案線上預覽的功能相信大家都是有遇到過的,但在我平時的專案中,公司提供了相應的外掛,但是在h5等其他專案中,我們還是隻能靠自己呀! 今天就大概說一下 vue-pdf 這個元件,大部分的需求還是可以滿足的

python 實現提取log檔案中的關鍵句子,並進行統計分析

利用python開發了一個提取sim.log 中的各個關鍵步驟中的時間並進行統計的程式：

Python3將jpg轉為pdf檔案的方法示例

本文例項講述了Python3將jpg轉為pdf檔案的方法。分享給大家供大家參考，具體如下：

bat 批量提取指定目錄下的檔名

下面是批量獲取指定目錄下的檔名的核心程式碼 @echo off echo text input set input= set /p input=:

如何使用python進行pdf檔案分割

這篇文章主要介紹瞭如何使用python進行pdf檔案分割,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python 用三行程式碼提取PDF表格資料

從 PDF 表格中獲取資料是一項痛苦的工作。不久前，一位開發者提供了一個名為 Camelot 的工具，使用三行程式碼就能從 PDF 檔案中提取表格資料。

Python實現PyPDF2處理PDF檔案的方法示例

實際應用中，可能會涉及處理 pdf 檔案，PyPDF2 就是這樣一個庫，使用它可以輕鬆的處理 pdf 檔案，它提供了讀，割，合併，檔案轉換等多種操作。

Python 3.6 中使用pdfminer解析pdf檔案的實現

所使用python環境為最新的3.6版本一、安裝pdfminer模組安裝anaconda後，直接可以通過pip安裝