Python提取PDF內容（文字、影象、線條等）

阿新 • • 發佈：2019-02-20

使用Python抽取PDF檔案內容，包括文字、影象、線條等物件

摘要：這篇文章主要介紹如何使用Python【3.6版本】中的PDFminer3k 模組來抽取PDF內容，包括文字、影象、曲線等。

作者：yooongchun
微信公眾號：yooongchun小屋
這裡寫圖片描述

1.安裝`PDFminer3k`

使用pip 命令安裝

pip install pdfminer3k

2.編寫測試

你可以在這裡獲得官方參考：PDFMiner
如果你不喜歡看英文的官方文件，這裡的翻譯也許對你有幫助：中文PDFMiner文件

下面的程式，我拓展了官方給出的例子，你可以通過這個例子統計出來你的pdf檔案一共包含哪些內容，比如文字框，曲線，圖片等

#!/usr/bin/python
# -*- coding: utf-8 -*-

__author__ = 'yooongchun'

import sys
import importlib
importlib.reload(sys)

from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import 
 *
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

'''
解析pdf檔案，獲取檔案中包含的各種物件
'''


# 解析pdf檔案函式
def parse(pdf_path):
    fp = open(pdf_path, 'rb')  # 以二進位制讀模式開啟
    # 用檔案物件來建立一個pdf文件分析器
    parser = PDFParser(fp)
    # 建立一個PDF文件
    doc = PDFDocument()
    # 連線分析器 與文件物件
    parser.set_document(doc)
    doc.set_parser(parser)

    # 提供初始化密碼 

    # 如果沒有密碼 就建立一個空的字串
    doc.initialize()

    # 檢測文件是否提供txt轉換，不提供就忽略
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    else:
        # 建立PDf 資源管理器 來管理共享資源
        rsrcmgr = PDFResourceManager()
        # 建立一個PDF裝置物件
        laparams = LAParams()
        device = PDFPageAggregator(rsrcmgr, laparams=laparams)
        # 建立一個PDF直譯器物件
        interpreter = PDFPageInterpreter(rsrcmgr, device)

        # 用來計數頁面，圖片，曲線，figure，水平文字框等物件的數量
        num_page, num_image, num_curve, num_figure, num_TextBoxHorizontal = 0, 0, 0, 0, 0

        # 迴圈遍歷列表，每次處理一個page的內容
        for page in doc.get_pages(): # doc.get_pages() 獲取page列表
            num_page += 1  # 頁面增一
            interpreter.process_page(page)
            # 接受該頁面的LTPage物件
            layout = device.get_result()
            for x in layout:
                if isinstance(x,LTImage):  # 圖片物件
                    num_image += 1
                if isinstance(x,LTCurve):  # 曲線物件
                    num_curve += 1
                if isinstance(x,LTFigure):  # figure物件
                    num_figure += 1
                if isinstance(x, LTTextBoxHorizontal):  # 獲取文字內容
                    num_TextBoxHorizontal += 1  # 水平文字框物件增一
                    # 儲存文字內容
                    with open(r'test.txt', 'a') as f:
                        results = x.get_text()
                        f.write(results + '\n')
        print('物件數量：\n','頁面數：%s\n'%num_page,'圖片數：%s\n'%num_image,'曲線數：%s\n'%num_curve,'水平文字框：%s\n'
              %num_TextBoxHorizontal)


if __name__ == '__main__':
    pdf_path = r'C:\Users\fanyu\Desktop\pdf\test.pdf'
    parse(pdf_path)

其實在上面的layout 物件中有更多的內容可提取，這個自己按需來寫就好，然後對曲線，文字框等物件，都會有位置屬性，可直接獲取,自己debug 檢視以下物件屬性獲取即可。

Python提取PDF內容（文字、影象、線條等）

使用Python抽取PDF檔案內容，包括文字、影象、線條等物件摘要：這篇文章主要介紹如何使用Python【3.6版本】中的PDFminer3k 模組來抽取PDF內容，包括文字、影象、曲線等。作者：yooongchun 微信公眾號：yooongchu

對PPT的操作（文字替換，圖片插入等）

using System;using System.Collections.Generic;using System.IO;using System.Linq;using System.Text;using System.Threading.Tasks;using POWER

使用Python中的HTMLParser、cookielib抓取和解析網頁、從HTML文件中提取連結、影象、文字、Cookies .

對搜尋引擎、檔案索引、文件轉換、資料檢索、站點備份或遷移等應用程式來說，經常用到對網頁(即HTML檔案)的解析處理。事實上，通過 Python語言提供的各種模組，我們無需藉助Web伺服器或者Web瀏覽器就能夠解析和處理HTML文件。本文上篇中，我們介紹了一個可以幫助簡化開啟

用python提取PDF表格內容儲存到excel

一提取pdf方法介紹任務是用python提取PDF裡的表格檔案到excel裡面去。做為一個學了一個周python的人來說當然像嘗試一下看能不能做到，事實證明是可以的只是可能程式碼有點爛。。。。。。樣本大概是這樣的首先網上查一下用python處

Python教程補充內容（函式中接收元組、列表和lambda的用法）——簡明python教程學習筆記

本文大量內容來源於沈老師的簡明python教程，其中夾雜部分個人的理解如有偏頗之處還望海涵。一. 在函式中接收元組和列表 \quad當要使函式接收元組或字典形式的引數的時候，有一種特殊的方法，它分別使用*和**字首。這種方法在函式需要獲取可變數量的引數的

Python進階內容（五）--- type和object的關系

行動關系函數 tex 進階類模板 clas lin cnblogs 面向對象編程（OOP）的兩大關系繼承與實現繼承關系：子類繼承自父類（base），可以使用父類的一些方法（method）和屬性（attribute）實現關系：以類為模板，實例化一個對

Python進階內容（六）--- 函數式編程

遞歸斐波那契數列 blog n-1 range 正是 n) 偽代碼 ret 斐波那契數列(Fibonacci)的遞歸與非遞歸實現費波那契數列由0和1開始，之後的數就由之前的兩數相加 0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 1

用python解析pdf中的文字與表格【pdfplumber的安裝與使用】

我們接觸到的很多文件資料都是以pdf格式存在的，比如：論文，技術文件，標準檔案，書籍等。pdf格式使得用機器從中提取資訊格外困難。為了解決這個問題，我找到了幾種解決方案，最後選擇了python上的pdfplumber庫，安裝和使用都相對比較方便，效果也還不錯，所以下面介紹這個庫的安裝與使用。安裝我的電

python日期模組datetime常用操作總結（字串與datetime物件互轉、日期差值計算、時間戳獲取、時間陣列生成等）

在python中，自帶的datetime和time兩個時間模組在平時的使用中可以滿足我們絕大多數的需求，但是由於缺乏對這些模組深度的瞭解和使用，導致平時能夠使用到的時間功能十分有限，例如：對於time模組，我的使用幾乎就是停留在程式執行時間的統計和時間戳生成這

資料集 | 開源資料集（計算機視覺影象、定位、識別）

博主github：https://github.com/MichaelBeechan 博主CSDN：https://blog.csdn.net/u011344545 計算機視覺資料集：https://github.com/Michael

python的推導式（列表推導式、字典推導式、集合推導式）

一、list列表推導式參考程式碼 start_urls = ["http://hz.jiwu.com/esf/list-page"+str(page)+".html" for page in range(1,5)] http://hz.jiwu

Python中的列表（新增二元列表、連線、查詢、排序、反序、賦值、刪除、分片操作、負索引、）

#_*_coding:UTF-8_*_ # 列表list_name=[element1,element2,element3...] # 1.新增元素 # append(value)使用者在List的尾部新增一個元素 # insert（index,value）第一個引數ind

python計算機視覺程式設計——第一章（基本的影象操作和處理）

第1章基本的影象操作和處理 1.1 PIL：Python影象處理類庫 PIL（Python Imaging Library，影象處理庫）提供了通用的影象處理功能，以及大量有用的基本影象操作。PIL庫已經整合在Anaconda庫中，推薦使用An

python讀取pdf中的文字

python處理pdf也是常用的技術了，對於python3來說，pdfminer3k是一個非常好的工具。 pip install pdfminer3k 我主要是想在pdf中抽出自己想要的一些關鍵資訊，所以需要找到這些資訊的共同點。幸運的是，這些關鍵資訊的行都含有'//'，所以我只需找到含有'

python 提取pdf檔案中的資訊

python 讀取pdf檔案有3個擴充套件包 pdfminer3k（python2中為pdfminer）、fitz和pymupdf 1.pdfminer3k 讀取並獲得pdf文件中的資訊： from pdfminer.pdfparser import PDFPars

Python 檔案相關操作總結（讀寫 txt 檔案、複製檔案、獲得檔案列表等）

本文平時程式設計中對於出現的 txt 的讀與寫入的相關方法彙總，因為是在學習過程中逐漸發現逐漸新增的，所以可能不會很全。但是我會保證持續的更新，使其趨於完善。本片博文參考多篇博文彙總而成且在必要出添加了引用。 1. python獲取檔案路徑、檔名、字

Python提取PDF中的圖片

# 2018/08/16更新：有些同學不知道fitz庫是什麼，它是pymupdf中的一個模組，操作PDF非常舒服，只需要pip安裝即可： pip install pymupdf Python提取word中的圖片(需要的自取）：最近專案需要把word、PDF中的

提取PDF內容儲存到Excel--Python3實現

PDF2Excel.exe程式使用說明功能介紹：程式從txt檔案中讀取內容然後抽取指定內容，要抽取的關鍵詞需要寫入Excel中，一個PDF樣本如下示例：儲存到Excel的樣本如下圖示

python 指令碼實列（文字資料匯入資料庫）

指令碼要求：1.根據文件資料建立表結構；2.將文件上的行號與每行的資料錄入資料庫；匯入模組連結資料庫設定表結構建立表格使用seesion管理資料庫獲取檔案資料，匯入資料到資料庫提交資料，關閉連結資料庫資料：

Python提取圖片中的文字資訊，騰訊內部技術，一行程式碼搞定！

用過手機QQ就知道，點選一個圖片會彈出一個小功能，那就是提取圖片中的文字。非常方便實用，那麼很難實現嗎？利用Python提取圖片中的文字資訊，只需要一行程式碼就能搞定！當然，這是吹牛皮的，但是真正的Python程式碼也就第4行，說是一行程式碼搞定也沒錯。示例：效果儘管執行Py

Python提取PDF內容（文字、影象、線條等）

使用Python抽取PDF檔案內容，包括文字、影象、線條等物件

1.安裝PDFminer3k

2.編寫測試

相關推薦

1.安裝`PDFminer3k`