提取pdf中的圖片 python

阿新 • • 發佈：2019-01-27

import fitz
import time
import re
import os

def pdf2pic(path, pic_path):
    '''
    # 從pdf中提取圖片
    :param path: pdf的路徑
    :param pic_path: 圖片儲存的路徑
    :return:
    '''
    t0 = time.clock()
    # 使用正則表示式來查詢圖片
    checkXO = r"/Type(?= */XObject)" 
    checkIM = r"/Subtype(?= */Image)"  
    # 開啟pdf
    doc = fitz.open(path)
    # 圖片計數
    imgcount = 0
    lenXREF = doc._getXrefLength()
 
    # 列印PDF的資訊
    print("檔名:{}, 頁數: {}, 物件: {}".format(path, len(doc), lenXREF - 1))

    # 遍歷每一個物件
    for i in range(1, lenXREF):
        # 定義物件字串
        text = doc._getObjectString(i)
        isXObject = re.search(checkXO, text)
        # 使用正則表示式檢視是否是圖片
        isImage = re.search(checkIM, text)
        # 如果不是物件也不是圖片，則continue
        if not isXObject or not isImage:
            continue
        imgcount += 1
        # 根據索引生成影象
        pix = fitz.Pixmap(doc, i)
        # 根據pdf的路徑生成圖片的名稱
        new_name = path.replace('\\', '_') + "_img{}.png".format(imgcount)
        new_name = new_name.replace(':', '')

        # 如果pix.n<5,可以直接存為PNG
        if pix.n < 5:
            pix.writePNG(os.path.join(pic_path, new_name))
        # 否則先轉換CMYK
        else:
            pix0 = fitz.Pixmap(fitz.csRGB, pix)
            pix0.writePNG(os.path.join(pic_path, new_name))
            pix0 = None
        # 釋放資源
        pix = None
        t1 = time.clock()
#        print("執行時間:{}s".format(t1 - t0))
        print("提取了{}張圖片".format(imgcount))
        
if __name__=='__main__':
    # pdf路徑
    path = r'E:\example\pdf\03.pdf'
    pic_path = r'E:\example\picture\03'
    # 建立儲存圖片的資料夾
    pdf2pic(path, pic_path)

fitz是pymupdf的一個模組 pip install pymupdf

Python提取PDF中的圖片

# 2018/08/16更新：有些同學不知道fitz庫是什麼，它是pymupdf中的一個模組，操作PDF非常舒服，只需要pip安裝即可： pip install pymupdf Python提取word中的圖片(需要的自取）：最近專案需要把word、PDF中的

提取pdf中的圖片 python

import fitz import time import re import os def pdf2pic(path, pic_path): ''' # 從pdf中提取圖片 :param path: pdf的路徑 :param pic

教你用Inkspace提取pdf中的向量圖【超詳細】

我只想說Inkspace真是膩害，簡直太方便了！媽媽再也不用擔心我只能用ctrl+alt+a截渣渣圖了~ 1、開啟Inkspace 2、開啟一個pdf 可確保匯出的圖絕對高清 3、將畫布縮小到需要選取的圖片的範圍：方法一： a、選擇第二個工具用滑鼠畫出選框，只要確保

在C#程式碼中提取PDF中的註釋文字

//這裡要引用using iTextSharp.text;using iTextSharp.text.pdf;PdfReader myPdfReader = new PdfReader(@"C:\Us

如何提取pdf中的文字並將其轉換為TXT文件

對於畢業論文以及一些學術論文，公文，可能會涉及到較多的文字，較長的篇幅，較泛跟較精細的內容。所以很多朋友會選擇通過部分引用的方式來增加自己文章論點論據的說服力。但是現在很多學術文章為了保護自己的著作權，會選擇將文章文件轉換為PDF文件之後再加以上傳。但是這樣並不能防止他

怎麼提取pdf檔案中的圖片

通常我們在網上下載的PDF檔案中，圖片和文字都是在一起的，當我們看到一些好看的圖片想儲存下來的時候，那麼，我們怎麼提取PDF檔案中的圖片呢，小編在這裡向大家簡單的介紹一下提取PDF檔案中的圖片吧。 1、PDF檔案大家都知道是無法修改的，那我們怎麼把裡面好看的圖片提取出來呢。2、首先我們要在電腦上安裝一個××

怎麽提取pdf文件中的圖片

-o 文件的 ces 狀態圖片成功選擇 nag 當我通常我們在網上下載的PDF文件中，圖片和文字都是在一起的，當我們看到一些好看的圖片想保存下來的時候，那麽，我們怎麽提取PDF文件中的圖片呢，小編在這裏向大家簡單的介紹一下提取PDF文件中的圖片吧。 1、PDF文件大

Java 提取PDF文件中的圖片

在之前的文章中寫了如何從PDF文件中讀取文字內容，這篇文章接著介紹如何從PDF文件中讀取圖片。使用元件： Spire.PDF for JAVA （注意不是Free Spire.PDF for Java）在使用以下程式碼前，你需要下載Spire.PDF for JAVA包並解壓縮，

電腦中如何提取PDF檔案中的圖片

通常，我們在一些PDF檔案中看到一些好看的圖片，想將圖片儲存下來，但是PDF檔案是無法編輯的，在檔案自身當中我們無法將圖片完成的提取出來，因此大家都會想辦法在不破壞圖片完整性的情況下將圖片從PDF檔案中提取出來，下面就跟大家分享一下小編是從電腦中如何提取PDF檔案中的圖片。藉助工具：×××換器1.在PDF檔案

電腦中如何提取PDF文件中的圖片

頁面 pdf 輸出文件中技術分享完整再次文件夾定義通常，我們在一些PDF文件中看到一些好看的圖片，想將圖片保存下來，但是PDF文件是無法編輯的，在文件自身當中我們無法將圖片完成的提取出來，因此大家都會想辦法在不破壞圖片完整性的情況下將圖片從PDF文件中提取出來

Python程式設計：利用ImageMagick轉換PDF為圖片並識別提取圖表

思路是這樣的： pdf -> image -> 識別其中的圖表 -> 通過PIL擷取圖片整個過程嘗試了很多方式，最終效果不是很完美，還需要繼續探索包括以下開源庫 Tabula 前端截圖提取表格資料，效果還可以，使用簡單使用步驟：

如何提取PDF檔案中的圖片

　　在處理一些文件資料的時候有時需要將裡面的某些型別的內容單獨提取出來，提取文件中的圖片就是很常見。可是不同型別的文件在操作上都有些不同，如果是要提取PDF中的圖片又該如何進行操作呢？首先介紹最常見的方法——直接開啟檔案對文件中的圖片進行一一儲存，如果圖片不多可以

python 提取pdf檔案中的資訊

python 讀取pdf檔案有3個擴充套件包 pdfminer3k（python2中為pdfminer）、fitz和pymupdf 1.pdfminer3k 讀取並獲得pdf文件中的資訊： from pdfminer.pdfparser import PDFPars

用PDFMiner從PDF中提取文本文字

dfp port 下載 span setup 技術分享 code with converter 1、下載並安裝PDFMiner 　　從https://pypi.python.org/pypi/pdfminer/下載PDFMineer wget https://pypi.p

[python學習] 簡單爬取圖片站點圖庫中圖片

ctu while 要去文章 ava ges file cor nal 近期老師讓學習Python與維基百科相關的知識，無聊之中用Python簡單做了個爬取“遊訊網圖庫”中的圖片，由於每次點擊下一張感覺很浪費時間又繁瑣。主要分享的是怎樣爬取HTML

Python處理CSV,Excel,PDF和圖片

action 利用 www string 是我 num 字符 msu 樣式使用Python處理CSV格式數據CSV數據：逗號分隔值（Comma-Separated Values，CSV，有時也稱為字符分隔值，因為分隔字符也可以不是逗號），其文件以純文本形式存儲表格數據（數

python學習筆記——爬蟲中提取網頁中的信息

個數傳輸自由 tro 不一定很多 set 字符串 2.4 1 數據類型網頁中的數據類型可分為結構化數據、半結構化數據、非結構化數據三種 1.1 結構化數據常見的是MySQL，表現為二維形式的數據 1.2 半結構化數據是結構化數據的一種形式，並不符合關系型數據

提取PDF文檔圖片的最佳方式沒有之一

com 但是轉換成 pro 圖片上傳圖文教程 ges 方法 PDF格式文件的內容有文字也有圖片，當需要提取圖片的時候，有很多方式可以實現，但是如果想達到快速提取、準確無誤，最佳方法的圖文教程如下： 1、首先打開pdf365在線轉換平臺,pdf365.cn網站； 2、點

C# 提取PDF文本和圖片

raw namespace Spire.PDF strong ffffff != aging lena gef 任務要求：提取PDF文檔中的文本提取PDF文檔中的圖片所需工具： Free Spire.PDF for .NET 4.3 （免費版）實現代碼：【

用python解析pdf中的文字與表格【pdfplumber的安裝與使用】

我們接觸到的很多文件資料都是以pdf格式存在的，比如：論文，技術文件，標準檔案，書籍等。pdf格式使得用機器從中提取資訊格外困難。為了解決這個問題，我找到了幾種解決方案，最後選擇了python上的pdfplumber庫，安裝和使用都相對比較方便，效果也還不錯，所以下面介紹這個庫的安裝與使用。安裝我的電

提取pdf中的圖片 python

相關推薦