python讀取pdf中的文字

阿新 • • 發佈：2019-01-14

python處理pdf也是常用的技術了，對於python3來說，pdfminer3k是一個非常好的工具。

pip install pdfminer3k

我主要是想在pdf中抽出自己想要的一些關鍵資訊，所以需要找到這些資訊的共同點。幸運的是，這些關鍵資訊的行都含有'//'，所以我只需找到含有'//'的行就行了，於是寫了以下指令碼。

這樣就可以直接使用了，我們先看指令碼：


from io import StringIO
from io import open
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFResourceManager, process_pdf


def read_pdf(pdf):
    # resource manager
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    laparams = LAParams()
    # device
    device = TextConverter(rsrcmgr, retstr, laparams=laparams)
    process_pdf(rsrcmgr, device, pdf)
    device.close()
    content = retstr.getvalue()
    retstr.close()
    # 獲取所有行
    lines = str(content).split("\n")

    units = [1, 2, 3, 5, 7, 8, 9, 11, 12, 13]
    header = '\x0cUNIT '
    # print(lines[0:100])
    count = 0
    flag = False
    text = open('words.txt', 'w+')
    for line in lines:
        if line.startswith(header):
            flag = False
            count += 1
            if count in units:
                flag = True
                print(line)
                text.writelines(line + '\n')
        if '//' in line and flag:
            text_line = line.split('//')[0].split('. ')[-1]
            print(text_line)
            text.writelines(text_line+'\n')
    text.close()


def _main():
    my_pdf = open('t1.pdf', "rb")
    read_pdf(my_pdf)
    my_pdf.close()


if __name__ == '__main__':
    _main()

其實看到lines = str(content).split("\n")那一行就夠了，我們可以把lines都print出來，就可以看到pdf裡面的內容。

這樣我們就可以把pdf檔案處理看作簡單的字串資料處理了。接下來的指令碼操作也不用過多解釋了。

python讀取pdf中的文字

python處理pdf也是常用的技術了，對於python3來說，pdfminer3k是一個非常好的工具。 pip install pdfminer3k 我主要是想在pdf中抽出自己想要的一些關鍵資訊，所以需要找到這些資訊的共同點。幸運的是，這些關鍵資訊的行都含有'//'，所以我只需找到含有'

用python解析pdf中的文字與表格【pdfplumber的安裝與使用】

我們接觸到的很多文件資料都是以pdf格式存在的，比如：論文，技術文件，標準檔案，書籍等。pdf格式使得用機器從中提取資訊格外困難。為了解決這個問題，我找到了幾種解決方案，最後選擇了python上的pdfplumber庫，安裝和使用都相對比較方便，效果也還不錯，所以下面介紹這個庫的安裝與使用。安裝我的電

Python讀取郵箱中的郵件，含文字，附件

#-*- encoding: utf-8 -*- import sys import locale import poplib from email import parser import email import string # 確定執行環境的encod

Python讀取pdf文件只讀文字的情況

# coding=utf-8 import pdfminer #讀取pdf檔案 from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAParams from pdfmin

Gitbook 生成 pdf 中文字體錯亂問題解決辦法

開發沒有 tex spa 語句 auth 希望 node 遺憾 Gitbook 生成 pdf 中文字體錯亂問題解決辦法用過 Gitbook 的都知道, Gitbook 會自動生成 pdf 以提供下載, 但十分遺憾的是自動生成的 pdf 對中文的支持並不好, 經常

C#讀取含中文字符的數據，失敗原因，和解決辦法

address p s tps home 拓撲時代 res 筆試題 baidu C++內存檢測如何理解設備樹中address-cells和size-cells 補《歡聚時代2017校招筆試題目（PHP工程師類）---錯題解析》 QGC地圖上任務項銜擄懶蹤恃梢刻

python 讀取excel中單元格的內容

python 讀取excel中單元格的內容 excel檔

python讀取表中的json再重新寫入會出現中文變成unicode碼

有一個表中的欄位是gbk格式，比如該欄位是comment：這是人和公園的西門然後將該欄位要插入另一個表(utf8)中的某個欄位：該欄位是個json，往該json中添加一個新的欄位commen

python 讀取資料庫中的BLOB型別欄位，並存儲檔案到本地

import os import cx_Oracle os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8' db_orcl = cx_Oracle.connect("使用者/[email protected]/orcl"

Python 讀取檔案中unicode編碼轉成中文顯示問題

Python讀取檔案中的字串已經是unicode編碼，如：\u53eb\u6211，需要轉換成中文時有兩種方式 1.使用eval eval("u"+"\'"+unicodestr+"\'") 2.使用decode： str1 = '\u4f60\u

python 讀取txt中文文字

新版本的python 其實簡化了中文文字的讀取過程，然而我之前搜了很多教程，一直沒有辦法很好的讀取中文，現將程式碼附上，以便後來者少走彎路由於中文文件是‘gbk’的編碼方式，我們需要將‘gbk’轉化為utf-8 只要在開啟檔案的時候encode一下即可

Python提取PDF中的圖片

# 2018/08/16更新：有些同學不知道fitz庫是什麼，它是pymupdf中的一個模組，操作PDF非常舒服，只需要pip安裝即可： pip install pymupdf Python提取word中的圖片(需要的自取）：最近專案需要把word、PDF中的

python讀取檔案中的一行有效資料

資料格式： t1.txt 1 1123 1y211 121&*dd99 0000 01 23 0111 993 d 984 程式碼： total =

python讀取pdf文件-實戰

# -*- coding: utf-8 -*- #讀取pdf文件 from pdfminer.converter import PDFPageAggregator from pdfminer.layou

python讀取csv中所遇到的中文編碼問題

由於本人準備學習使用一些機器學習演算法，第一個是DecisionTree，然後使用到了西瓜案例：因為涉及到討厭的編碼問題，所以找了好多辦法去嘗試讀取csv檔案： 1. pandas pandas可謂是神奇，用python學習機器學習不可缺

python讀取中文txt文字

對於python2.7 字串在Python2.7內部的表示是unicode編碼，因此，在做編碼轉換時，通常需要以unicode作為中間編碼，即先將其他編碼的字串解碼成unicode，再從unico

用Java讀取pdf中的資料

textFile = pdfFile.substring(0, pdfFile.length() - 4) + ".txt"; } } // 檔案輸入流，寫入檔案倒textFile output = new OutputStreamWriter(new Fil

如何用Python從PDF檔案中提取文字詞彙

在日常工作中，有時可能需要解析一些 PDF 檔案，提取檔案中的關鍵詞，好讓它們能夠被我們搜尋。解決這個問題的重要部分就是找到如何從 PDF 檔案中提取文字資料的方法。從如果是幾張或者幾十張倒還好辦，那要是幾百幾千張，可能就有點麻煩了。幸好我們可以用 Python 完成這項工作。下面就分享

如何用python讀取文字中指定行的內容

1 利用python的readlines()函式: <strong><span style="font-size:24px;"> </span><span style="font-size:14px;">fobj = op

用python讀取文字資訊，進行處理，寫到另一檔案中

題目：把歌詞轉化成一句話一行的文字且不包含標點符號思路：開啟檔案位置，讀取檔案中所有資訊以列表形式展示，把列表轉化成字串，去除裡面的所有空格回車符號。（是為了讓資訊以歌詞形式展開，一句話一行）用正則表示式去除掉裡面所有的標點符號，放入列表中。遍歷列表中的資訊，放到另一個檔案中

python讀取pdf中的文字

相關推薦