用PDFMiner從PDF中提取文本文字

阿新 • • 發佈：2017-05-08

dfp port 下載 span setup 技術分享 code with converter

1、下載並安裝PDFMiner

　　從https://pypi.python.org/pypi/pdfminer/下載PDFMineer

wget https://pypi.python.org/packages/57/4f/e1df0437858188d2d36466a7bb89aa024d252bd0b7e3ba90cbc567c6c0b8/pdfminer-20140328.tar.gz#md5=dfe3eb1b7b7017ab514aad6751a7c2ea

　　加壓並安裝

tar -zxvf pdfminer-20140328.tar.gz
cd pdfminer-20140328/
make cmap　　#防止中文亂碼，否則處理中文會出現一大堆（CID:xxx）
 
sudo python setup.py install

2、提取文本文字

from cStringIO import StringIO
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
import sys
import string

def convert_pdf_2_text(path):
    rsrcmgr  
= PDFResourceManager()
    retstr = StringIO()
    device = TextConverter(rsrcmgr, retstr, codec=‘utf-8‘, laparams=LAParams())
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    with open(path, ‘rb‘) as fp:
        for page in PDFPage.get_pages(fp, set()):
            interpreter.process_page(page)
        text  
= retstr.getvalue()
    device.close()
    retstr.close()
    return text

text = convert_pdf_2_text(sys.argv[1])
open(‘real?.txt‘,‘wb‘).write(text)

3、測試結果

技術分享

【1】http://www.unixuser.org/~euske/python/pdfminer/#source

【2】https://www.zhihu.com/question/31586273

用PDFMiner從PDF中提取文本文字

dfp port 下載 span setup 技術分享 code with converter 1、下載並安裝PDFMiner 　　從https://pypi.python.org/pypi/pdfminer/下載PDFMineer wget https://pypi.p

Qt 用QRegExp從字串中提取車牌號碼

main.cpp #include <QCoreApplication> #include <QRegExp> #include <QString> #inclu

怎樣使用PDF編輯軟件，怎麽從PDF中提取單頁

都是一個 Edito 文章操作 class auto 一起範圍　　一份PDF文檔可能不是每一頁的內容都是我們所需要的，但是我們又不是直接將需要的部分復制下來，剩下的頁面也不想直接的刪除掉，那麽我們可不可以提取呢？下面一起看PDF編輯器怎麽提取pdf其中一頁。就跟小編

在RichTextBox控件中替換文本文字

bject ron void pri ima geb bubuko sele src 實現效果: 　　知識運用: 　　RichTextBox控件的SelectedText屬性實現代碼: private void button1_Click(object

用Python建一個OCR服務器，直接提取圖中的文本

腳本 stdout 文件的等等編程語言 nic 樣本 href 常用工具 Why？ OCR（又叫光學字符識別）已經成為Python的一個常用工具。隨著開源庫Tesseract和Ocrad的出現，越來越多的程序員用OCR來編寫自己的庫文件和bot病毒。一個OCR的小例子，

使用pyltp提取文本中的地址

使用 += star port 名稱模型 tput pan coder 首先安裝pyltp pytlp項目首頁單例類（第一次調用時加載模型） class Singleton(object): def __new__(cls, *args, **kwargs)

從Oracle中提取xml文件

-- PACKAGE OF DBMS_SQL 遊標執行流程 -- -- ----------- -- | open_cursor | --

從0到1，了解NLP中的文本相似度

答案更新 hive 貸款 sem += 大宗商品判斷坐標本文由雲+社區發表作者：netkiddy 導語 AI在2018年應該是互聯網界最火的名詞，沒有之一。時間來到了9102年，也是項目相關，涉及到了一些AI寫作相關的功能，為客戶生成一些素材文章。但是，A

linux中vim文本編輯器

vim文本編譯器 vim文本編輯器1：vim文本編輯器是什麽？Vim是一個類似於Vi的著名的功能強大、高度可定制的文本編輯器，在Vi的基礎上改進和增加了很多特性。VIM是自由軟件。（來自百度百

js 選中div中的文本

tno ntb 方法 doc alert gets selection dex all function selectText(element) { var text = document.getElementById(element);

Pandas: 如何將一列中的文本拆分為多行？ | Python

gid scene pmo lua ioe solid gige ble app Pandas: 如何將一列中的文本拆分為多行？在數據處理過程中，經常會遇到以下類型的數據：在同一列中，本該分別填入多行中的數據，被填在一行裏了，然而在分析的時候，需要拆分成為多

JS修改標簽中的文本且不影響其中標簽

stack blog lang nal class value eval element ons /********************************************************************* *

Jsoup代碼示例、解析網頁+提取文本

執行 jar包 .text set tex ons 分享使用登陸使用Jsoup解析HTML 那麽我們就必須用到HttpClient先獲取到html 同樣我們引入HttpClient相關jar包以及commonIO的jar包我們把httpClient的基本代碼

SnowNLP：?中文分詞?詞性標準?提取文本摘要,?提取文本關鍵詞,?轉換成拼音?繁體轉簡體的處理中文文本的Python3 類庫

sum 文本分類 idf 區別 xtran 轉換成好的一個 osi SnowNLP是一個python寫的類庫，可以方便的處理中文文本內容，是受到了TextBlob的啟發而寫的，由於現在大部分的自然語言處理庫基本都是針對英文的，於是寫了一個方便處理中文的類庫，並且和

Unity中建立文本保存數據

HA 文本文 obj onu pla pat ble input getc public void CreateYunYD() { GameToolsManager.Instance.effectType = EFFECTTYPE.YunYD;

H.264從SPS中提取視頻寬高

ufs ase tel .html eva depth spl evel rip H.264有兩種封裝模式：（1）annexb模式：傳統模式，使用start code來分隔NAL， SPS和PPS是在ES流的頭部；（2）mp4模式：沒有start code，使用NALU

How to extract pcd from a rosbag？如何從rosbag中提取pcd

disk div files org class ont int osb rac 4.1 bag_to_pcd Reads a bag file, saving all ROS point cloud messages on a specified topic as PCD

【hive】從url中提取需要的部分字串

本人菜鳥一隻，如果有什麼說錯的地方還請大家批評指出！！事情是這樣的，hive的A表中，有url這樣的一個欄位，我想要提取這個欄位中的某一部分（這不就是擷取字串嘛）。但是substring肯定是滿足不了我的需求的，自己寫hive的udf也不太現實（用最簡單的方式完成任務，才會讓後來的維護變得更加

用python解析pdf中的文字與表格【pdfplumber的安裝與使用】

我們接觸到的很多文件資料都是以pdf格式存在的，比如：論文，技術文件，標準檔案，書籍等。pdf格式使得用機器從中提取資訊格外困難。為了解決這個問題，我找到了幾種解決方案，最後選擇了python上的pdfplumber庫，安裝和使用都相對比較方便，效果也還不錯，所以下面介紹這個庫的安裝與使用。安裝我的電

Excel怎樣從字串中提取位置和長度不固定的數字

最近上課的時候，常常有學員諮詢怎樣從Excel字元中提取位置和長度都不固定的數字，今天我們分兩種情況來聊一聊對應的解決方案。情況1：數字前後有特定的分隔符如果數字前後有特定的分隔符，比如（）、##等分隔符，那麼我們可以通過查詢這些分隔符的位置，來定位到數字的位置。比如下圖所示的這個

用PDFMiner從PDF中提取文本文字

相關推薦