java從pdf中提取文字

阿新 • • 發佈：2021-02-14

一(單檔案轉換)：下載pdfbox包，百度搜pdfbox.(fontbox-1.8.16.jar和pdfbox-app-1.8.16.jar)

 1 package pdf;
 2 
 3 import java.io.FileInputStream;
 4 import java.io.FileOutputStream;
 5 import java.io.OutputStreamWriter;
 6 
 7 import org.apache.pdfbox.pdfparser.PDFParser;
 8 import org.apache.pdfbox.pdmodel.PDDocument;
 9 import org.apache.pdfbox.util.PDFTextStripper;
10 
11 /**
12  * 
13  * @author 大漢
14  *
15  */
16 public class PdfToTxt {
17 
18     public PdfToTxt() {
19         super();
20         // TODO Auto-generated constructor stub
21     }
22 
23     /**
24      * 
25      * @param filename
26      * @return
27      * @throws Exception
28      */
29     public String GetTextFromPdf(String filename) throws Exception {
30         
31         String content = null;    
32         PDDocument pdfdocument = null;
33         
34         FileInputStream is = new FileInputStream(filename);
35         PDFParser parser = new PDFParser(is);
36         
37         parser.parse();        
38         pdfdocument = parser.getPDDocument();     
39         PDFTextStripper stripper = new PDFTextStripper();
40          content = stripper.getText(pdfdocument);
41          return content;    
42          } 
43     
44     /**
45      * 
46      * @param args
47      */
48     public static void main(String[] args) {
49         PdfToTxt pdfToTxt = new PdfToTxt();
50         try {
51             //獲取pdf檔案路徑
52             String pdf = pdfToTxt.GetTextFromPdf("E:/2019a.pdf");
53             //輸出到txt檔案
54             OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("E:/aa.txt"));
55             osw.write(pdf);
56             osw.flush();
57             osw.close();
58         }catch (Exception e){
59             e.printStackTrace();
60         }
61         
62     }
63         
64 }

還可以這樣：(第二種方法)

  1 package pdf;
  2 
  3 import java.io.File;
  4 import java.io.FileOutputStream;
  5 import java.io.OutputStreamWriter;
  6 import java.io.Writer;
  7 import java.net.MalformedURLException;
  8 import java.net.URL;
  9 
 10 import org.apache.pdfbox.pdmodel.PDDocument;
 11 import org.apache.pdfbox.util.PDFTextStripper;
 12 
 13 /**
 14  * 批量轉換
 15  * @author 大漢
 16  *
 17  */
 18 public class BatchPdfToTxt {
 19 
 20     public BatchPdfToTxt() {
 21         super();
 22         // TODO Auto-generated constructor stub
 23     }
 24 
 25     public static void readPdf(String file) throws Exception {
 26         // 是否排序
 27         boolean sort = false;
 28         // pdf檔名
 29         String pdfFile = file;
 30         // 輸入文字檔名稱
 31         String textFile = null;
 32         // 編碼方式
 33         String encoding = "UTF-8";
 34         // 開始提取頁數
 35         int startPage = 1;
 36         // 結束提取頁數
 37         int endPage = Integer.MAX_VALUE;
 38         // 檔案輸入流，生成文字檔案
 39         Writer output = null;
 40         // 記憶體中儲存的PDF Document
 41         PDDocument document = null;
 42         try {
 43             try {
 44                 // 首先當作一個URL來裝載檔案，如果得到異常再從本地檔案系統//去裝載檔案
 45                 URL url = new URL(pdfFile);
 46                 //注意引數已不是以前版本中的URL.而是File。
 47                 document = PDDocument.load(pdfFile);
 48                 // 獲取PDF的檔名
 49                 String fileName = url.getFile();
 50                 // 以原來PDF的名稱來命名新產生的txt檔案
 51                 if (fileName.length() > 4) {
 52                     File outputFile = new File(fileName.substring(0, fileName.length() - 4)+ ".txt");
 53                     textFile ="E:/"+outputFile.getName();
 54                 }
 55             } catch (MalformedURLException e) {
 56                 // 如果作為URL裝載得到異常則從檔案系統裝載
 57                 //注意引數已不是以前版本中的URL.而是File。
 58                 document = PDDocument.load(pdfFile);
 59                 if (pdfFile.length() > 4) {
 60                     textFile = pdfFile.substring(0, pdfFile.length() - 4)+ ".txt";
 61                 }
 62             }
 63             // 檔案輸入流，寫入檔案倒textFile
 64             output = new OutputStreamWriter(new FileOutputStream(textFile),encoding);
 65             // PDFTextStripper來提取文字
 66             PDFTextStripper stripper = null;
 67             stripper = new PDFTextStripper();
 68             // 設定是否排序
 69             stripper.setSortByPosition(sort);
 70             // 設定起始頁
 71             stripper.setStartPage(startPage);
 72             // 設定結束頁
 73             stripper.setEndPage(endPage);
 74             // 呼叫PDFTextStripper的writeText提取並輸出文字
 75             stripper.writeText(document, output);
 76             
 77             System.out.println(textFile + " 輸出成功！");
 78         } finally {
 79             if (output != null) {
 80                 // 關閉輸出流
 81                 output.close();
 82             }
 83             if (document != null) {
 84                 // 關閉PDF Document
 85                 document.close();
 86             }
 87         }
 88     }
 89     /**
 90      * 
 91      * @param args
 92      */
 93     public static void main(String[] args) {
 94         try {
 95             //注意此處的絕對地址格式，最好要用這一種。
 96             readPdf("E:/使用者行為排序演算法.pdf");
 97         } catch (Exception e) {
 98             e.printStackTrace();
 99         }
100     }
101 }

效果圖：

總結：唯一的缺點是不能顯示圖片，請看下一篇：----------------------->>>>>>>>PDF轉WORD.

java從pdf中提取文字

技術標籤：java大資料poimapreducejmeter 一(單檔案轉換)：下載pdfbox包，百度搜pdfbox.(fontbox-1.8.16.jar和pdfbox-app-1.8.16.jar)

python從PDF中提取資料的示例

01 前言資料是資料科學中任何分析的關鍵，大多數分析中最常用的資料集型別是儲存在逗號分隔值(csv)表中的乾淨資料。然而，由於可移植文件格式(pdf)檔案是最常用的檔案格式之一，因此每個資料科學家都應該瞭解如何從

Python使用get_text()方法從大段html中提取文字的例項

如下所示： <textarea rows=\"\" cols=\"\" name=\"id\"><DIV style=\"TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000\" class=MsoNormal><SPAN style=\"FONT-FAMILY: 宋體; FONT-SIZE: 9pt; m

python辦公自動化——提取pdf中的文字和表格

技術標籤：python爬蟲python python辦公自動化——提取pdf中的文字和表格一、提取pdf中的文字

java 每次從List中提取100條記錄

java 每次從List中提取100條記錄；常用於介面請求引數組裝；例如企業微信考勤介面要求：

Java 在PDF中新增頁面跳轉按鈕功能(程式碼演示)

在PDF 中可通過按鈕來新增動作跳轉到指定頁面，包括跳轉到文件首頁、文件末頁、跳轉到上一頁、下一頁、或跳轉到指定頁面等。下面將通過java程式碼來演示如何新增具有以上幾種功能的按鈕。

python每5分鐘從kafka中提取資料的例子

我就廢話不多說了，直接上程式碼吧！ import sys sys.path.append(\"..\") from datetime import datetime

Java 在PDF中新增條形碼的兩種方法

條形碼，是由寬度不等的多個黑條和空白所組成，用以表達一組資訊的圖形識別符號。通過給文件新增條形碼，可以直觀，快捷地訪問和分享一些重要的資訊。本文就將通過使用Java程式來演示如何在PDF文件中新增Codebar、Co

Java 在PPT中新增文字和圖片超連結的實現方法

在文件中新增超連結，可以快速從當前文件跳轉至指定的網頁或開啟指定的外部檔案。前文中我們介紹過如何使用Java程式來為Word文件和Excel工作表新增超連結。本文將演示如何在PPT中新增文字和圖片超連結。

Java 在PDF中繪製形狀的兩種方法

在我們編輯PDF文件的過程中，有時候需要在文件中新增一些如多邊形、矩形、橢圓形之類的圖形，而Free Spire PDF for Java 則正好可以幫助我們在Java程式中通過程式碼在PDF文件中繪製形狀，以及設定形狀邊線顏色和填充

Java 在PDF中繪製形狀（基於Spire.Cloud.SDK for Java）

Spire.Cloud.SDK for Java提供了pdfPathApi介面可用於在PDF文件中繪製形狀（或圖形），如繪製線條形狀drawLine()、繪製矩形形狀drawRectanglef()，下面將介紹如何通過Java示例和步驟來實現：

淺談如何使用vb.net從資料庫中提取資料

1.設定從Model中的Sub Main 啟動 2.程式結構 3.Model1 Imports System.Windows.Forms.Application Module Module1

Java 在PDF中新增騎縫章

騎縫章是用於往來業務合同，以確保合同真實、有效的印章加蓋方法，是一種防範風險的重要方式。在Java程式中，可以通過使用工具來輔助加蓋這種騎縫章。

Java 在PDF中新增騎縫章示例解析

python讀取pdf中的文字內容

# pip3 install pdfminer3k from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

Python-從郵件中提取內容並插入資料庫

引子有100多封eml格式的本地郵件，需要從每封郵件中提取出特定的內容，並插入資料庫中。難處在於如何使用正則提取內容。想試驗正則表示式的結果，可以下載RegexBuddy，方便除錯。

如何快速從excel中提取手機號碼出來的方法

我們在電腦上處理一些資料的時候，比如一些資料表格，會遇到問題：excel中從文字中提取電話號碼數字的操作方法?怎樣單獨挑出來裡面的手機號碼，好給我們聯絡客戶呢？請看下面這張圖,從裡面的資料看,是手機機

如何給PDF中的文字設定高亮顯示

怎麼設定PDF文字域高亮？我們在檢視資料時經常會使用不同顏色的記號筆給一些重要段落進行標記，便於快速查詢。那麼對於PDF電子文件的標記我們成為高亮，那麼如何進行高亮操作呢？

Js如何從字串中提取數字？

如果想要將一個字串中的數字給提取出來，這要怎麼做？在JavaScript中可以使用match()方法將字串中的數字提取到數字陣列中。此方法將正則表示式作為引數，並從字串中提取數字。

Java 獲取PDF中的數字簽名信息

一、概述及程式環境要求本文以Java程式碼演示如何獲取PDF文件中的數字簽名信息，包括簽名人、簽名位置、日期、原因、聯絡方式、簽名在文件中的座標等等。

java從pdf中提取文字

相關推薦