Java 讀取PDF文字內容
阿新 • • 發佈:2018-11-22
本文將介紹如何在Java應用程式中讀取PDF檔案的文字內容。
在Java應用程式中讀取PDF,我們可以藉助第三方PDF控制元件,本文所使用的控制元件是免費Java PDF元件Free Spire.PDF for JAVA。
在使用以下程式碼前,你需要下載Free Spire.PDF for JAVA包並解壓縮,然後從lib資料夾下,匯入Spire.Pdf.jar包和Spire.Common.jar包到你的Java應用程式中:
Extract_Text.Java
import com.spire.pdf.PdfDocument; import com.spire.pdf.PdfPageBase; import java.io.*; public class Extract_Text { public static void main(String[] args) { //建立PdfDocument例項 PdfDocument doc= new PdfDocument(); //載入PDF檔案 doc.loadFromFile("test.pdf"); StringBuilder sb= new StringBuilder(); PdfPageBase page; //遍歷PDF頁面,獲取文字 for(int i=0;i<doc.getPages().getCount();i++){ page=doc.getPages().get(i); sb.append(page.extractText(true)); } FileWriter writer; try { //將文字寫入文字檔案 writer = new FileWriter("ExtractText.txt"); writer.write(sb.toString()); writer.flush(); } catch (IOException e) { e.printStackTrace(); } doc.close(); }
PDF檔案:
輸出文字檔案: