java操作word,pdf的四種武器

阿新 • • 發佈：2018-12-29

下面是一個如何使用pdfbox抽取pdf檔案的例子：
import org.pdfbox.pdmodel.PDdocument．
import org.pdfbox.pdfparser.PDFParser;
import java.io.*;
import org.pdfbox.util.PDFTextStripper;
import java.util.Date;
/**
* Title: pdf extraction
* Description: email:[email protected]
* Copyright: Matrix Copyright (c) 2003
* Company: Matrix.org.cn
* @author chris
* @version 1.0,who use this example pls remain the declare
*/

public class PdfExtracter{

public PdfExtracter(){
 }
public String GetTextFromPdf(String filename) throws Exception
 {
 String temp=null;
 PDdocument．nbsppdfdocument．null;
 FileInputStream is=new FileInputStream(filename);
 PDFParser parser = new PDFParser( is );
 parser.parse();
 pdfdocument．nbsp= parser.getPDdocument．);
 ByteArrayOutputStream out = new ByteArrayOutputStream();
 OutputStreamWriter writer = new OutputStreamWriter( out );
 PDFTextStripper stripper = new PDFTextStripper();
 stripper.writeText(pdfdocument．getdocument．), writer );
 writer.close();
 byte[] contents = out.toByteArray();

 String ts=new String(contents);
 System.out.println("the string length is"+contents.length+"");
 return ts;
}
public static void main(String args[])
{
PdfExtracter pf=new PdfExtracter();
PDdocument．nbsppdfdocument．nbsp= null;

try{
String ts=pf.GetTextFromPdf("c://a.pdf");
System.out.println(ts);
}
catch(Exception e)
 {
 e.printStackTrace();
 }
}

}

 4.抽取支援中文的pdf檔案－xpdf

xpdf是一個開源專案，我們可以呼叫他的本地方法來實現抽取中文pdf檔案。
下載xpdf函式包：

java操作word,pdf的四種武器

java操作word,pdf的四種武器

《java抽取word,pdf的四種武器》 (轉載遼河數碼)

Java抽取word,pdf的四種武器

【轉貼】java抽取word,pdf的四種武器

java操作word/excel/pdf等檔案技術方案

java 強弱軟虛四種引用，以及用到的場景

java學習——Map的四種遍歷方法

Java 處理 XML的四種方法 --&gt;附:XmlUtils

Java 建立物件的四種方式

詳解Java解析XML的四種方法（轉載）

XML解析——Java中XML的四種解析方式（轉載 by 龍清揚）

java 類之間的四種關係詳解

Java 執行緒池四種建立方式

JAVA遍歷list四種方法及其效率比較

JAVA中this的四種用法的詳解

java中常見的四種執行緒池的區別

Java中XML的四種解析方式

Java解析XML的四種方法詳解

[java]static關鍵字的四種用法

Java魔法堂：四種引用型別、ReferenceQueue和WeakHashMap

java操作word,pdf的四種武器

相關推薦