Tika文字提取工具的使用(word、pdf、excel等)

阿新 • • 發佈：2019-01-09

Tika是Apache的Lucene專案下面的子專案，在lucene的應用中可以使用tika獲取大批量文件中的內容來建立索引，非常方便，也很容易使用~

Tika的缺點就是都是依賴外部的jar包，導致jar包的重量太大，lucene的核心包只有1M，tika約20M，tika依賴的外部的jar包有多樣的功能，比如PDFBox和Apache POI能獲取文件的字型，佈置和內建圖片資訊，而Tika只是獲取文字資訊。但是這些外部的jar包又沒有把獲取文字資訊的抽離出一個單獨的jar包。

1、Tika的作用

工程結構：

2、Tika的工具類

[java] view plain copy print

package org.lucene.util;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;
import org.apache.lucene.util.Version;
import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;
import com.chenlb.mmseg4j.analysis.MMSegAnalyzer;
publicclass IndexUtil {
/**
* 直接讀取pdf建立索引，結果是索引建立成功了，但是索引儲存的資料卻是亂的
*/
publicvoid index() {
try {
File f = new File("F:\\文件資料\\lucene_in_action中文版.pdf");
Directory dir = FSDirectory.open(new File("f:/lucene"));
IndexWriter writer = new IndexWriter(dir,new IndexWriterConfig(Version.LUCENE_35, new MMSegAnalyzer()));
writer.deleteAll();
Document doc = new Document();
doc.add(new Field("content",new Tika().parse(f)));
writer.addDocument(doc);
writer.close();
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (LockObtainFailedException e) {
e.printStackTrace();
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
/**
* 根據Tika得到文件的內容，這種比下面那種獲取的要簡單很多，
* 據tika的文件上說，效率沒有下面的那種高，可能封裝的比較多
* @param f
* @return
* @throws IOException
* @throws TikaException
*/
public String tikaTool(File f) throws IOException, TikaException {
Tika tika = new Tika();
Metadata metadata = new Metadata();
metadata.set(Metadata.AUTHOR, "空號");//重新設定文件的媒體內容
metadata.set(Metadata.RESOURCE_NAME_KEY, f.getName());
String str = tika.parseToString(new FileInputStream(f),metadata);
for(String name:metadata.names()) {
System.out.println(name+":"+metadata.get(name));
}
return str;
}
/**
* 根據Parser得到文件的內容
* @param f
* @return
*/
public String fileToTxt(File f) {
Parser parser = new AutoDetectParser();//自動檢測文件型別，自動建立相應的解析器
InputStream is = null;
try {
Metadata metadata = new Metadata();
metadata.set(Metadata.AUTHOR, "空號");//重新設定文件的媒體內容
metadata.set(Metadata.RESOURCE_NAME_KEY, f.getName());
is = new FileInputStream(f);
ContentHandler handler = new BodyContentHandler();
ParseContext context = new ParseContext();
context.set(Parser.class,parser);
parser.parse(is,handler, metadata,context);
for(String name:metadata.names()) {
System.out.println(name+":"+metadata.get(name));
}
return handler.toString();
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} catch (SAXException e) {
e.printStackTrace();
} catch (TikaException e) {
e.printStackTrace();
} finally {
try {
if(is!=null) is.close();
} catch (IOException e) {
e.printStackTrace();
}
}
returnnull;
}
}

package org.lucene.util;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;
import org.apache.lucene.util.Version;
import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;
import com.chenlb.mmseg4j.analysis.MMSegAnalyzer;

public class IndexUtil {
	/**
	 * 直接讀取pdf建立索引，結果是索引建立成功了，但是索引儲存的資料卻是亂的
	 */
	public void index() {
		try {
			File f = new File("F:\\文件資料\\lucene_in_action中文版.pdf");
			Directory dir = FSDirectory.open(new File("f:/lucene"));
			IndexWriter writer = new IndexWriter(dir,new IndexWriterConfig(Version.LUCENE_35, new MMSegAnalyzer()));
			writer.deleteAll();
			Document doc = new Document();
			doc.add(new Field("content",new Tika().parse(f)));
			writer.addDocument(doc);
			writer.close();
		} catch (CorruptIndexException e) {
			e.printStackTrace();
		} catch (LockObtainFailedException e) {
			e.printStackTrace();
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
	
	/**
	 * 根據Tika得到文件的內容，這種比下面那種獲取的要簡單很多，
	 * 據tika的文件上說，效率沒有下面的那種高，可能封裝的比較多
	 * @param f
	 * @return
	 * @throws IOException
	 * @throws TikaException
	 */
	public String tikaTool(File f) throws IOException, TikaException {
		Tika tika = new Tika();
		Metadata metadata = new Metadata();
		metadata.set(Metadata.AUTHOR, "空號");//重新設定文件的媒體內容
		metadata.set(Metadata.RESOURCE_NAME_KEY, f.getName());
		String str = tika.parseToString(new FileInputStream(f),metadata);
		for(String name:metadata.names()) {
			System.out.println(name+":"+metadata.get(name));
		}
		return str;
	}
	
	/**
	 * 根據Parser得到文件的內容
	 * @param f
	 * @return
	 */
	public String fileToTxt(File f) {
		Parser parser = new AutoDetectParser();//自動檢測文件型別，自動建立相應的解析器
		InputStream is = null;
		try {
			Metadata metadata = new Metadata();
			metadata.set(Metadata.AUTHOR, "空號");//重新設定文件的媒體內容
			metadata.set(Metadata.RESOURCE_NAME_KEY, f.getName());
			is = new FileInputStream(f);
			ContentHandler handler = new BodyContentHandler();
			ParseContext context = new ParseContext();
			context.set(Parser.class,parser);
			parser.parse(is,handler, metadata,context);
			for(String name:metadata.names()) {
				System.out.println(name+":"+metadata.get(name));
			}
			return handler.toString();
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		} catch (SAXException e) {
			e.printStackTrace();
		} catch (TikaException e) {
			e.printStackTrace();
		} finally {
			try {
				if(is!=null) is.close();
			} catch (IOException e) {
				e.printStackTrace();
			}
		}
		return null;
	}
}

3、測試類 [java] view plain copy print ?

package org.lucene.test;
import java.io.File;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.junit.Test;
import org.lucene.util.IndexUtil;
publicclass TestIndex {
@Test
publicvoid testIndex() {
IndexUtil iu = new IndexUtil();
iu.index();
}
@Test
publicvoid testTika01() {
IndexUtil iu = new IndexUtil();
System.out.println(iu.fileToTxt(new File("F:\\文件資料\\lucene_in_action中文版.pdf")));
}
@Test
publicvoid testToka02() throws IOException, TikaException {
IndexUtil iu = new IndexUtil();
System.out.println(iu.tikaTool(new File("F:\\文件資料\\初級SQL開發指南.doc")));
}
}

package org.lucene.test;

import java.io.File;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.junit.Test;
import org.lucene.util.IndexUtil;

public class TestIndex {
	@Test
	public void testIndex() {
		IndexUtil iu = new IndexUtil();
		iu.index();
	}
	
	@Test
	public void testTika01() {
		IndexUtil iu = new IndexUtil();
		System.out.println(iu.fileToTxt(new File("F:\\文件資料\\lucene_in_action中文版.pdf")));
	}
	
	@Test
	public void testToka02() throws IOException, TikaException {
		IndexUtil iu = new IndexUtil();
		System.out.println(iu.tikaTool(new File("F:\\文件資料\\初級SQL開發指南.doc")));
	}
}

Tika文字提取工具的使用(word、pdf、excel等)

Tika是Apache的Lucene專案下面的子專案，在lucene的應用中可以使用tika獲取大批量文件中的內容來建立索引，非常方便，也很容易使用~ Tika的缺點就是都是依賴外部的jar包，導致jar包的重量太大，lucene的核心包只有1M，tika約20M，tika依賴的外部的jar包有多樣的功能，

Apache tika -- 解析多種型別（word、pdf、txt 等）檔案！

http://cloudera.iteye.com/blog/737629 apache 是個偉大的組織。在lucene 檢索如火如荼時， apache不忘繼續努力，近期提供了對各種格式檔案進行解析的解決方案 -- apache旗下的tika. 雖然還沒有1.0版，但已經很好用： Jav

java通過url線上預覽Word、excel、ppt、pdf、txt文件中的內容【只獲得其中的文字】

在頁面上顯示各種文件中的內容。在servlet中的邏輯 word： BufferedInputStream bis = null; URL url = null; HttpURLConnection httpUrl = null; // 建立連結 url

Android應用內展示word、excel、pdf、ppt等檔案

筆者最近兩個專案裡頭都有需要展示檔案的功能，於是做了一番調研，發現asce1885給出一份方案，不過都是關於pdf的展示：http://www.jianshu.com/p/1bf49af6584d，顯然不符合筆者的要求，筆者的專案裡需要展示的檔案格式並不單一，後來經過一番搜尋最後敲定使用

js點選按鈕下載圖片、word、pdf、excel等

html： <button class="download" onclick=" download('url')"> <i class="layui-icon layui-icon-download-circle"><

java語言通過Aspose元件實現word轉pdf、png、html..

：使用Aspose元件可以實現word向DOC, DOCX, OOXML, RTF HTML,OpenDocument, PDF,EPUB, XPS, SWF 轉換由於基本方法都一樣，在此我只展示word轉pdf的功能前期準備： MyEcl

使用Jacob批量轉換word為txt、pdf、xps、html、xml等文件

Jacob全稱位java com bridge，通過該外掛，可以使用Java語言編寫程式，呼叫COM、ActiveX元件來操作Windows本地程式。參考一位網友的例子，我寫了一個程式，用來將word批量轉換為txt等格式的文件。該程式核心部分，僅僅是呼叫了Jacob的

C#實現 word、pdf、ppt 轉為圖片

public class Word2ImageConverter : IImageConverter { private bool cancelled = false; public event CbGeneric<int, int> Pr

Asp.net實現直接在瀏覽器預覽Word、Excel、PDF、Txt檔案（附原始碼）

publicstaticvoid Priview(System.Web.UI.Page p, string inFilePath, string outDirPath ="") { Microsoft.Office.Interop.Excel.Application excel =nul

Java之生成條形碼、PDF、HTML

fort ges version lba oat 模型 base64 xsd solver 關於Java生成HTML，可參考我的這篇文章:FreeMarker之根據模型生成HTML代碼當然了，該篇文章也會給你很多啟發，比如，根據html生成html，大家不要小看這個，著名

測試 ClownFish、CYQ、Entity Framework、Moon、MySoft、NHibernate、PDF、XCode資料訪問元件效能

下期預告：由於很多園友反饋，有的元件不應該缺席、測試複雜度不夠、測試還缺乏一定的公平。因此考慮在下一個版本中，確保在更加公平的前提下進行更高複雜度的測試。同時將分為2組測試，純SQL元件及純ORM元件，如果純SQL元件不足，就只進行純ORM元件的測試。待加入測試元件有Dapper、PetaPoco/NPo

Java PowerPoint轉圖片、PDF、XPS和SVG等格式檔案

這篇文章介紹如何在Java應用程式中將PowerPoint文件轉換為圖片、PDF、XPS和SVG等格式。使用元件： Free Spire.Presentation for Java 元件簡介：Free Spire.Presentation for Java是一個免費Java Power

使用Lucene對doc、docx、pdf、txt文件進行全文檢索功能的實現

這裡講一下使用Lucene對doc、docx、pdf、txt文件進行全文檢索功能的實現。涉及到的類一共有兩個： LuceneCreateIndex，建立索引： package com.yhd.test.poi; import java.io.BufferedReader; impo

jasperreport實現Html、Pdf、Rtf、 Excel、Xml報表匯出

1.資料來源(JRDataSource) import java.util.ArrayList; import java.util.List; import lbc.report.baseqry.QryData; import lbc.report.bean.VioW

Android中開啟本地doc、pdf、ppt、text等檔案功能的實現

工具程式碼 private void lookMtl(String Dname,String DdownPath,String format) { String path= Environment.getExternalStorageDi

Java 轉PPT為圖片、PDF、SVG、XPS、ODP以及PPT和PPTX互轉

同一文件，在不同的文件檢視器或者編譯環境中，需要對該文件進行相應的格式轉換。下面的內容中，將介紹通過Java程式設計來實現PPT文件格式轉換的方法。使用工具： Spire.Presentation for Java IntelliJ IDEA Jar檔案獲取及匯入：方法1

如何從word、excel、pdf等檔案中提取文字（Tika）

Tika-內容分析工具包官方網站：https://tika.apache.org/ 在maven倉庫下載最新版依賴 https://mvnrepository.com/artifact/org.apache.tika/tika-parsers 懶得去的同學，提供一個筆者正在使

Python提取PDF內容（文字、影象、線條等）

使用Python抽取PDF檔案內容，包括文字、影象、線條等物件摘要：這篇文章主要介紹如何使用Python【3.6版本】中的PDFminer3k 模組來抽取PDF內容，包括文字、影象、曲線等。作者：yooongchun 微信公眾號：yooongchu

java匯出word、pdf之新增頁首----頁首(指定格式，包括圖片和文字)

doc.open(); // 新增頁首 Image headerImage = Image.getInstance("f:\\1.jpg"); headerImage.scaleAbsolute(36, 36); Paragraph headerPara

還在使用pdf、word簡歷？簡單五步實現github托管個人逼格簡歷

ret ddr linus oda 父親 unit weixin 系統但是寫在前面：什麽是git、github? git 版本控制工具 github 通過git工具做的版本控制的項目托管平臺項目開發肯定不止一個程序猿，多個程序猿針對同一個文件進行

Tika文字提取工具的使用(word、pdf、excel等)

相關推薦