使用Elasticsearch7 java api實現pdf全文檢索

阿新 • • 發佈：2019-09-10

前提:pdf的內容是文字形式而不是圖片形式！

一.方法

Elasticsearch實現pdf的全文檢索,原理是將pdf轉換為Base64,然後提取pdf的文字內容然後將其儲存起來.

Elasticsearch已有相關Api提供,也給出了例子.連結如下:

7.0 java api 例子

我們來解讀以下

//定製一個管道,用於將Base64轉換為文字形式

PUT _ingest/pipeline/attachment
{
  "description" : "Extract attachment information",  //管道的描述
  "processors" : [
    {
      "attachment" : {
        "field" : "data"        //配置在哪個欄位獲取Base64資料,然後進行轉換
      }
    }
  ]
}


//後面我們索引文件的時候 ?pipeline=attachment,就要指定這個引數,表明索引一個文件的時候要
使用這個管道

PUT my_index/_doc/my_id?pipeline=attachment
{
  "data": "e1xydGYxXGFuc2kNCkxvcmVtIGlwc3VtIGRvbG9yIHNpdCBhbWV0DQpccGFyIH0=" //base64資料
}

那麼獲取那篇剛剛索引的資料,返回的json就為

"attachment": {
      "content_type": "application/rtf",
      "language": "ro",
      "content": "Lorem ipsum dolor sit amet",
      "content_length": 28
    }

其中content就是轉換後的文字

注意,上述操作的前提之下是裝了ingest-attachment外掛,可以再es的根目錄下直接執行下面的命令進行安裝
./bin/elasticsearch-plugin install ingest-attachment

二. Java Api 7.0的實現

我pdf都儲存在遠端伺服器上,以https://*******.pdf路徑進行儲存著,所以如果你跟我一樣,必須先根據http連結獲取這個pdf然後轉換為Base64,程式碼如下

 public static String pdfToBase64(String contentpath) throws IOException {
        InputStream is = null;
        String url = contentpath;
        URL url2 = new URL(url);
        HttpURLConnection conn = (HttpURLConnection) url2.openConnection();
        conn.setDoInput(true);
        conn.connect();
        is =  conn.getInputStream();
        
         // 將圖片檔案轉化為位元組陣列字串，並對其進行Base64編碼處理
        byte[] data = null;
        // 讀取圖片位元組陣列
        try {
            ByteArrayOutputStream swapStream = new ByteArrayOutputStream();
            byte[] buff = new byte[100];
            int rc = 0;
            while ((rc = is.read(buff, 0, 100)) > 0) {
                swapStream.write(buff, 0, rc);
            }
            data = swapStream.toByteArray();
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            if (is != null) {
                try {
                    is.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
        return new BASE64Encoder().encode(data).replace("\n", "").replace("\r", "");
    }

這個程式碼你放在一個Util類中直接呼叫就行,如果你是pdf儲存在本地,直接通過File獲取然後轉換,網上有很多,在這就不說了.

//將http連結作為引數
String base64Contentpath = Base64Util.pdfToBase64("http://******.pdf");

然後我們就可以將其存在一個pdf的索引中,但是別忘記指定管道

    RestHighLevelClient esClient = esClient();
    Map<String,Object> jsonMap = new HashMap<>();

    jsonMap.put("base64Contentpath", base64Contentpath);


    IndexRequest request = new IndexRequest("pdf")
                                .setPipeline("管道名稱")   //這裡就是前面通過json建立的管道
                                .source(jsonMap);  

    esClient.index(request, RequestOptions.DEFAULT);   //執行

這樣我們就對pdf的內容進行提取然後索引到Elasticsearch中了.後面怎麼搜尋就不要再說了

這裡我只貼出了關鍵程式碼,如果有什麼不懂的或者是有什麼錯誤,請在文章的評論下方指出來

使用Elasticsearch7 java api實現pdf全文檢索

前提:pdf的內容是文字形式而不是圖片形式！一.方法 Elasticsearch實現pdf的全文檢索,原理是將pdf轉換為Base64,然後提取pdf的文字內容然後將其儲存起來. Ela

23個最有用的ES檢索技巧（Java API實現）

前言本文是對 23個最有用的Elasticseaerch檢索技巧一文提到的ES檢索技巧進行 Java API 的簡單實現，但僅限於簡單實現，並不考慮包括引數校驗，異常處理，日誌處理，安全等問題，僅供參考執行環境 JDK version : 1

Java API實現Hadoop文件系統增刪改查

代碼實現 java api cee 其他 mon prop com null -c Java API實現Hadoop文件系統增刪改查 Hadoop文件系統可以通過shell命令hadoop fs -xx進行操作，同時也提供了Java編程接口 maven配置 <proj

hadoop用java API實現mapreduce排序

mapreduce排序依靠的是key鍵，所以要在輸出的key對應的類實現compareTo（）方法 #key對應的類 package org.hadoop.sort; import org.apache.hadoop.io.Writable; import org.apache

hadoop用java API實現mapreduce示例

自定義資料型別bean package org.hadoop.total; import org.apache.hadoop.io.Writable; import java.io.DataInput; import java.io.DataOutput; import java.i

Hadoop分散式檔案系統利用 java API 實現

（前提：自己的linux系統中的叢集已搭建完畢 )1 . 首先在電腦中安裝 hadoop 配置環境變數：右鍵點選“計算機”--> 屬性 --> 高階系統設定 --> 環境變數建立一個 “HADOOP_HOME”，值為hadoop安裝

Redis（ZADD）使用Java API實現簡單排名

Redis ZADD key score member [[score member] [score member] ...] 將一個或多個 member 元素及其 score 值加入到有序集 key 當中。如果某個 member 已經是有序集的成員，那麼更新這個mem

HBASE 使用java api 實現增刪改查例項

我們使用windows 本地myeclipse測試程式，具體搭建教程請看首先建立maven 專案，並修改pom.xml，匯入hbase 第三方jar包，首次會自動下載<dependency> <groupId>org.apache.hbas

Java API實現檔案複製

public class FileUtil { /** * 利用緩衝流複製檔案 * @param from原始檔 * @param to目標檔案 */ public static boolean bufCopy(String from,String t

HDFS 使用Java api實現上傳/下載/刪除檔案

import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; publ

Elasticsearch 5.1.1搜尋高亮及Java API實現

5.1.1的搜尋高亮和2.X有所變化，但是變化不大。下面分四步來介紹:建立索引(設定mapping/IK分詞)、索引文件、REST API的搜尋高亮、JAVA API的搜尋高亮。注:從這篇部落格開始，採用簡寫的程式碼風格，也就是Sence外掛或者kibana

Elasticsearch 之（43） Java API 實現 ES 的增刪改查、聚合分析

package com.es.app; import java.net.InetAddress; import org.elasticsearch.action.search.SearchResponse; import org.elasticsearch.client.transport.Transpo

Elasticsearch Aggregation 多個欄位分組統計 Java API實現

現有索引資料：index:schooltype:student---------------------------------------------------{"grade":"1", "class":"1", "name":"xiao 1"}{"grade":"1",

（4）通過呼叫hadoop的java api實現本地檔案上傳到hadoop檔案系統上

（1）首先建立java project 選擇eclipse選單上File->New->Java　Project。並命名為UploadFile。（2）新增必要的hadoop jar包右鍵選擇JRE System Library，選擇

MongoDB資料自動同步到ElasticSearch（實現中文全文檢索）

問題-方案 1.產品需要全文檢索，資料庫是使用的MongoDB，MongoDB的全文檢索太慢，打算使用ElasticSearch 2.方案1：利用 ElasticSearch 的 River 來同步資料，在github上有MongoDB Rive

Elasticsearch（二）：使用JAVA API實現簡單查詢、聚合查詢

ES版本：2.3.1 JDK：1.8 所需要的jar包請在ES安裝路徑下的jars包中獲得，不要使用其他的jar否則容易出現版本問題！注意：程式碼中TransportClient client=ESLink.getTransportClient()

Lucene全文檢索之倒排索引實現原理、API解析【2018.11】

》官網 http://lucene.apache.org/ 下載地址：https://mirrors.tuna.tsinghua.edu.cn/apache/lucene/java/7.5.0/ 》 Lucene的全文檢索是指什麼：程式掃描文件

學習筆記:從0開始學習大資料-30. solr通過java匯入doc，pdf文件建立全文檢索

1. eclipse 新建maven專案solr，pom.xml 加入依賴 2 在專案下新建類updoctest package com.linbin.solr; import java.io.File; import java.io.IOException; import org.

Elasticsearch使用REST API實現全文檢索

通過rest api新增檢索資料，閱讀官方文件可以發現，elasticsearch支援動態對映，但是其中有不少問題，且聽慢慢詳解。本文主要講述三點內容： 1 Elasticsearch常用的rest api 2 Elasticsearch使用bulk命令新增索引資料 ES REST API

java springboot 結合elasticsearch 實現全文檢索的步驟，有坑請繞行

開啟springboot專案首先我這裡選擇的是jestClient操作elasticsearch 這裡還有一種方式是通過 ElasticsearchRepostiry類似jpa的一種工具介面，但會隨著ela的版本的修改而變化程式碼，所以首選jestClient

使用Elasticsearch7 java api實現pdf全文檢索

一.方法

二. Java Api 7.0的實現

相關推薦