lucene整合初體驗

阿新 • • 發佈：2018-11-07

最近需要整合一個搜尋引擎到專案上，首先用solr整合到tomcat伺服器，然後通過配置檔案寫sql，從資料庫中直接取資料。但是一直取不到資料。調查了好久也沒有查到問題原因。因為時間比較緊，就換了相對簡單好搞得lucene.大體的思路是通過全檢索，把資料庫中的所有文章資料，和lucene檔案建立起同步索引。

public static void Index(List<Article> rs, String lucenepath) {
    try {
        Directory directory = FSDirectory.open(new File(lucenepath));
        IndexWriter indexWriter = new IndexWriter(directory,LuceneUtils.analyzer,MaxFieldLength.LIMITED);
        for(Article article : rs) {
            Document doc = new Document();

            doc.add(new Field("id", article.getId(), Store.YES,
                    org.apache.lucene.document.Field.Index.ANALYZED));
            if(article.getContent()!= null){
                doc.add(new Field("content", article.getContent(), Store.YES,
                        org.apache.lucene.document.Field.Index.ANALYZED));
            }
            doc.add(new Field("title", article.getTitle(), Store.YES,
                    org.apache.lucene.document.Field.Index.ANALYZED));
            doc.add(new Field("column_info_id", article.getColumnInfo().getId(), Store.YES,
                    org.apache.lucene.document.Field.Index.ANALYZED));

            indexWriter.addDocument(doc);
        }
        indexWriter.optimize();
        indexWriter.close();
    } catch (IOException e) {
        System.out.println(e);
    }
}

建好索引之後就是檢索了

public static List<Article> seacher(String queryString, String lucenepath) {
    List<Article> articleList = new ArrayList<Article>();

    try {
        Directory directory = FSDirectory.open(new File(lucenepath));
        IndexSearcher is = new IndexSearcher(directory);
        MultiFieldQueryParser parser=new MultiFieldQueryParser(Version.LUCENE_30, new String[]{"title","content"},LuceneUtils.analyzer);
       /* QueryParser parser = new QueryParser(Version.LUCENE_30, "content",
                LuceneUtils.analyzer);*/
        Query query = parser.parse(queryString);
        //返回搜尋結果
        TopDocs docs = is.search(query, 100);

        ScoreDoc[] scoreDocs = docs.scoreDocs;

        for (ScoreDoc scoreDoc : scoreDocs) {
            int num = scoreDoc.doc;
            Document document = is.doc(num);
            Article article = DocumentUtils.document2Article(document);
            articleList.add(article);
        }
        //重複資料過濾
        articleList = articleList.stream().distinct()
                .collect(Collectors.toList());
        articleList.forEach(System.out::println);
    } catch (Exception e) {
        System.out.print(e);
    }
    return articleList;
}

這個時候一個簡單的lucene就寫好了

當然還有pom.xml引入，因為版本的原因這裡花了很長時間

<!--lucene-->
<dependency>
    <groupId>org.apache.lucene</groupId>
    <artifactId>lucene-core</artifactId>
    <version>3.0.1</version>
</dependency>
<dependency>
    <groupId>org.apache.lucene</groupId>
    <artifactId>lucene-analyzers</artifactId>
    <version>3.0.1</version>
</dependency>
<dependency>
    <groupId>org.apache.lucene</groupId>
    <artifactId>lucene-memory</artifactId>
    <version>3.0.1</version>
</dependency>
<dependency>
    <groupId>org.apache.lucene</groupId>
    <artifactId>lucene-highlighter</artifactId>
    <version>3.0.1</version>
</dependency>

<!--mmseg4j 的分析器的使用  -->
<!--lucene-->
<dependency>
    <groupId>com.chenlb.mmseg4j</groupId>
    <artifactId>mmseg4j-core</artifactId>
    <version>1.10.0</version>
</dependency>

關於分詞的問題也考慮了幾個不同的分詞器，後來決定用盤古

拿到資料之後就涉及到分頁的問題了，

 //查詢起始記錄位置
    int begin = DEFAULT_SIZE * (Integer.parseInt(pageStr) - 1) ;
    //查詢終止記錄位置
    int end = Math.min(begin + DEFAULT_SIZE, articleList.size());
    List<Article> articles = new ArrayList<Article>();
    //進行分頁查詢
    for(int i=begin;i<end;i++) {
        articles.add(articleList.get(i));
    }

    Map pageMap = new HashMap<>();
    pageMap.put("currentPage", pageStr);
    pageMap.put("pageSize", sizeStr);
    pageMap.put("totalCount", articleList.size());
    pageMap.put("totalPage", getTotalPage(articleList.size(), Integer.parseInt(sizeStr)));
    pageMap.put("pagination", getPagination(null) );
    pageMap.put("term", term);
    getJspContext().setAttribute(var, articles);
    getJspContext().setAttribute(varPage, pageMap);
    getJspBody().invoke(null);
}

這樣一個基本檢索分頁的功能就實現了。當然有很多的不足需要去優化比如高亮展示，提升檢索速度等

lucene整合初體驗

Lucene初體驗——Hello Word實現

splay query exe add 技術分享返回 try pen block 1、創建索引 1 /** 2 * 建立索引 3 */ 4 public void index(){ 5 IndexWriter wri

學習Docker之Docker初體驗---SpringBoot整合Docker的部署、釋出與應用

準備工作會一點springboot 不會沒關係，花十幾分鍾補一下Quick-SpringBoot 會一點Maven 不會沒關係，花幾分鐘補一下Maven的快速應用會一點Linux命令不會沒關係，花十幾分再補一下Linux菜鳥教程一臺

Java爬蟲初體驗:簡單抓取IT之家熱評(整合Spring Boot+Elasticsearch+Redis+Mybatis)

爬取主程式使用Jsoup解析網頁原始碼 @Component public class WebCrawler { private static final String encoding = "utf-8"; @Autowired

SpringBoot初體驗之整合SpringMVC

　　作為開發人員，大家都知道，SpringBoot是基於Spring4.0設計的，不僅繼承了Spring框架原有的優秀特性，而且還通過簡化配置來進一步簡化了Spring應用的整個搭建和開發過程。另外SpringBoot通過整合大量的框架使得依賴包的版本衝突，以及引用的不穩定性等問題得到了很好的解決。　　Sp

Spring boot整合Rabbit MQ使用初體驗

Spring boot整合Rabbit MQ使用初體驗 1.rabbit mq基本特性首先介紹一下rabbitMQ的幾個特性 Asynchronous Messaging Supports multiple messaging protocols, message queuing, delivery

小程序初體驗：手把手教你寫出第一個小程序（一）

輸入框個人創建公測快速 nsh 成功 too 調用本文筆者將根據quick start中的範例代碼，帶大家簡單地剖析一下小程序的運行方式，並介紹小程序開發中一些通用的特性，帶著大家一步步寫出自己的小程序。適用對象：前端初學者，對小程序開發感興趣者 tip

vue.js2.0 自定義組件初體驗

最新解綁然而 blog bool template 警告 rem 組件理解組件（Component）是 Vue.js 最強大的功能之一。組件可以擴展 HTML 元素，封裝可重用的代碼。在較高層面上，組件是自定義元素， Vue.js 的編譯器為它添加特殊功能。在有些

weblogic初體驗

xsd 體驗 target java語言註意 true 中間件鼠標使用之前一直是用的tomcat，由於業務需要，需要使用weblogic部署項目，在這裏大概的記錄一下 weblogic是oracle出品的WEB容器，確切的說是一個基於JavaEE架構的中間件，使用

python初體驗

list python 字典 python初體驗:1.python種類 CPython 代碼 -> C字節碼 -> 機器碼（一行一行） pypy 代碼 -> C字節碼 -> 機器碼全部轉換完 -> 執行其他Python 代碼 -&g

Android逆向分析初體驗

目錄搜索比較 .com -1 動態調試總結為我修改一、準備知識 1. 懂Java Android開發。 2. 懂NDK ，C 語言 Android 動態鏈接庫.SO開發。 3.

【Spark深入學習 -15】Spark Streaming前奏-Kafka初體驗

rod htm 新的 callback tails 包括 -c 舉例清理 ----本節內容------- 1.Kafka基礎概念 1.1 出世背景 1.2 基本原理 1.2.1.前置知識 1.2.2.架構和原理 1.2.

vue.js 初體驗— Chrome 插件開發實錄

原創控件 https ext 方案程序實現瀏覽器中 display 博客歡迎大家關註騰訊雲技術社區-博客園官方主頁，我們將持續在博客園為大家推薦技術精品文章哦~ 作者：陳緯傑背景對於經常和動畫開發打交道的開發者對於Animate.css這個動畫庫不

1Python全棧之路系列之Django初體驗

編寫程序 online 網絡開發程序員堪薩斯 Python全棧之路系列之Django初體驗Django不得不說在Python中是一個非常強大的全棧框架，而且入門也比較簡單，只要你學完了基本的Django知識，接著再做一兩個項目，不大不小就成，然後你再去學其它的框架你會發現，在那些小而美

flask+jsonp跨域前後臺交互（接口初體驗）

script keys 返回 == 方法 png 前後臺 true run 1 # -*- coding: utf-8 -*- 2 from flask import Flask, jsonify 3 import psutil, time,json 4 5

Hibernate_01_初體驗

基礎上 font cal close mysq getprop build nec address Hibernate的一個小例子（慕課網教程整理的代碼）：首先在eclipse--help--Eclipse MarketPlace中搜索“jboss Tool” 導入hi

zTree初體驗（一）——小試牛刀

插件 root tracking per margin 接受 dsm 獲取實現 zTree 是一個依靠 jQuery 實現的多功能 “樹插件”。優異的性能、靈活的配置、多種功能的組合是 zTree 最大長處。 ——zTree官網 zTree v3

Git初體驗——git項目開發流程

創建目錄管理文本目錄 ria 遠程歷史 zookeepe clas 眾所周知，Git是一款版本控制軟件，之前總是習慣把每次修改後的代碼打包並且標註好時間等信息加以區分，使用git之後就完全不需要這麽做了。 1.安裝git：官網下載安裝即可，沒什麽復雜的步驟 2.新

phantomjs2.1 初體驗

http dom canvas ima 行為 pen 廣告自動 str 上次看了一下scrapy1.1的新手指南決定寫個小爬蟲實驗一下目標網站是http://www.dm5.com/manhua-huofengliaoyuan準備爬取漫畫火鳳燎原的已有章節，將圖片保存

Maven項目搭建（一）：Maven初體驗

測試類 java平臺存在 ack 做的 rar cli maven2 試用今天給大家介紹一個項目管理和綜合工具：Maven。 Maven: maven讀作 [‘meivin]，本意是指可以被信任的領域專家，致力於傳播知識(來自於http://en.wikip

lucene整合初體驗

相關推薦