Lucene中文分詞以及關鍵字的高亮

阿新 • • 發佈：2019-02-04

渲染在頁面的關鍵字高亮, 以及適用於國內形式的中文分詞器.

需要引用的jar 看Lucene的第一章的pom.xml

package com.zero.lucene;

import java.nio.file.Paths;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene 
.document.Document;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache 
.lucene.search.TopDocs;
import org.apache.lucene.search.highlight.Formatter;
import org.apache.lucene.search.highlight.Fragmenter;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.SimpleHTMLFormatter 
;
import org.apache.lucene.search.highlight.SimpleSpanFragmenter;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;

/**
 * 搜尋的時候 關鍵字紅色
 * @author samuel
 *
 */
public class SearcherColor {

    private IndexReader indexReader;
    private IndexSearcher indexSearcher;

    /**
     * 搜尋索引
     * @throws Exception
     */
    public void searcher() throws Exception {
        String uri = "";
        Directory directory = FSDirectory.open(Paths.get(uri));
        indexReader = DirectoryReader.open(directory);
        indexSearcher = new IndexSearcher(indexReader);
        // 中文分詞
        Analyzer analyer = new SmartChineseAnalyzer();
        QueryParser parser = new QueryParser("title", analyer);
        Query query = parser.parse("pwd.txt");
        TopDocs topDocs = indexSearcher.search(query, 10);

        // 高亮部分

        QueryScorer queryScorer = new QueryScorer(query);
        // 設定關鍵的高亮度字型和顏色
        Formatter formatter = new SimpleHTMLFormatter("<b><font color='red'>", "</font></b>");
        Highlighter highligther = new Highlighter(formatter, queryScorer);
        Fragmenter fragmentScorer = new SimpleSpanFragmenter(queryScorer);
        highligther.setTextFragmenter(fragmentScorer);

        for (ScoreDoc scoreDoc : topDocs.scoreDocs) {
            Document doc = indexReader.document(scoreDoc.doc);
            String title = doc.get("title");
            if (null != title) {
                // 拿到最高分數的內容片斷
                TokenStream tokenStream = analyer.tokenStream("title", "hahahah");
                String bestSpan = highligther.getBestFragment(tokenStream, title);
                System.out.println(bestSpan);
            }
        }


    }
}

Lucene中文分詞以及關鍵字的高亮

渲染在頁面的關鍵字高亮, 以及適用於國內形式的中文分詞器. 需要引用的jar 看Lucene的第一章的pom.xml package com.zero.lucene; import java.nio.file.Paths; import

lucene 中文分詞和結果高亮顯示

要使用中文分詞要加入新的依賴 smartcn  <dependency> &

lucene中文分詞以及高亮顯示

這篇部落格介紹一下如何在Lucene中使用中文分詞以及高亮顯示查詢結果中與搜尋匹配的部分 1.在pom.xml中加入相關依賴  <dependency> <groupId&g

JAVAWEB開發之Lucene詳解——Lucene入門及使用場景、全文檢索、索引CRUD、優化索引庫、分詞器、高亮、相關度排序、各種查詢

Lucene入門應用場景 windows系統中的有搜尋功能：開啟“我的電腦”，按“F3”就可以使用查詢的功能，查詢指定的檔案或資料夾。搜尋的範圍是整個電腦中的檔案資源。 Eclipse中的幫助子系統：點選Help->Help Contents，可以查找出相關的幫助資

（五）Lucene——中文分詞器

實現 ext cse ron -a tag 大小 -c .com 1. 什麽是中文分詞器對於英文，是安裝空格、標點符號進行分詞對於中文，應該安裝具體的詞來分，中文分詞就是將詞，切分成一個個有意義的詞。比如：“我的中國人”，分詞：我、的、中

【Apache Solr系列】使用IKAnalyzer中文分詞以及自定義分詞字典

之前寫的Apache Solr只介紹了簡單的搭建以及匯入資料等功能，最近由於專案要求，新增索引分詞和搜尋分詞功能；分詞的專案有包括好幾個：smartcn、ictclas4j、IK、jeasy、庖丁、mmseg4j；以上幾種分詞器各有優缺點，根據不同場景可分可定製和不可定

目前幾個流行的Lucene中文分詞器對比

1. 基本介紹： paoding ：Lucene中文分詞“庖丁解牛” Paoding Analysisimdict ：imdict智慧詞典所採用的智慧中文分詞程式mmseg4j ：用 Chih-Hao Tsai 的 MMSeg 演算法實現的中文分詞器ik ：採用了

Lucene中文分詞器(三)

3.2 搜尋時使用Analyzer對搜尋關鍵字進行分析和索引分析一樣，使用Analyzer對搜尋關鍵字進行分析、分詞處理，使用分析後每個詞語進行搜尋。比如：搜尋關鍵字：spring web ，經過分析器進行分詞，得出：spring web，拿詞去索引詞典表查詢，找到索引連結到Document，解析Docu

全文檢索Lucene（三）--中文分詞與高亮顯示

一、中文分詞smartcn 二、檢索結果高亮顯示實現首先，建立maven專案，新增相關依賴。<dependencies> <dependency> <groupId>org.apache.lucene</g

Lucene高亮顯示及中文分詞

直接demo,不廢話建立一個Maven 在pom.xml貼上依賴 <dependencies> <dependency> <groupId>org.apache.lucene</groupId> <art

Lucene基礎（三）-- 中文分詞及高亮顯示

Lucene分詞器及高亮分詞器在lucene中我們按照分詞方式把文件進行索引，不同的分詞器索引的效果不太一樣，之前的例子使用的都是標準分詞器，對於英文的效果很好，但是中文分詞效果就不怎麼樣，他會按照漢字的字直接分詞，沒有詞語的概念。使用分詞的地方

基於高版本Lucene的中文分詞器（IK分詞器）的DEMO

注意為了大家方便，我沒有遮蔽資料庫，專案中用的資料來源請各位碼友不要亂搞~謝謝緣起日前專案中需要用到Lucene.且需要中文分詞，看了下IK分詞器，但是IK分詞器貌似只支援到lucene的3.X。後期的版本就不支援了，在網上找了一部分資料，自己寫了一個demo.因為中間

IKAnalyzer結合Lucene實現中文分詞

++ reset utf-8 incr ttr 中文分詞擴展沒有 font 1、基本介紹　　隨著分詞在信息檢索領域應用的越來越廣泛，分詞這門技術對大家並不陌生。對於英文分詞處理相對簡單，經過拆分單詞、排斥停止詞、提取詞幹的過程基本就能實現英文分詞，單對於中文分詞而言，

搜索引擎系列四：Lucene提供的分詞器、IKAnalyze中文分詞器集成

author oid core 長度 maven項目 int get attribute clu 一、Lucene提供的分詞器StandardAnalyzer和SmartChineseAnalyzer 1.新建一個測試Lucene提供的分詞器的maven項目LuceneAn

Linux下ElasticSearch6.4.x、ElasticSearch-Head、Kibana以及中文分詞器IK的安裝配置

ElasticSearch 安裝配置下載 # 官網下載壓縮包 [[email protected] /home]# wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.

Lucene筆記17-Lucene的分詞-中文分詞介紹

一、分詞器的作用分詞器的作用就是得到一個TokenStream流，這個流中儲存了分詞相關的一些資訊，可以通過屬性獲取到分詞的詳細資訊。二、自定義Stop分詞器 package com.wsy; import org.apache.lucene.analysis.*; impor

模糊查詢關鍵字高亮顯示以及多個關鍵字的匹配定位

需求中我們經常會遇到模糊查詢的方式渲染資料，效果類似於下圖： js渲染資料的方式如下： var keyword = $("#searchSchool").val(); for(var i=0;i<data.schoolNames.length;i++){ var renderPa

solr 7+tomcat 8 + mysql實現solr 7基本使用(安裝、整合中文分詞器、定時同步資料庫資料以及專案整合)

基本說明 Solr是一個開源專案，基於Lucene的搜尋伺服器，一般用於高階的搜尋功能； solr還支援各種外掛(如中文分詞器等)，便於做多樣化功能的整合；提供頁面操作，檢視日誌和配置資訊，功能全面。 solr 7 + tomcat 8實現solr 7的安裝 Sol

hanlp中文分詞、提取摘要關鍵字、語句分析、智慧推薦

hanlp資源： hanlp介紹：http://hanlp.linrunsoft.com/ hanlp下載：https://github.com/hankcs/HanLP hanlp(分詞)使用：https://blog.csdn.net/nima1994/article/details

solr與ik中文分詞的配置，以及新增Core（Add Core）的方式

在下用的版本是solr7.2.1與ikanalyzer-solr6.5：說明：在solr版本5之後就可以不用依賴tomcat進行啟動，可以自行啟動，啟動方式下面會進行講解。需要注意的是：對於solr6以下的版本可用jdk7，從solr6開始只能使用jdk8了。 so

Lucene中文分詞以及關鍵字的高亮

相關推薦