Lucene 7.2.1 自定義Analyzer和TokenFilter

阿新 • • 發佈：2018-03-14

oge close protect .get one AC put stand hash

1.自定義Analyzer:

import com.dys.lucene.filter.SameWordTokenFilter;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardTokenizer;

public class SameWordAnalyzer extends Analyzer {

    @Override
    protected TokenStreamComponents createComponents(String fieldName) {

        StandardTokenizer standardTokenizer  
= new StandardTokenizer();

        SameWordTokenFilter sameWordTokenFilter = new SameWordTokenFilter(standardTokenizer);

        TokenStreamComponents tokenStreamComponents = new TokenStreamComponents(standardTokenizer, sameWordTokenFilter);

        return tokenStreamComponents;
    }
}

2.自定義TokenFilter

import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;

import java.io.IOException;
import java.util.HashMap;
import 
 java.util.Map;
import java.util.Stack;

public class SameWordTokenFilter extends TokenFilter {

    private CharTermAttribute charTermAttribute;
    private PositionIncrementAttribute positionIncrementAttribute;
    private State state;
    private Stack<String> stack;

    public SameWordTokenFilter(TokenStream input) {
        super(input);
        this.stack = new Stack<>();
        this.charTermAttribute = this.addAttribute(CharTermAttribute.class);
        this.positionIncrementAttribute = this.addAttribute(PositionIncrementAttribute.class);
        this.stack = new Stack<>();
    }

    @Override
    public final boolean incrementToken() throws IOException {

        while (this.stack.size() > 0) {

            this.restoreState(this.state);

            this.charTermAttribute.setEmpty();
            this.charTermAttribute.append(this.stack.pop());

            this.positionIncrementAttribute.setPositionIncrement(0);

            return true;
        }

        if (!this.input.incrementToken()) {
            return false;
        }

        String term = this.charTermAttribute.toString();

        if (this.getSameWords(term)) {
            this.state = this.captureState();
        }

        return true;
    }

    private boolean getSameWords(String name) {

        Map<String, String[]> map = new HashMap<>();
        map.put("美", new String[]{"美麗", "好看"});
        map.put("花", new String[]{"鮮花", "花朵"});

        String[] words = map.get(name);

        if (words != null) {
            for (String word : words) {
                this.stack.push(word);
            }

            return true;
        }

        return false;
    }
}

3.使用自定義Analyzer和自定義TokenFilter

ArrayList<String> strings = new ArrayList<String>() {{
            this.add("小鬼子");
            this.add("美國佬");
        }};
        Analyzer analyzer = new CustomStandardAnalyzer(strings);
        String content = "小鬼子 and 美國佬 are playing together!";
        TokenStream tokenStream = analyzer.tokenStream("myfield", content);
        tokenStream.reset();
        CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
        while (tokenStream.incrementToken()) {
            // 已經過濾掉自定義停用詞
            // 輸出：playing   together
            System.out.println(charTermAttribute.toString());
        }
        tokenStream.end();
        tokenStream.close();
        
        analyzer.close();

4.代碼解釋，具體Analyzer和 TokenFilter之間的關聯，用Eclipse的DEBUG功能，跟蹤理解。

Lucene 7.2.1 自定義Analyzer和TokenFilter

oge close protect .get one AC put stand hash 1.自定義Analyzer: import com.dys.lucene.filter.SameWordTokenFilter; import org.apache.lucene.a

android藍芽4.0BLE及2.0 2.1 apk 串列埠助手帶16個自定義按鍵和自定義指令字元接收十六進位制或字元傳送

android藍芽4.0BLE apk 帶16個自定義按鍵和自定義指令字元接收 https://pan.baidu.com/s/1eRSfprO android藍芽2.0 2.1 apk 帶16個自定義按鍵和自定義指令字元接收帶自動連線 https://pan.b

unity編輯器擴充套件#1 自定義視窗、面板、和屬性

擼一遍unity官方文件的給的三個案例：https://docs.unity3d.com/2017.4/Documentation/Manual/editor-EditorWindows.html 自定義視窗首先，要注意和編輯器相關的指令碼都應該把放到Editor資料夾裡，可以有多個E

寫一個遞迴函式DigitSum(n)，輸入一個非負整數，返回組成它的數字之和，例如，呼叫DigitSum(1729)，則應該返回1+7+2+9，它的和是19

#include <stdio.h> #define _CRT_SECURE_NO_WARNINGS 1 int DigitSum(int i) { int sum = 0; int j = 0; if (i != 0) { j = i % 10; i = i /

Atitit 微服務的優點和拆分目錄 1. 微服務架構五大優勢崛起勢頭不可擋 4 1 1.1. 1、複雜度可控 6避免“盲人摸象” 7 2 1.2. 2、靈活可擴充套件 7 2 1.3. 3、獨立部

Atitit 微服務的優點和拆分目錄微服務架構五大優勢崛起勢頭不可擋4 1、複雜度可控6避免“盲人摸象”7 2、靈活可擴充套件7 3、獨立部署7

輸入某二叉樹的前序遍歷和中序遍歷的結果，請重建出該二叉樹。假設輸入的前序遍歷和中序遍歷的結果中都不含重複的數字。例如輸入前序遍歷序列{1,2,4,7,3,5,6,8}和中序遍歷序列{4,7,2,1,5

思路：前序遍歷的第一個元素就是根節點，在中序遍歷中找到根節點的位置，根節點前面的元素就二叉樹的左子樹，根節點後面的元素就是二叉樹中的右子樹，在找出左子樹和右子樹的前序遍歷和中序遍歷，然後遞迴呼叫，再找根節點和左子樹、右子樹 /** * Definition for bi

第一行程式碼 3.4.2 建立自定義控制元件章節中初上手出項的下載完成後閃退問題和自定義控制元件無反應問題

關於出項下載後閃退並且開啟app時也閃退的問題，主要是xml檔案出錯，一般情況按照書中的流程title.xml檔案是沒有錯誤的，主要原因在於 activity_main.xm了檔案中，直接說程式碼 <RelativeLayout xmlns:android="http://schema

Unity Shaders and Effects Cookbook (1-2)建立自定義漫反射光照模型

在Unity3d 中，右鍵建立一個 Shader ，這個Shader 中會預設包含一些程式碼。這個預設的程式碼就為我們建立了基本的漫反射著色器，並且接收一個紋理。上一篇中，為了瞭解 Shader 最基本的結構，我刪掉了裡面的一些程式碼。這一次來學習建立自定義的

com4j學習（2）：Visio自定義模具和形狀，並新增連線點

前言：既然我們想繪製跟自己業務相關的圖形，並讀取Visio圖形中的結構資訊，那麼我們自然會想到要自定義圖形，本文詳細講解如何自定義圖形。正文：首先我們要明白什麼是模具，什麼是形狀，以及兩者之間的關係？模具就相當於一個容器，裡面有很多個形狀，我們可

第一行程式碼 3.4.2 建立自定義控制元件章節中初上手出項的下載完成後閃退問題和自定義控制元件無反應問題

關於出項下載後閃退並且開啟app時也閃退的問題，主要是xml檔案出錯，一般情況按照書中的流程title.xml檔案是沒有錯誤的，主要原因在於 activity_main.xm了檔案中，直接說程式碼 <RelativeLayout xmlns:android="http

Lucene 6.2.1入門教程（一）建立索引和基本搜尋索引

簡單說兩句，Lucene現在高版本的教程很少，網上基本是4.0以下的，目前最新版是6.2.1，所以我試著來寫寫這個版本的教程。至於那些概念什麼的，我就不多說了，大家可以參考以前的舊教程來了解Lucene的體系結構和基本原理。大致說一下Lucene就是通過建立索引這

XCode 7.2,7.2.1和7.3的360雲盤連結

XCode 版本更非常快速，每次重新下載XCode的安裝檔案，幾個GB的龐然大物，都要令人痛苦萬分。網路上有很多XCode6及以前版本的雲盤連結，但是最新的XCode7.2及以上卻幾乎都是指向Apple官網下載的連結。直連蘋果官網，網速太慢的話連結很容

jquery_trigger() 2個用法（自定義事件和觸發2個作用）

jquery的trigger函式用的好，可以節省很多時間。我覺得trigger有2個用法，還是比較實用的，一個是自定議事件，一個是最基本的觸發。請看下面例項： <html> <h

Qt-網易雲音樂介面實現-7 訊息中心實現，主要是QListWidget 自定義Item 和QTabwidget使用

最近寫的有點煩躁，感覺內容真的很多！很多！很多。目前真的想知道網易官方在出這款產品是，用了多少人和多長時間。今天寫的這個訊息中心，有點糙，只是原理實現了沒有完全複製過來，心裡有團火，不想寫了。看下效果吧其實這個訊息中心的內容到時很簡單，最底層一個Qtabwidgte，構成@

JSP 2的自定義標籤（1）

一，什麼是自定義標籤？在JSP規範的1.1版中增加了自定義標籤庫規範，自定義標籤是一種非常優秀的表現層元件技術。通過使用自定義標籤庫，可以在簡單的標籤中封裝複雜的功能。二，為什麼要使用自定義標籤？主要是為了取代醜陋的JSP指令碼，在HTML頁面中插入

Solr 7.2.1 配置中文分詞器 IK Analyzer

一、什麼是中文分詞器？為什麼不來個英文分詞器呢？ “嘿，小夥子，就是你，說的就是你，你那麼有才咋不上天呢！” 首先我們來拽一句英文：“He is my favorite NBA star”

Django自定義圖片和檔案上傳路徑(upload_to)的2種方式

最近在做一個仿知乎網站的專案了，裡面涉及很多圖片和檔案上傳。趁此機會我給大家總結下Django自定義圖片和檔案上傳路徑的2種方式吧。方法1: 在Django模型中定義upload_to選項。Django

ASP.NET Core 2.2 : 二十一. 內容協商與自定義IActionResult和格式化類

上一章的結尾留下了一個問題：同樣是ObjectResult，在執行的時候又是如何被轉換成string和JSON兩種格式的呢？本章來解答這個問題，這裡涉及到一個名詞：“內容協商”。除了這個，本章將通過兩個例子來介紹如何自定義IActionResult和格式化類。(ASP.NET Co

vue.2.0-自定義全局組件

new turn welcome 文件夾微軟 ont return con def App.vue <template> <div id="app"> <h3>welcome vue-loading</h3>

freemarker實現自定義指令和自定義函數

數據 dir variables macro 內置引擎 eem fig turn 自定義指令： 1.指令在前臺實現　　<#macro name param1,param2,param3...paramN> 　　</#macro> 2.指令在後臺實

Lucene 7.2.1 自定義Analyzer和TokenFilter

相關推薦