Solr自定義分詞器-通過特殊字元分詞

阿新 • • 發佈：2019-01-01

摘要： 在對英文句子分詞的時候，一般採用採用的分詞器是WhiteSpaceTokenizerFactory，有一次因業務要求，需要根據某一個特殊字元（以逗號分詞，以豎線分詞）分詞。感覺這種需求可能與WhiteSpaceTokenizerFactory相像，於是自己根據Solr原始碼自定義了分詞策略。

業務場景

有一次，我拿到的資料都是以豎線“|”分隔，分詞的時候，需要以豎線為分詞單元。比如下面的這一堆資料：
列表內容
有可能你拿到的是這樣的資料，典型的例子就是來自csv檔案的資料，格式和下面這種類似：
這裡寫圖片描述

分詞思路

在Solr的schema.xml檔案中，有這樣的配置

<fieldType 
 name="text_ws" class="solr.TextField" positionIncrementGap="100">
    <analyzer>
      <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    </analyzer>
</fieldType>

對於欄位型別text_ws，指定了一個分詞器工廠WhitespaceTokenizerFactory，根據這個類，可以實現通過空格來分詞，那麼我通過豎線分詞的程式碼應該與之類似。

修改原始碼

在Java工程中引入如下jar包：

<dependency>
        <groupId>org.apache.solr</groupId>
        <artifactId>solr-core</artifactId>
        <version>6.0.0</version>
</dependency>

參照WhitespaceTokenizerFactory的原始碼，寫一個自己的MyVerticalLineTokenizerFactory，內容基本不變：

package com.trainning.project.custom;

import 
 java.util.Arrays;
import java.util.Collection;
import java.util.Map;

import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.core.UnicodeWhitespaceTokenizer;
import org.apache.lucene.analysis.util.TokenizerFactory;
import org.apache.lucene.util.AttributeFactory;

/**
* @author JiangChao
* @date 2017年4月2日下午3:41:13
*/
public class MyVerticalLineTokenizerFactory extends TokenizerFactory{
    public static final String RULE_JAVA = "java";
    public static final String RULE_UNICODE = "unicode";
    private static final Collection<String> RULE_NAMES = Arrays.asList(RULE_JAVA, RULE_UNICODE);

    private final String rule;

    /** Creates a new MyVerticalLineTokenizerFactory */
    public MyVerticalLineTokenizerFactory(Map<String,String> args) {
      super(args);

      rule = get(args, "rule", RULE_NAMES, RULE_JAVA);

      if (!args.isEmpty()) {
        throw new IllegalArgumentException("Unknown parameters: " + args);
      }
    }

    @Override
    public Tokenizer create(AttributeFactory factory) {
      switch (rule) {
        case RULE_JAVA:
          return new MyVerticalLineTokenizer(factory);
        case RULE_UNICODE:
          return new UnicodeWhitespaceTokenizer(factory);
        default:
          throw new AssertionError();
      }
    }
}

具體做分詞的MyVerticalLineTokenizer程式碼如下

package com.trainning.project.custom;

import org.apache.lucene.analysis.util.CharTokenizer;
import org.apache.lucene.util.AttributeFactory;

/**
* @author JiangChao
* @date 2017年4月2日下午9:46:18
*/
public class MyVerticalLineTokenizer extends CharTokenizer {

    public MyVerticalLineTokenizer() {

    }
    public MyVerticalLineTokenizer(AttributeFactory factory) {
        super(factory);
      }

      /** Collects only characters which do not satisfy
       *  引數c指的是term的ASCII值，豎線的值為 124
       */
      @Override
      protected boolean isTokenChar(int c) {
        return !(c == 124);
      }
}

這裡最主要的方法就是isTokenChar，它控制了分詞的字元，如果需要使用逗號分詞的話，字需要將這個方法修改成下面這樣：

    /** Collects only characters which do not satisfy
     *  引數c指的是term的ASCII值，逗號的值為 44
     */
     @Override
     protected boolean isTokenChar(int c) {
        return !(c == 44);
     }

整合

程式碼寫好了，怎麼使用呢？首先，需要把剛才的java檔案打成jar包。我使用的是Eclipse，直接選中兩個類檔案，右鍵 -> Export -> JAR File -> Select the export destination: ->選擇輸出路徑，填一個jar名字：MyVerticalLineTokenizerFactory -> Finish

得到的MyVerticalLineTokenizerFactory.jar檔案大約3KB，將改檔案放置到.\solr_home\lib下，在shcema.xml中定義自己的field

<fieldType name="vertical_text" class="solr.TextField">
    <analyzer>
      <tokenizer class="com.trainning.project.custom.MyVerticalLineTokenizerFactory"/>
    </analyzer>
  </fieldType>
  <field name="custom" type="vertical_text" indexed="true" stored="false"/>

注意這裡的class是剛才自己寫的分詞器的完整類名。

開啟Solr主頁，在Analysis頁面測試一下，是否實現了預期？

程式碼倉庫：GitHub
Jar包檔案：CSDN下載

Solr自定義分詞器-通過特殊字元分詞

業務場景

分詞思路

修改原始碼

整合

Solr自定義分詞器-通過特殊字元分詞

vue+element中自定義表單校驗特殊字元

自定義時間選擇器（更改分割線和距離）

solr 6.2.0系列教程（二）IK中文分詞器配置及新增擴充套件詞、停止詞、同義詞

通過用 .NET 生成自定義窗體設計器來定製應用程式

通過用 .NET 生成自定義窗體設計器來定制應用程序

自定義spring定時器

Spring自定義屬性編輯器

flask第十一篇——自定義url轉換器

SSM-SpringMVC-25：SpringMVC異常頂級之自定義異常解析器

搜索引擎系列四：Lucene提供的分詞器、IKAnalyze中文分詞器集成

Java類加載機制及自定義加載器

自定義超時驗證器

自定義Jquery選擇器

SpringMVC自動封裝List物件——自定義引數解析器

spring boot 自定義登入攔截器

Java類載入器( CLassLoader ) 死磕7: 基於加密的自定義網路載入器本小節目錄

java類載入機制和自定義類載入器

netty使用msgpack自定義編解碼器實現序列化操作

一道面試題之關於自定義Json解析器

Solr自定義分詞器-通過特殊字元分詞

業務場景

分詞思路

修改原始碼

整合

相關推薦