基於ansj_seg和nlp-lang的簡單nlp工具類

阿新 • • 發佈：2018-12-30

1、首先在pom中引入ansj_seg和nlp-lang的依賴包，

　　ansj_seg包的作用：

　　　　這是一個基於n-Gram+CRF+HMM的中文分詞的java實現；

　　　　分詞速度達到每秒鐘大約200萬字左右（mac air下測試），準確率能達到96%以上;

　　　　目前實現了.中文分詞. 中文姓名識別 . 使用者自定義詞典,關鍵字提取，自動摘要，關鍵字標記等功能;

　　　　可以應用到自然語言處理等方面,適用於對分詞效果要求高的各種專案;

　　nlp-lang包的作用(nlp常用工具和元件)：

　　　　工具：詞語標準化、tire樹結構、雙陣列tire樹、文字斷句、html標籤清理、Viterbi演算法增加；

　　　　元件：漢字轉拼音、簡繁體轉換、bloomfilter、指紋去重、SimHash文章相似度計算、詞貢獻統計、基於記憶體的搜尋提示、WordWeight詞頻統計,詞idf統計,詞類別相關度統計；

Maven：

<!-- nlp-lang -->
<dependency>
    <groupId>org.nlpcn</groupId>
    <artifactId>nlp-lang</artifactId>
    <version>1.7.2</version>
</dependency>
<!-- ansj_seg -->
<dependency>
    <groupId>org.ansj</groupId>
    <artifactId>ansj_seg</artifactId>
    <version>5.1.2</version>
</dependency>

2、建立WordUtil類，如下：

package com.mengyao.nlp.util;

import java.util.ArrayList;
import java.util.Collection;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;

import org.ansj.app.keyword.KeyWordComputer;
import org.ansj.app.keyword.Keyword;
import org.ansj.app.summary.SummaryComputer;
import org.ansj.app.summary.pojo.Summary;
import org.ansj.domain.Result;
import org.ansj.domain.Term;
import org.ansj.splitWord.analysis.IndexAnalysis;
import org.ansj.splitWord.analysis.NlpAnalysis;
import org.ansj.splitWord.analysis.ToAnalysis;
import org.apache.commons.lang3.StringUtils;
import org.nlpcn.commons.lang.jianfan.JianFan;
import org.nlpcn.commons.lang.pinyin.Pinyin;
import org.nlpcn.commons.lang.util.WordAlert;
import org.nlpcn.commons.lang.util.WordWeight;

/**
 * 
 * @author mengyao
 *
 */
public class WordUtil {

    public static void main(String[] args) {
        System.out.println("2016/06/25".matches("^\\d{4}(\\-|\\/|\\.)\\d{1,2}\\1\\d{1,2}$"));
        System.out.println("20160625".matches("^\\d{8}$"));
    }
    
    /**
     * 文章摘要
     * @param title
     * @param content
     * @return
     */
    public static String getSummary(String title, String content) {
        SummaryComputer summaryComputer = new SummaryComputer(title, content);
        Summary summary = summaryComputer.toSummary();
        return summary.getSummary();
    }

    /**
     * 帶標題的文章關鍵詞提取
     * @param title
     * @param content
     * @return
     */
    public static List<Keyword> getKeyWord(String title, String content) {
        List<Keyword> keyWords = new ArrayList<Keyword>();
        KeyWordComputer<NlpAnalysis> kwc = new KeyWordComputer<NlpAnalysis>(20);
        Collection<Keyword> result = kwc.computeArticleTfidf(title, content);
        for (Keyword keyword : result) {
            keyWords.add(keyword);
        }
        return keyWords;
    } 
    
    /**
     * 不帶標題的文章關鍵詞提取
     * @param content
     * @return
     */
    public static List<Keyword> getKeyWord2(String content) {
        List<Keyword> keyWords = new ArrayList<Keyword>();
        KeyWordComputer<NlpAnalysis> kwc = new KeyWordComputer<NlpAnalysis>(20);
        Collection<Keyword> result = kwc.computeArticleTfidf(content);
        for (Keyword keyword : result) {
            keyWords.add(keyword);
        }
        return keyWords;
    } 
    
    /**
     * 標準分詞
     * @param text
     * @return
     */
    public static List<Term> getToSeg(String text) {
        List<Term> words = new ArrayList<Term>();
        Result parse = ToAnalysis.parse(text);
        for (Term term : parse) {
            if (null!=term.getName()&&!term.getName().trim().isEmpty()) {
                words.add(term);
            }
        }
        return words;
    }
    
    /**
     * NLP分詞
     * @param text
     * @return
     */
    public static List<Term> getNlpSeg(String text) {
        List<Term> words = new ArrayList<Term>();
        Result parse = NlpAnalysis.parse(text);
        for (Term term : parse) {
            if (null!=term.getName()&&!term.getName().trim().isEmpty()) {
                words.add(term);
            }
        }
        return words;
    }
    
    /**
     * Index分詞
     * @param text
     * @return
     */
    public static List<Term> getIndexSeg(String text) {
        List<Term> words = new ArrayList<Term>();
        Result parse = IndexAnalysis.parse(text);
        for (Term term : parse) {
            if (null!=term.getName()&&!term.getName().trim().isEmpty()) {
                words.add(term);
            }
        }
        return words;
    }
    
    /**
     * 簡體轉繁體
     * @param word
     * @return
     */
    public static String jian2fan(String text) {
        return JianFan.j2f(text);
    }
    
    /**
     * 繁體轉簡體
     * @param word
     * @return
     */
    public static String fan2jian(String text) {
        return JianFan.f2j(text);
    }
    
    /**
     * 拼音(不帶音標)
     * @param word
     * @return
     */
    public static String pinyin(String text) {
        StringBuilder builder = new StringBuilder();
        List<String> pinyins = Pinyin.pinyin(text);
        for (String pinyin : pinyins) {
            if (null != pinyin) {
                builder.append(pinyin+" ");                
            }
        }
        return builder.toString();
    }
    
    /**
     * 拼音(不帶音標，首字母大寫)
     * @param word
     * @return
     */
    public static String pinyinUp(String text) {
        StringBuilder builder = new StringBuilder();
        List<String> pinyins = Pinyin.pinyin(text);
        for (String pinyin : pinyins) {
            if (StringUtils.isEmpty(pinyin)) {
                continue;
            }
            builder.append(pinyin.substring(0,1).toUpperCase()+pinyin.substring(1));
        }
        return builder.toString();
    }
    
    /**
     * 拼音(帶數字音標)
     * @param word
     * @return
     */
    public static String tonePinyin(String text) {
        StringBuilder builder = new StringBuilder();
        List<String> pinyins = Pinyin.tonePinyin(text);
        for (String pinyin : pinyins) {
            if (null != pinyin) {
                builder.append(pinyin+" ");                
            }
        }
        return builder.toString();
    }
    
    /**
     * 拼音(帶符號音標)
     * @param word
     * @return
     */
    public static String unicodePinyin(String text) {
        StringBuilder builder = new StringBuilder();
        List<String> pinyins = Pinyin.unicodePinyin(text);
        for (String pinyin : pinyins) {
            if (null != pinyin) {
                builder.append(pinyin+" ");                
            }
        }
        return builder.toString();
    }
    
    /**
     * 詞頻統計
     * @param words
     * @return
     */
    public static Map<String, Double> wordCount(List<String> words) {
        WordWeight ww = new WordWeight();
        for (String word : words) {
            ww.add(word);
        }
        return ww.export();
    }
    
    /**
     * 詞頻統計
     * @param words
     * @return
     */
    public static List<String> wordCount1(List<String> words) {
        List<String> wcs = new ArrayList<String>();
        WordWeight ww = new WordWeight();
        for (String word : words) {
            ww.add(word);
        }
        Map<String, Double> export = ww.export();
        for (Entry<String, Double> entry : export.entrySet()) {
            wcs.add(entry.getKey()+":"+entry.getValue());
        }
        return wcs;
    }
    
    /**
     * 語種識別:1英文；0中文
     * @param words
     * @return
     */
    public static int language(String word) {
        return WordAlert.isEnglish(word)?1:0;
    }
    
}

基於hutool和POI的excel匯入工具類

excel匯入也可以很簡單，利用POI進行匯入，以及強大的hutool工具類，再加上對業務的理解，就可以封裝成一個超級好用的業務類了。 maven依賴 <!-- Hutool超級工具類 http://hutool.mydoc.i

基於ansj_seg和nlp-lang的簡單nlp工具類

1、首先在pom中引入ansj_seg和nlp-lang的依賴包，　　ansj_seg包的作用：　　　　這是一個基於n-Gram+CRF+HMM的中文分詞的java實現；　　　　分詞速度達到每秒鐘大約200萬字左右（mac air下測試），準確率能達到96%以上; 　　　　目前

Java基於apache.commons.lang的日期工具類簡單封裝

package cn.lettleprincess.util; import java.text.ParseException; import java.util.ArrayList; import java.util.Calendar; import java.util

SSM-MyBatis-10：Mybatis中SqlSession的getMapper()和簡單的工具類MyBatisUtils

dao input eat -m style nfa put creat factor ------------吾亦無他,唯手熟爾，謙卑若愚，好學若饑------------- getMapper的作用，獲取到接口，直接通過點的方式調用方法，以免直接手打的方

android平臺下基於ffmpeg和ANativeWindow實現簡單的視訊播放器

音視訊實踐學習 android全平臺編譯ffmpeg以及x264與fdk-aac實踐 ubuntu下使用nginx和nginx-rtmp-module配置直播推流伺服器 android全平臺編譯ffmpeg合併為單個庫實踐 android-studio使用c

一個基於POI的通用excel匯入匯出工具類的簡單實現及使用方法

前言：最近PM來了一個需求，簡單來說就是在錄入資料時一條一條插入到系統顯得非常麻煩，讓我實現一個直接通過excel匯入的方法一次性錄入所有資料。網上關於excel匯入匯出的例子很多，但大多相互借鑑。經過思考，認為一百個客戶在錄入excel的時候，就會有一百個格式版本，所以在實現這個功能之前，所以要統一exc

寫的一個簡單的工具類，可以做物件型別的判斷和迭代出一個物件所有屬性的值

import java.lang.reflect.Field; /** * @author songzheng */ public class TypeUtil { /** * 得到某個物件型別物件 */ public static Cl

基於tcp和qt的簡單聊天室搭建

使用Qt庫中的 <QTcpServer> 和<QTcpSocket>類實現區域網絡下的聊天室。分為服務端和客戶端；服務端接收來自各個客戶端的資訊，併發送到所有客戶端；客戶端用於使用者登陸及聊天。客戶端：使用<QTcpSo

AntZipUtils【基於Ant的Zip壓縮解壓縮工具類】

封裝一個基於NLog+NLog.Mongo的日誌記錄工具類LogUtil

edi day rap ble mongo return 情況 earch ati 封裝一個基於NLog+NLog.Mongo的日誌記錄工具類LogUtil，代碼比較簡單，主要是把MongoTarget的配置、FileTarget的配置集成到類中，同時利用緩存依賴來判斷是否

基於spring的redisTemplate的緩存工具類

pri note you ref tar youdao release 雲筆記 pid pom.xml文件添加 <dependency> <

android簡單的工具類

import android.app.Activity; import android.app.ActivityManager; import android.content.ComponentName; import android.content.Context; import android.

Java中物件和json互相轉換的工具類

package com.Dingyu.util; import java.util.List; import com.fasterxml.jackson.core.JsonProcessingException; import com.fasterxml.jackson.databind.JavaT

Redis 設定 Key/value 的規則定義和注意事項（附工具類）

對於redis的儲存key/value鍵值對，經過多次踩坑之後，我們總結了一套規則；這篇文章主要講解定義key/value鍵值對時的定義規則和注意事項。前面一篇文章講了如何定義Redis的客戶端和Dubbo整合儲存器；當我們真正開始開發的時候，就會突然發現，有點不知道如何去定義Redis的K

封裝一個List集合和datatable相互轉換的工具類

oda info data 反射 arr key 建表 contain 信息 /// <summary> /// List轉換為DataTable對象 /// </summary> public class List

Redis設定Key/value的規則定義和注意事項（附工具類）

簡單的工具類(判斷網路/網路資料/)

package com.example.news; import android.content.Context; import android.net.ConnectivityManager; import android.net.NetworkInfo;

JsonObject轉換Bean物件和Bean物件轉換JsonObject工具類（填坑後）

import java.beans.BeanInfo; import java.beans.Introspector; import java.beans.PropertyDescriptor; import java.lang.reflect.Field; import java.ut

MongoDB和JavaBean物件的轉化工具類

package com.paile.utils.beans; import java.lang.reflect.Field; import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type;

基於ansj_seg和nlp-lang的簡單nlp工具類

相關推薦