HanLP自然語言處理包初步安裝與使用
HanLP是由一系列模型與演算法組成的Java工具包,目標是促進自然語言處理在生產環境中的應用。HanLP具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點。
HanLP能提供以下功能:關鍵詞提取、短語提取、繁體轉簡體、簡體轉繁體、分詞、詞性標註、拼音轉換、自動摘要、命名實體識別(地名、機構名等)、文字推薦等功能,詳細請參見以下連結:http://www.hankcs.com/nlp/hanlp.html
HanLP下載地址:https://github.com/hankcs/HanLP/releases,HanLP專案主頁:https://github.com/hankcs/HanLP
1、HanLP安裝
hanlp是由jar包、properties檔案和data資料模型組成,因此,在安裝時,這三種檔案都應該有。可以通過建立java工程即可執行。
hanlp.properties檔案中描述了不同詞典的相對路徑以及root根目錄,因此,可以在此檔案中修改其路徑。
hanlp-1.3.4.jar包中包含了各種演算法及提取方法的api,大部分方法都是靜態的,可以通過HanLP直接進行呼叫,因此,使用非常方便。
data資料夾中包含了dictionary和model資料夾,dictionary中主要是各種型別的詞典,model主要是分析模型,hanlp api中的演算法需要使用model中的資料模型。
2、HanLP的使用
普通java工程目錄如下所示:
3、HanLP的具體使用
例如:對excel中的聊天記錄欄位進行熱點詞的提取,計算並排序,功能如下所示
package com.run.hanlp.demo;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;
import org.apache.log4j.Logger;
import com.hankcs.hanlp.HanLP;
import com.hankcs.hanlp.seg.common.Term;
import com.hankcs.hanlp.suggest.Suggester;
import com.hankcs.hanlp.summary.TextRankKeyword;
import com.hankcs.hanlp.tokenizer.NLPTokenizer;
import com.hankcs.hanlp.tokenizer.StandardTokenizer;
import com.run.util.ExcelUtil;
public class HanlpTest {
public static final Logger log = Logger.getLogger(HanlpTest.class);
public static void main(String[] args) {
log.info("關鍵詞提取:");
HanlpTest.getWordAndFrequency();
}
/**
* 獲取所有關鍵詞和頻率
*/
public static void getWordAndFrequency() {
// String content =
// "程式設計師(英文Programmer)是從事程式開發、維護的專業人員。一般將程式設計師分為程式設計人員和程式編碼人員,但兩者的界限並不非常清楚,特別是在中國。軟體從業人員分為初級程式設計師、高階程式設計師、系統分析員和專案經理四大類。";
List<Map<String, Integer>> content = ExcelUtil.readExcelByField("i:/rundata/excelinput",5000,5);
Map<String, Integer> allKeyWords=new HashMap<>();
for(int i=0;i<content.size();i++){
Map<String, Integer> oneMap=content.get(i);
for(String str:oneMap.keySet()){
int count = oneMap.get(str);
CombinerKeyNum(str,count,allKeyWords);
}
}
List<Map.Entry<String,Integer>> sortedMap=sortMapByValue(allKeyWords);
log.info(sortedMap);
}
/**
*
* @param allKeyWords 需要進行排序的map
* @return 返回排序後的list
*/
public static List<Map.Entry<String,Integer>> sortMapByValue(Map<String,Integer> allKeyWords){
List<Map.Entry<String,Integer>> sortList=new ArrayList<>(allKeyWords.entrySet());
Collections.sort(sortList, new Comparator<Map.Entry<String, Integer>>() {
public int compare(Map.Entry<String, Integer> o1, Map.Entry<String, Integer> o2) {
return (o2.getValue() - o1.getValue());
}
});
return sortList;
}
/**
*
* @param key 關鍵詞變數
* @param value 關鍵詞詞頻變數
* @param allKeyWords 存放關鍵詞和詞頻的map
*/
public static void CombinerKeyNum(String key,int value,Map<String,Integer> allKeyWords){
if(allKeyWords.containsKey(key)){
int count=allKeyWords.get(key);
count+=value;
allKeyWords.put(key, count);
}else{
allKeyWords.put(key, value);
}
}
/**
*
* @param content 需要提取關鍵詞的字串變數
* @return 返回關鍵詞以及關鍵詞詞頻數的map
*
*/
public static HashMap<String, Integer> getKeyWordMap(String content) {
List<Term> list = StandardTokenizer.SEGMENT.seg(content);
TextRankKeyword textmap = new TextRankKeyword();
Map<String, Float> map = textmap.getTermAndRank(content);
Map<String, Integer> mapCount = new HashMap<>();
for (String str : map.keySet()) {
String keyStr = str;
int count = 0;
for (int i = 0; i < list.size(); i++) {
if (keyStr.equals(list.get(i).word)) {
count++;
}
}
mapCount.put(keyStr, Integer.valueOf(count));
}
// log.info(mapCount);
return (HashMap<String, Integer>) mapCount;
}
}
執行之後,結果如下:
由此可見,可以看見從excel中提取出來的熱點詞彙及其頻率。
文章來源於計算機之wind的部落格