配置Hanlp自然語言處理進階
中文分詞
中文分詞中有眾多分詞工具,如結巴、hanlp、盤古分詞器、庖丁解牛分詞等;其中庖丁解牛分詞僅僅支援java,分詞是HanLP最基礎的功能,HanLP實現了許多種分詞演算法,每個分詞器都支援特定的配置。接下來我將介紹如何配置Hanlp來開啟自然語言處理之旅,每個工具包都是一個非常強大的演算法集合,所以小編以後將花一些時間去看看裡面原始碼如何。
下載jar、property和data檔案
下載jar檔案,(下載hanlp壓縮包)解壓之後獲得jar和property檔案如下:
其中property問配置檔案,jar檔案為外部引用檔案。
然後下載data檔案:
【https://】pan.baidu.com/s/1o8Rri0y (前面的括號自行去掉)
解壓壓縮包之後就能獲取data目錄了。
一切就緒之後下面就是配置了。
配置hanlp
新建一個空專案,包括一個新建的java檔案的test.java,
1.package com;
2.import com.hankcs.hanlp.HanLP;
3.public class Test {
4.public static void main(String[] args) {
5. System.out.println(HanLP.segment("你好,歡迎使用HanLP!"));
6. }
7.}
目錄結構如下圖:
如果是在linux中的話,你可以將property檔案放在classpath中,windows中也可以,配置環境變數,將property檔案的絕對路徑加上就可以了,然後執行一下這個java檔案:
你會發現如下錯誤
1.十二月 11, 2017 9:59:37 下午 com.hankcs.hanlp.HanLP$Config <clinit>
2.嚴重: 沒有找到hanlp.properties,可能會導致找不到data
3.========Tips========
4.請將hanlp.properties放在下列目錄:
5.D:\ ideaWorkSpace\ hanlp_mavenHanlp\ target\classes
6.Web專案則請放到下列目錄:
7.Webapp/WEB-INF/lib
8.Webapp/WEB-INF/classes
9.Appserver/lib
10.JRE/lib
11.並且編輯root=PARENT/path/to/your/data
然後將property放到相應的目錄就可以了,注意property配置只需要修改root的配置就行了。
1.本配置檔案中的路徑的根目錄,根目錄+其他路徑=絕對路徑Windows使用者請注意,路徑分隔符統一使用/
2.root=D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java
就比如我的解壓後的data資料夾是放在D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java目錄下的那我就改這個就可以了,其餘的配置不用修改
執行成功如下圖:
---------------------
作者:學zaza