菜鳥如何使用hanlp做分詞的過程記錄
最近在學習hanlp的內容,準備在節後看看有沒有時間整理一波hanlp分享下,應該還是會像之前分享DKHadoop一樣的方式吧。把整個學習的過程中截圖在配文字的方式搞一下。
這兩天也在看一些其他人分享的hanlp學習和使用分享的文章,後面看到的分享也會轉載分享給大家。今天分享的這篇也是很早前別人分享的一篇如何用hanlp做分詞的文章,新手入門級的可以看看!
boss給了個做分詞的任務,最開始想用的是結巴分詞and正則表示式。後來發現結果並不好,需要一遍一遍篩選【第一個標準篩選出80%的資料,然後制定第二個標準,繼續篩選,然後制定第三個標準篩選,等等等等】
自己用了一下結巴分詞,感覺對於人名,地名,機構名,只是泛泛地使用了一下。在實際分開的時候,並不能很好地分開機構名稱。於是轉而使用hanlp分詞。
但是hanlp分詞的缺點是隻有在java上可以用,但是java一向又是我的弱項。所以在這裡寫一篇部落格從頭至尾敘述一下怎麼樣使用hanlp。
而且,小胖胖把我的電腦鎖在北師圖書館櫃子裡了。我工作沒有電腦可用,於是使用小胖的電腦,也就是說,所有的基本變數都需要我自己來配來下,因此也相當於是從一張白紙到使用hanlp的過程。
第一步:下載一個jdk,到openjdk官網去下一個,直接安裝即可。
安裝過後,要配置三個環境變數,分別是
1、JAVA_HOME:C:\Program Files\Java\jdk1.8.0_73;
2、CLASSPATH: 就是這個jdk開啟之後裡面的那個lib的目錄;
3、PATH:就是jdk後面的bin目錄;
配置完成之後,在Windows底下的cmd上面,輸入java -version看看有沒有反應即可判斷是否正確安裝jdk。
【我這裡出現了個小問題,在胖胖的電腦裡,不知道她之前安裝過什麼東西,自帶了一個jre1.6 然而我安裝的是jre1.8 在cmd裡面報錯,說找不到jre1.6 後來我看了網上的說法,說是也許你別的軟體也會下載java環境,所以你可能有許多不同的包,系統在尋找路徑的時候,預設會根據你上面配置的環境變數裡面找。因此,需要把咱們最新下的那個環境變數放在一大堆環境變數的最前面,嘗試即可。】
下載了jdk安裝成功之後,第二步,下載eclipse
到官網去找,記住,x86是32位,x64是64位,下載之後設定project的位置【比如我設在了D盤的根目錄,結果發現不太好,但是已經改不了了。。教訓】
安裝成功之後,第三步,去下載hanlp的各種東西
方法1.maven方法,下載一個0配置即可。【但是我不會玩兒】
方法2:先下載hanlp-1.2.8.jar這個jar包【備註,目前hanlp版本已經發布到了portable-1.6.8】
http://hanlp.com/
再下載data.zip這個資料包,可以選擇,選擇下載標準資料or迷你資料or全部資料。大小不同。我下的是標準版的。40M
再下載hanlp.properties這個是一個以properties結尾的一個檔案,我之前從來沒見過,不過可以用txt開啟。
第四步:把下載的這些東西匯入到eclipse裡面去,構建路徑
1、把jar包匯入到eclipse的lib目錄下
http://jingyan.baidu.com/article/ca41422fc76c4a1eae99ed9f.html
2、自己在src裡面建立一個包,在包裡面建立一個類。包會在我設定的根目錄D:/下面,類名稱首字母必須大寫?【貌似不大寫的話,會被否決】
3、把data包解壓,然後放在一個自己喜歡的路徑【我的路徑是D://py/】然後,在hanlp.properties這個檔案裡,把root修改為data存放的上一級目錄。
4、把hanlp.properties拖動到src這個目錄下
然後試驗了一個demo測試,發現報錯,然後點選import import com.hankcs.hanlp.HanLP;然後run了一下程式
依然報錯,發現是沒有把properties那個檔案匯入到bin目錄下,再次開啟test0320,在那個bin目錄下複製properties檔案之後執行,成功了