基於碼錶的詞性標註-簡單demo

阿新 • • 發佈：2021-01-06

這個是基於作者自定的碼錶來進行匹配的，由於才剛剛開始學習，因此還很簡單。

基本原理

根據本人提供的碼錶來進行匹配，如果碼錶中出現了給定的字串中出現的字元，那麼就將裡面對應的字元所提供的詞性新增上去。

組成部分

讀取碼錶

將碼錶中的內容以HashMap<String, Token_Num>的格式表示出來，其中Token_Num是自定義的雙元組格式；

public class Token_Num {
    public Integer freq = 0;
    public String clas = "";
}

接著讀取碼錶中的內容，具體程式碼實現如下：

public HashMap<String,Token_Num> read_dictionary(String file){
        Tokenizer tokenizer = new Tokenizer();
        List<String> file_content = new ArrayList<String>();
        file_content = tokenizer.readFileContent(file);
        HashMap<String,Token_Num> dictionary = new HashMap<String, Token_Num>();
        for (String f:file_content){
            try{
                Token_Num freq_num = new Token_Num();
                f = new String(f.getBytes(),"utf-8");
                String word[] = f.split("\t");
                String org_word, freq, clas;
                org_word = word[0];
                freq = word[1];
                clas = word[2];
                int freq_int = Integer.parseInt(freq);
                freq_num.freq = freq_int;
                freq_num.clas = clas;
                dictionary.put(org_word,freq_num);
                } catch (UnsupportedEncodingException e) {
                    e.printStackTrace();
                }
            }
        return dictionary;
    }

進行比對

將得到的HashMap的結果和提供的結果進行比對，如果提供的字串和HashMap的key值是一致的，那麼就直接對其進行賦後邊的詞性；

for (Map.Entry<String,Token_Num> result: results){
            String key = result.getKey();
            String value = result.getValue().clas;
            if (text.contains(key)){
                output.add(key+"\t"+value);
            }
        }

測試結果

測試程式碼：

public void get_dictionary(){
        java.lang.String file = "D:\\NLP\\spacy_demo1_java\\src\\main\\java\\tokenizer\\chinese_dictionary.txt";
        Chinese_Token chinese_token = new Chinese_Token();
        chinese_token.get_dictionary(file);
    }
}

結果：
基於碼錶的匹配結果

基於碼錶的詞性標註-簡單demo

技術標籤：自然語言處理這個是基於作者自定的碼錶來進行匹配的，由於才剛剛開始學習，因此還很簡單。

基於httpclient與jsoup的抓取噹噹圖書頁面資料簡單Demo

一.httpclient 來自Apache,可以通過Java程式碼發起HTTP請求下載：http://hc.apache.org/downloads.cgi

gitee怎麼倉庫間傳檔案_實現一個簡單的基於碼雲(Gitee) 的 Storage

技術標籤：gitee怎麼倉庫間傳檔案isolationforest 實現megaraid storage managermips cache verilog實現sourcetree gitee

基於SpringBoot+WebSocket搭建一個簡單的多人聊天系統

前言今天閒來無事，就來瞭解一下WebSocket協議。來簡單瞭解一下吧。 WebSocket是什麼

Java生成藝術二維碼也可以很簡單

原文點選: Quick-Media Java生成藝術二維碼也可以很簡單現在二維碼可以說非常常見了，當然我們見得多的一般是白底黑塊，有的再中間加一個 logo，或者將二維碼嵌在一張特定的背景中（比如微信、支付寶的收款碼）；

Python編寫一個驗證碼圖片資料標註GUI程式附原始碼

做驗證碼圖片的識別，不論是使用傳統的ORC技術，還是使用統計機器學習或者是使用深度學習神經網路，都少不了從網路上採集大量相關的驗證碼圖片做資料集樣本來進行訓練。

laravel5.6 框架郵件佇列database驅動簡單demo示例

本文例項講述了laravel5.6 框架郵件佇列database驅動。分享給大家供大家參考，具體如下：

基於Swing和Mysql的簡單的倉庫管理系統

本系統包含兩個模組：倉庫模組、記錄模組倉庫模組功能：入庫，出庫，修改，刪除，查詢

基於vue和bootstrap實現簡單留言板功能

本文例項為大家分享了vue實現簡單留言板功能的具體程式碼，供大家參考，具體內容如下

Jieba分詞詞性標註以及詞性說明

分詞例項 import jieba import jieba.analyse import jieba.posseg def dosegment_al(sentence): """

基於Java反射技術實現簡單IOC容器

前言首先思考一個問題,如果你正在做一個複雜的系統,一個系統模組內有幾百個功能業務類,這些類需要使用同一些物件來進行工作。那麼，你會怎樣去管理這些通用且一樣的物件呢？

詞性標註維特比演算法介紹

對求解詞性標註過程中使用的維特比演算法進行介紹。籬笆網路(Lattice)的最短路徑問題

詞性標註維特比演算法實現

基於前幾篇文章對維特比演算法的說明，此文對維特比演算法進行實現，並基於維特比演算法實現給定語句的詞性標註。關於\\(pi,A,B\\)的說明參考文章詞性標註語料預處理實戰，維特比相關演算法說明參考詞性標註維特比演

若依管理系統匯出Excel時新增沒有的列和關聯碼錶顯示中文進行匯出

場景在使用若依後臺管理系統時對於單表會自動生成匯出相關的介面。此時如果直接進行匯出會匯出相應的實體類中添加了

RabbitMQ學習-簡單DEMO實現

介紹： RabbitMQ是一個由erlang開發的基於AMQP（Advanced Message Queue ）協議的開源實現。用於在分散式系統中儲存轉發訊息，在易用性、擴充套件性、高可用性等方面都非常的優秀。是當前最主流的訊息中介軟體之一。

Solon 最簡單demo---Hello World

Solon 的專案地址： https://gitee.com/noear/solon 裡面雜七雜八的東西很多。。。今天的目標是整一個最最簡單，最最小巧的 Hello world

JAVA實現列印ascii碼錶程式碼

我就廢話不多說了，大家還是直接看程式碼吧~ package com.jalor; public class AAAA { public static void main(String[] args) {

NLP學習筆記：詞性標註

任務目標：通過已有的訓練資料，將每個單詞的詞性標記出來。知識儲備：　　1.計算語言模型

opencv+pytesseract 驗證碼識別！草雞簡單！

一、環境配置需要 pillow 和 pytesseract 這兩個庫，pip install 安裝就好了。 pip install pillow -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

基於DBoW2生成詞袋庫Demo

#include<iostream> #include<opencv2/opencv.hpp> #include \"DBoW2/DBoW2/FORB.h\" #include \"DBoW2/DBoW2/TemplatedVocabulary.h\"

基於碼錶的詞性標註-簡單demo

基本原理

組成部分

讀取碼錶

進行比對

測試結果

相關推薦