中文分詞詞庫彙總(一)
最近需要對招投標領域的中文詞彙進行統計和分析,首選需要分詞,分詞需要詞庫。
一、從網上找了不少詞庫,各有特點,在這裡整理一下。詞的數量有:4萬,5.7萬,9.1萬,13.3萬,15.5萬,19.6萬,21.3萬,21.7萬,21.8萬,30萬。
二、從主流的幾個分詞工具包中,提取了詞庫,分別為:
分詞工具 | 詞庫中詞的數量 | 最後更新時間 |
jieba | 16.6萬 | 2015年 |
IK | 27.5萬 | 2012年 |
mmseg | 15萬 | 2014年 |
word | 64.2萬 | 2015年 |
下一篇文章對比一下這些詞庫的區別
相關推薦
中文分詞詞庫彙總(一)
最近需要對招投標領域的中文詞彙進行統計和分析,首選需要分詞,分詞需要詞庫。 一、從網上找了不少詞庫,各有特點,在這裡整理一下。詞的數量有:4萬,5.7萬,9.1萬,13.3萬,15.5萬,19.6萬,21.3萬,21.7萬,21.8萬,30萬。 二、從主流的幾個分詞工具包
中文分詞工具探析(一):ICTCLAS (NLPIR)
【開源中文分詞工具探析】系列: 1. 前言 ICTCLAS是張華平老師推出的中文分詞系統,於2009年更名為NLPIR。ICTCLAS是中文分詞界元老級工具了,作者開放出了free版本的原始碼(1.0整理版本在此). 作者在論文[1] 中宣稱ICTCLAS是基於HHMM(Hierarchical Hid
jsp中讀取數據庫內容(一)
reat cor mysq ava roo 數據 state imp nav 在jsp中將數據庫表格內容讀出為一個表格,並在表格中添加超鏈接: 1 <%@ page language="java" contentType="text/html; charset=U
分布式利器Zookeeper(一)
zookeeperZookeeper不論是在實際項目中,還是在各種分布式開源項目中都得到了廣泛應用,從本篇博客開始,將為大家帶來我對Zookeeper的認識。這個系列將會涵蓋Zookeeper的介紹、環境搭建、配置說明、Java操作Zookeeper(原生API方式)、zkclient操作Zookeeper方
圖書管理系統總結——數據庫操作(一)
set 結果集 static () block csdn .com oid 取數據 由於經常在晚上回宿舍寫代碼,沒有網,故而沒用老師提供的Oracle數據庫服務器,在自己電腦上裝了一個MySQL。而且JAVA配MySQL還是很方便的。 數據庫連接: 參考了http://b
數據庫入門(一)
數據庫入門 數據庫軟件 java平臺 1.數據保存 數據保存在內存: 優點: 存取速度快 缺點: 數據不能永遠保存 數據保存在文件: 優點: 數據永遠保存 缺點:
Java面試-數據庫篇(一)
t對象 計時 具體類 分離 根據 變化 第二範式 類加載 關系 1、用兩種方式根據部門號從高到低,工資從低到高列出每個員工的信息。 1 employee: 2 3 eid,ename,salary,deptid; 4 5 select * from employeeo
數據庫筆記(一)--數據庫基礎
sel -s style lan pri ati mys esc 常用 一、語法要求 1、SQL語句可以單行或多行書寫,以分號結尾。 2、可以用空格和縮進來來增強語句的可讀性。 3、關鍵字不區別大小寫,建議使用大寫。 二、語句分類 1、DDL(Data De
數據庫語句(一)
set 通用 五個 和數 完成 面向過程 bms 補充 分析 很快,我們就進入到我們數據庫課程的核心章節,語句章節,首先我們先談談sql,其是結構化查詢語句,是關系數據庫的標準語言,同時,sql也是一個通用,功能極強的關系數據庫語言。其特點有五個,分別為 1)綜合統一
搭建部署 分布式ELK平臺 (一)
sca java 7 zip 什麽 jpg repl columns sna count 搭建部署 分布式ELK平臺ELK 是什麽 ?ELK 其實並不是一款軟件,而是一整套解決方案,是三個軟件產品的首字母縮寫 – Elasticsearch:負責日誌檢索和儲存
數據庫設計(一)概念、內容、步驟和參考資料
及其 用戶 各類 都沒有 處理 步驟 有效 database 意思 概念 百度百科對數據庫設計的給了如下的描述: 數據庫設計(Database Design)是指對於一個給定的應用環境,構造最優的數據庫模式,建立數據庫及其應用系統,使之能夠有效地存儲數據,滿足各種用戶的應用
數據庫設計(一)——數據庫設計
數據庫設計數據庫設計(一)——數據庫設計 一、數據庫設計簡介 按照規範設計,將數據庫的設計過程分為六個階段: A、系統需求分析階段B、概念結構設計階段C、邏輯結構設計階段D、物理結構設計階段E、數據庫實施階段F、數據庫運行與維護階段需求分析和概念結構設計獨立於任何數據庫管理系統。 二、系統需求分析 1、需求分
MySQL數據庫基礎(一)——MySQL數據庫簡介
MySQLMySQL數據庫基礎(一)——MySQL數據庫簡介 一、MySQL簡介 1、MySQL簡介 MySQL是一個輕量級關系型數據庫管理系統,由瑞典MySQL AB公司開發,目前屬於Oracle公司。目前MySQL被廣泛地應用在Internet上的中小型網站中,由於體積小、速度快、總體擁有成本低,開放源碼
Oracle數據庫學習(一)
pan HA 顯示 當前 使用 tin spa rom 格式 Oracle數據庫由甲骨文公司開發,是基於對象的關系型數據庫;下面是簡單的學習數據庫操作等知識。 1.SQL單表查詢(設一個表名為tab) (1)查詢所有記錄 select
數據庫索引(一)
java索引在mysql中也叫做鍵(key),是存儲引擎用於快速找到記錄的一種數據結構。常見索引類型:1. B-Tree索引大多數mysql引擎都支持這種索引;B-Tree通常意味著所有的值都是按順序存儲的,並且每一個葉子頁到根的距離相同;存儲引擎不需要進行全表掃描來獲取需要的數據,取而代之是從索引的根節點開
Go語言中mysql數據庫操作(一)
Go語言中mysql數據庫操作 Go語言mysql數據庫 Go數據庫操作 數據的持久化是程序中必不可少的,所以編程語言中對數據庫的操作是非常重要的一塊,本文介紹Go語言對mysql數據庫的操作。 基本操作 建立連接 db, err := sql.Open("mysql", "root:root@t
探果題庫實踐(一)
7月 題目 bsp tle 頁面 alt get blank 決定 在這個上面已經花了很長一段時間,還沒有真實的接觸一個用戶,不確定這些時間是不是付諸東流。 現在決定把這個過程記錄下來。 網站首頁 :www.tamguo.com 章節頁面:http://www.tamg
Ceph分布式存儲(一)
proc work 保存 副本 config gpg rhcs 掛載 數據分布 Ceph分布式存儲(一) 一、概述Ceph是可靠的、可擴展的、統一的、分布式的存儲系統。可以同時提供對象存儲RADOSGW(Reliable、Autonomic、Distributed、Obj
分布式服務框架(一)
不能 企業應用 service ide 宕機 因此 style 質量 作用 一、RPC RPC(Remote Process Call),即遠程服務調用,被廣泛地應用在很多企業應用中,是早期主要的服務治理方案,其流程較為簡單,客戶端consumer攜帶參數發送RPC請求
stm32 HAL庫筆記(一)——串口的操作
可能 硬件 字節 tro define 數據位 tst flow hand 昨天分析了普通io口的使用,和初始化代碼流程,回顧一下,首先定義一個配置io口功能的結構體,然後開啟時鐘,再去配置這個結構體裏面的各個成員變量,每個成員變量都有很多種選擇,可以看各個成員變量 後