開源中文檢索軟體CoreSeek之初體驗

阿新 • • 發佈：2020-10-15

國人開發的CoreSeek實際是上基於Sphinx的定製版，使用mmseg進行中文分詞並實現中文搜尋。

官網提供了詳細的安裝說明和CentOS5的rpm安裝包，由於筆者需要在CentOS 6 x86_64上執行，得自行打包。筆者已完成原始碼包的封裝：mmseg 、 coreseek。

相對Sphinx的安裝，CoreSeek需要安裝中文分詞庫mmseg。測試方法就是在示例資料庫裡插入一些中文字串：

然後重建索引就可以自動分詞，並查詢中文了：

特別需要注意的就是，要統一字元編碼。筆者統一使用UTF-8，示例MySQL資料庫對應表的屬性是：

CREATE TABLE `documents` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`group_id` int(11) NOT NULL,
`group_id2` int(11) NOT NULL,
`date_added` datetime NOT NULL,
`title` varchar(255) COLLATE utf8_unicode_ci NOT NULL,
`content` text COLLATE utf8_unicode_ci NOT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=14 DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci

另外就是CoreSeek的配置檔案中需要指定字符集，詳細配置請解開原始碼包檢視詳細。筆者編譯過程開啟了對unixodbc、mmseg、mysql和python的支援：

並打包了php的api庫、日誌分割以及系統服務：

需要中文分詞搜尋的，用CoreSeek真是扛扛的！唯一美中不足的就是內建的Sphinx版本還比較老舊，對新功能的支援可能沒那麼好。需要大家大力支援，促進國人軟體的發展！

轉載於:https://my.oschina.net/kisops/blog/152190

開源中文檢索軟體CoreSeek之初體驗

>>> 國人開發的CoreSeek實際是上基於Sphinx的定製版，使用mmseg進行中文分詞並實現中文搜尋。

跳躍表之初體驗

背景在查詢演演算法的解決方案中，即根據 key 來查詢其所在的位置，主要思想一般是基於兩種，一種是基於平衡樹，還有一種是基於雜湊表。

可穿戴裝置主控制器晶片AMA3B 原始碼解析之初體驗

一背景和緣由現在的mcu非常多，在超低功耗mcu這塊，能贏得市場穿戴式裝置使用的產品的確不多，以前是的是stm32 L系列，可是，隨著L系列的缺貨漲價和技術指標沒有快速的發展，很多廠商都拋棄了。轉而使用了阿

跟我一起學.NetCore之配置初體驗

前言配置對於程式來說，絕對是必不可少，畢竟配置是應用或元件動態適應各種環境的最優方案，沒有之一(我還年輕，我是這麼認為的)；之前可能用的最多的配置源是命令列、檔案(XML、Json、INI)，Web中對於Asp.Net程式設

JS之DOM事件初體驗

什麼是事件 JavaScript建立動態頁面。事件是可以被 JavaScript 偵測到的行為。網頁中的每個元素都可以產生某些可以觸發 JavaScript 函式或程式的事件。

jacoco-1-java程式碼測試覆蓋率之本地環境初體驗

前言 jacoco是一個開源的覆蓋率工具，它針對的開發語言是java，其使用方法很靈活，可以插樁到Ant、Maven中，可以使用其JavaAgent技術監控Java程式等。

node.js連結MongoDB資料庫初體驗之新增一條資料

技術標籤：node.jsnode.jsmongodbjavascript 入門教程連結：https://www.runoob.com/mongodb/mongodb-window-install.html

vue一：vue基礎之vue初體驗

一、Vue介紹Vue是一套用於構建使用者介面的漸進式框架。與其它大型框架不同的是，Vue 被設計為可以自底向上逐層應用。Vue 的核心庫只關注檢視層，不僅易於上手，還便於與第三方庫或既有專案整合。另一方面，當與現代

ES6 Promise初體驗之解放你的雙手

技術標籤：ES6javascriptes6vue.js 一直都知道ES6 Promise可以解決無限套娃的問題，這不終於碰到了

陣列初體驗之陣列中重複的數字

技術標籤：資料結構與演算法陣列初體驗之陣列中重複的數字陣列：有限個相同型別的變數組成的有序集合

棧初體驗之有效的括號

技術標籤：資料結構與演算法棧初體驗之有效的括號 1、初識棧棧 Stack 在同一端進行插入和刪除遵循的是先進後出/後進先出 LIFO(Last in first out)的規則

醉翁之意：美國承諾開源 5G SA 軟體堆疊

據報道，美國先進無線研究平臺（Platforms for Advanced Wireless Research,PAWR）近日宣佈推出 OpenAirX-Labs (OAX) ，這是 PAWR 專案的一部分。PAWR 專案由美國國家科學基金會（NSF）和 35 家領先無線公司和協會組

Dapr初體驗之Hello World

Dapr介紹 Dapr - Distributed Application Runtime 安裝Dapr 根據官方手冊安裝，由於安裝映象源使用了github導致下載失敗。所以手動下載，複製到了伺服器路徑 /usr/local/bin 目錄下。

Spring核心原理之IoC容器初體驗（2）

本文節選自《Spring 5核心原理》 1IoC與DI基本概念 IoC（Inversion of Control，控制反轉）就是把原來程式碼裡需要實現的物件建立、依賴，反轉給容器來幫忙實現。我們需要建立一個容器，同時需要一種描述來讓容器

Agora Flat：線上教室的開源初體驗

開發者其實很多時候都非常向往開源，開源領域的大佬也特別多，我們談不上有多資深，也是一邊探索一邊做。同時，也希望可以借這次機會把我們摸索到的一些經驗分享給大家。

我與無影的初體驗：使用無影雲桌面進行一個開源 Angular 專案的端到端測試

近日很榮幸地收到了阿里雲邀請做一個關於阿里旗下無影雲桌面的評測，從官網上了解到阿里雲無影雲桌面原名為彈性雲桌面，融合了無影產品技術後更名升級，可廣泛應用於具有高資料安全管控、高效能運算等要求的安全辦公

201971010229-劉轉弟實驗一軟體工程準備-軟體工程初體驗

實驗一：軟體工程準備專案內容課程班級部落格連結 2019級卓越工程師班這個作業要求連結

flutter-開發初體驗之Android Studio環境的搭建和配置

現在在自學flutter，萬事先把裝備準備好，首先來把常用的編輯器安裝好，走著~

flutter初體驗之編寫的第一個flutter app

隨著flutter環境的搭建成功，我趁熱打鐵照著教程做起了第一個app的demo 這個教程分兩步，

《九州江湖情攻略》手遊初體驗之國戰玩法篇

兄弟、戰鬥、殺戮、榮耀……狼煙四起，硝火瀰漫，一場場國戰令人熱血沸騰，兵器交接的聲響讓人慾罷不能。今天，小編就來給各位將軍說說國戰那些事。

開源中文檢索軟體CoreSeek之初體驗

相關推薦