1. 程式人生 > >自己寫得一個分散式海量檔案搜尋引擎

自己寫得一個分散式海量檔案搜尋引擎

最近由於找不到一款適合的海量檔案的公司內部搜尋引擎,只好自己動手寫了一個,並註冊了個域名將其放在美國的一個VPS上。詳情請見http://www.enpknowledge.com/index_cn.html。歡迎各位同仁下載使用,多提寶貴意見。

這個搜尋引擎的主要特點是:
  • · 基於分散式的高效能檔案搜尋引
  • · 支援的檔案總大小可達到數百TB(數萬GB)
  • · 單個檔案的大小可達數百GB
  • · 支援的檔案數量可超過數千萬個
  • · 支援的檔案格式超過數千種,常見的檔案格式如MS-Office,PDF,圖片,視訊...
  • · 支援OCR(光學字元識別)
  • · 多語言支援,如英語、漢語、阿拉伯語、俄語、日語等
  • · 支援中文的自定義分詞
  • · 介面非常友好,功能強大
  • · 基於資料夾增強的安全管理
  • · RESTful API介面,使軟體程式設計師可以將該引擎嵌入到其他應用程式中。

這個內部搜尋引擎非常適合積累了大量文件和技術資料的中小型公司,特別是國外中小型公司,我們可以幫他們快速找到存在檔案伺服器或個人計算機上的文件。在此基礎上,我們正在開發文字挖掘功能,幫助客戶把非結構化及半結構化的資料轉換成為結構化資料,並進行統計分析和圖形展示。我們在石油勘探開發行業已經積累了豐富經驗,現準備先在石油行業開啟銷路,然後在移植到其他行業。最後非常歡迎有志之士加盟合作。