1. 程式人生 > >搜尋引擎elastic的一次偉大的嘗試

搜尋引擎elastic的一次偉大的嘗試

接觸elastic,是因為它恰好和需求匹配。

我們在六月份的時候決定要做一款偉大的產品,這款產品是基於東哥幾年來嘔心瀝血蒐集來的各種基因相關資料庫資源以及nlp訓練出來的資料。

一次公交車的偶遇東哥知道了我在尋求好的機會,問我要不要加入,此刻他已經有了創業的打算。

我接到這個需求,前期的框架和安全登陸模組恰好和我去年暑假酷熱難耐時期做的電商平臺相似,決定複用(可以參照我的技術部落格關於平臺搭建的博文)。

白天工作,閒暇之餘來構思和創作。

架構複用了之前的Springmvc,使用者登陸模組Springsecurity,前端jsp+jquery (抱歉react和angular再去熟悉太花時間),資料庫mysql。

前期只做了變異模組,mysql還能撐得住。

需求變得越來越和關係型資料庫不能和平共處了:資料某些欄位為文章摘要,動則幾百個單詞,匹配的欄位要高亮展示於頁面,要求在動則千萬的資料中快速匹配並返回…

偉哥的一句話讓我和elastic結緣……

elastic儲存資料是將資料索引的過程,當你查詢這些資料時實則是通過建立的索引快速匹配到的,就像翻字典,通過檢索資料的規律快速定位;高亮是elastic的另一大特色,通過highlight方法(高亮匹配的欄位,高亮欄位前後擷取的size,高亮的格式等)便可輕鬆高亮。

邊使用邊學習,比如返回大資料集的scroll和scan,都是在使用過程中現有技術無法滿足才嘗試瞭解和使用的。

問題仍有很多,仍在探索的路上……

目前varpaper 已經升級第二版,除了之前的變異模組,新增了基因、疾病和藥物模組。

目前已有大公司表達合作意願。

varpaper是一款通過人工智慧nlp訓練資料得到的可以通過輸入變異、基因、疾病及藥物快速定位相關文獻的產品,使用者關鍵字及變種可在文章摘要及正文高亮,幫助基因疾病分析人員快速找到相關國內外研究資料,提高他們的工作效率。

試用地址:varpaper.com:8080/webes/login

一直在路上…