es簡單打造站內搜尋

阿新 • • 發佈：2018-12-17

最近挺忙的，在外出差，又同時幹兩個專案。白天一個晚上一個，特別是白天做的專案，馬上就要上線了，在客戶這裡三天兩頭開會，問題很多真的很想好好靜下來懟程式碼，半夜做夢都能fix bugs~ 和客戶交流真的是門技術，一不小心你就會掉坑裡，慢慢來吧~

站內搜素其實也是老生常談，估計很多程式設計師門都做過或者接觸過，記得大三那會那是比較常見的解決方案就是lucene.net 和盤古分詞，後來又用jieba分詞，

首先就是和資料庫同步，我們把資料扔給lucene.net ，lucene.net 拿到資料進行分詞，然後儲存在索引庫中，當用戶搜尋的時候，就從索引庫中進行搜尋。lucene.net 對中文分詞不是太優化，所以常用的就是盤古分詞庖丁解牛 jieba分詞

，這種方式適合個人站點資料量不是太大的情況下，目前很少有采用這種解決方案的，看官們感興趣的可以百度瞭解一波，實現起來也不難。

前端時間elastc上市，市值50億美金，剛開始我還嚇一大跳~ 接觸es是去年，專案做日誌統計使用exceptionless，所以也就初步瞭解了elasticsearch 也逐步瞭解logstash kibana 速度是真的快，吊打sqlserver啊! 哈哈畢竟不是一系列的東西=

今天簡單實現的站內搜尋採用的就是 elasticsearch，資料來源就是這段時間每天爬取部落格園獲取到的將近6000篇文章，放到sqlserver了，後續會共享

起初想要搞sqlserver 和 es的資料同步，我寫的這個服務每小時就會爬取部落格園一次獲取最新50條資料，重複的就不算了。資料同步可以採用logstash，首先就是全量同步，再次就是增量同步，可能是因為版本原因吧，都是採用的最新版本，採用logstash進行資料同步老是失敗，有待探索，索性就用ef 先做個全量同步，再靠這個定時服務做以後的增量，資料本身就是經過去重處理的，況且也不存在修改刪除的情況

下載好三件套之後我們可以把es部署成windows服務在bin目錄下執行elasticsearch-service.bat

服務開啟後，es預設http地址是 http://localhost:9200/

es啟動成功後啟動kibana 服務同樣也是在bin目錄下執行kibana.bat，kibana對es來說真的是一個神器，

可以在上面操作dsl 做資料分析等待預設地址是http://localhost:5601

從releases下載我下載的最新版 6.4.2 下載後複製到es的plugins 目錄下，解壓就行了。然後去kibana檢查是否安裝成功，具體操作見github

ik分詞策略有ik_max_word 和 ik_smart ik_max_word會將文字做最細粒度的拆分，例如「中華人民共和國國歌」會被拆分為「中華人民共和國、中華人民、中華、華人、人民共和國、人民、人、民、共和國、共和、和、國國、國歌」，會窮盡各種可能的組合；

ik_smart會將文字做最粗粒度的拆分，例如「中華人民共和國國歌」會被拆分為「中華人民共和國、國歌」；

ik安裝後之後就是在kibana建立index 和mapping了

es和我們常用的sqlserver等關係型資料庫對比如下：

DB:DataBases=>Tables=>Rows=>Columns

ES:Indices=>Types=>Documents=>Fields

建立Index

在kibana Dev Tools 操作dsl

PUT /cnblogdb  (注意 必須為小寫)
POST /cnblogdb/articles/_mapping
{
        "properties": {
            "content": {
                "type": "text",
                "analyzer": "ik_smart",
                "search_analyzer": "ik_smart"
            },
            "title":{
              "type":"text",
                "analyzer": "ik_smart",
                "search_analyzer": "ik_smart"
            },
            "summary":{
            "type":"text",
              "analyzer": "ik_smart",
                "search_analyzer": "ik_smart"
              
              },
              "author":{
                "type":"text",
                "analyzer": "ik_smart",
                "search_analyzer": "ik_smart",
                "fielddata": true,
                "fields": {
                  "raw":{
                    "type":"keyword"
                  }
                }
              }
        }
}

可以看到在_mapping 的時候 author欄位加了fielddata 屬性和fields

在這裡設定fielddata為true是因為後續的根據author欄位進行聚合檢索 es在預設情況下對text型別的欄位是不可聚合的

設定 fields :{raw:{type:keyword }} 是因為我們在對author欄位進行聚合的時候，因為上面的ik分詞策略，所以我們聚合到的結果是分詞後的結果，

比如author為張教主聚合結果就成了張，教主這樣的結果，設定他就類似有了個別名。

c#中操作es 使用Nest

這個資料是sqlserver的指令碼資料整到es也是很簡單的

建立esclient es多見於分散式多節點我們搞著學習就不必要了

var node = new Uri("http://localshot:9200");
var settings = new ConnectionSettings(node);
var client = new ElasticClient(settings);

看專案介面截圖就是一個簡單的多欄位匹配檢索和聚合

建立Model 此model是與type相對應的

[ElasticsearchType(Name ="articles")]  
    public partial class Articles
    {
        public int Id { get; set; }

        [Text(Analyzer = "ik_smart")]  
        public string Title { get; set; }

        public string ItemUrl { get; set; }
        [Text(Analyzer = "ik_smart")]
        public string Sumary { get; set; }
        [Text(Analyzer = "ik_smart", Fielddata = true)]
        public string Author { get; set; }

        public string PubDate { get; set; }
        [Text(Analyzer = "ik_smart")]
        public string Content { get; set; }
    }

首先就是首頁的高亮檢索了程式碼如下：

       public ActionResult GetArticles()
        {
            Stopwatch sw = new Stopwatch();
            sw.Start();
            string keyWords = Request.Params["keyWords"];
            string author = Request.Params["author"];
            int.TryParse(Request.Params["page"], out int page);
            page = page <= 1 ? 1 : page;
            int start = (page - 1) * 10;

            var query = new SearchDescriptor<Articles>();
            if (!string.IsNullOrWhiteSpace(author))
            {
                query= query.Query(q => q.Match(m => m.Field("author").Query(author)));
            }
            else
            {
                query = query.Query(q => q.MultiMatch(m => m.Fields(
                        fd => fd.Fields("title", "sumary", "author")
                        ).Query(keyWords)
                        ));
            }
            query = query.Highlight(h => h
               .PreTags(@"<span style='color:red'>")
                  .PostTags("</span>")
                  .Fields(
                      f => f.Field(obj => obj.Title),
                      f => f.Field(obj => obj.Sumary),
                      f => f.Field(obj => obj.Author)
                   )
            ).Sort(c => c.Field("_score", SortOrder.Descending).Field("id", SortOrder.Descending))
                         .From(start).Size(10);            

            var response = _client.Search<Articles>(query);

            var list = response.Hits.Select(c => new Articles
            {
                Id = c.Source.Id,
                Title = c.Highlights == null ? c.Source.Title : c.Highlights.Keys.Contains("title") ? string.Join("",
          c.Highlights["title"].Highlights) : c.Source.Title,
                Author = c.Highlights == null ? c.Source.Author : c.Highlights.Keys.Contains("author") ? string.Join("",
          c.Highlights["author"].Highlights) : c.Source.Author,
                Sumary = c.Highlights == null ? c.Source.Sumary : c.Highlights.Keys.Contains("sumary") ? string.Join("",
          c.Highlights["sumary"].Highlights) : c.Source.Sumary,
                PubDate = c.Source.PubDate
            });
            sw.Stop();
            ViewBag.Times = sw.ElapsedMilliseconds;
            ViewBag.PageIndx = page;
            ViewData["list"] = list.ToList();
            return View();
        }

在Sort(c => c.Field("_score", SortOrder.Descending).Field("id", SortOrder.Descending)) 這裡我們可以多留意一下，在匹配搜尋的時候，預設排序是根據匹配得分進行排序的，所以我們想要獲取最新最匹配的資料，首先就是根據匹配得分進行排序在根據時間

面板結果如下：

Nest進行搜尋語法不做過多討論谷歌百度

然後就是根據author進行聚合類似資料庫語法就是 select author,count(author) from article group by author

dsl 結果如下所示：

size就是最靠前的10位了小魚兒同志貢獻最多我所提供的資料來源裡有56篇文章~

程式碼如下：

     public ActionResult HomeRight()
        {
            var response= _client.Search<Articles>(s => s.Aggregations(aggs => aggs.Terms(
                  "aggs", t => t.Field("author.raw").Size(20).CollectMode(TermsAggregationCollectMode.BreadthFirst)
                  )).Size(0));
            var buckets= response.Aggregations.Terms("aggs").Buckets;
            var authorGroups= buckets.Select(q => new AuthorGroup
            {
                AuthorName = q.Key,
                Count = (int)q.DocCount
            }).ToList();
            ViewData["list"] = authorGroups;
            return View();
        }

在c#中我們就是把dsl 改為lambda去查詢

在聚合的時候最後 Size(0); 不是取0條資料而是在聚合搜尋的時候預設也會獲取documents 預設為10條但是我們只是聚合並不需要搜尋文件所以就設定為0

也減小了記憶體開銷，增加查詢速度。

更多資料就是看官方文件了，提供的很全面。

Share End！

es簡單打造站內搜尋

建立Index

c#中操作es 使用Nest

es簡單打造站內搜尋

PHP結合Dreamweaver 打造站內搜尋（下）

利用JQuery傳送ajax請求進行站內搜尋(Hibernate篇——超簡單系列)

es站內站內搜尋筆記（一） Mysql 如何設定欄位自動獲取當前時間

使用Lucene開發簡單的站內新聞搜尋引擎(搜尋結果的顯示)

hexo next主題站內搜尋出現異常，無法正常跳轉，跳轉時出現異常

利用JQuery傳送ajax請求進行站內搜尋

solr站內搜尋之suggest和詞頻統計

基於輕量級php搜尋sphider站內搜尋初級優化

PHP站內搜尋功能(laravel自帶Scout驅動+elasticsearch)

javaEE Lucene，全文檢索，站內搜尋，入門程式。索引庫的新增

站內搜尋

百度站內搜尋https不可用切換api搜尋，加上谷歌api站內搜尋

我的php學習筆記（三十七） PHP站內搜尋：多關鍵字、加亮顯示

solr學習筆記 -- day06 模擬京東實現站內搜尋

關於站內搜尋的那些事兒

在網頁中嵌入百度、谷歌搜尋（Web搜尋與站內搜尋）

PHP站內搜尋：多關鍵字、加亮顯示

ASP站內搜尋程式碼#

google站內搜尋

es簡單打造站內搜尋

建立Index

c#中操作es 使用Nest

相關推薦