大流量下的 ElasticSearch 搜尋演進

阿新 • • 發佈：2019-07-04

這是泥瓦匠（bysocket.com）的第27篇精華分享

ES （ElasticSearch）是分散式搜尋引擎。引擎太晦澀，其實類似一個 MySQL ，一個儲存。方便提供下面功能：

近實時搜尋
全文檢索，結構化搜尋，統計分析

那麼儲存在 ES 資料哪裡來？

答案是資料同步。方式推薦如下：

資料傳輸(Data Transmission)是阿里雲提供的一種支援RDBMS(關係型資料庫)、NoSQL、OLAP等多種資料來源之間資料互動的資料服務。【阿里的】
https://help.aliyun.com/product/26590.html
有贊億級訂單同步的探索與實踐【小弟我呆的小組搞的】
https://mp.weixin.qq.com/s/33KACMxXkgzZyIL9m6q4YA

迴歸到 ES 演進

一、小流量階段

當時在創業公司，同步每次都是全量的，然後凌晨任務跑一下即可。或者直接同步往 ES CRUD 資料。

單機偽叢集，也可以跑。具體全文檢索思路：

基於「短語匹配」並設定最小匹配權重值
哪來的短語，利用 IK 分詞器分詞
基於 Fiter 實現篩選
基於 Pageable 實現分頁排序

具體看我係列 ES 部落格和 GitHub。

二、流量慢慢大了

這個量級預估是百萬 / 千萬資料同步和查詢。

就不能單機偽叢集了，運維層面能解決這個量：

多個 ElasticSearch 執行例項（節點 Node）的組合體是 ElasticSearch 叢集
通過水平擴容為叢集新增更多節點

如何水平擴容

主分片在索引建立已經確定。讀操作可以同時被主分片和副分片處理。因此，更多的分片，會擁有更高的吞吐量。自然，需要增加更多的硬體資源支援吞吐量。說明，這裡無法提高效能，因為每個分片獲得的資源會變少。動態調整副本分片數，按需伸縮叢集，比如把副本數預設值為 1 增加到 2：

PUT /blogs/_settings
{
"number_of_replicas" : 2
}

基本一個叢集 Cluster 含著各個業務搜搜：訂單、商品等

三、突然訂單流量暴增了

突然發現一個問題：

A 叢集裡面的大索引慢查會影響 A 叢集的其他小索引。

比如現在同一個訂單索引大了，慢查。影響了其他業務。那不應該呀，咋辦？

答案是：物理隔離為多叢集：

分為很多叢集：叢集訂單、叢集商品等隔離
多機房支援

往往這時候問題由來了：業務單點如何優化升級？

一個索引 project , 儲存專案相關的資料。專案的數量級越來越大，億量級，萬億量級。那一個大索引的查詢啥的都會出現瓶頸。這時候該怎麼優化呢？

解決方案：冷熱分離；拆分

大索引的拆分，也不是很難。類似分片的路由規則，根據具體業務指定即可。

這裡，我們可以定義 1000 個索引，分別名為 project_1、project_2、project_3…

然後在 ES 叢集上面架一層簡單的 proxy 。裡面核心的業務路由規則可以這樣：

project_id 專案自增 ID
index_id 得出來的索引對應的 ID

index_id = project_id % 1000

ES proxy 層：做總索引和真正分索引的對映
ES 索引配置管理：做索引與業務的對映
ES 叢集

冷熱分離；也是類似的就是中間狀態的資料最熱獨立叢集獨立索引。定期從裡面刪除終態資料。那麼這個索引資料量少，支援搜搜查詢量賊大。何樂而不為。

完 -

大流量下的 ElasticSearch 搜尋演進

這是泥瓦匠（bysocket.com）的第27篇精華分享 ES （ElasticSearch）是分散式搜尋引擎。引擎太晦澀，其實類似一個 MySQL ，一個儲存。方便提供下面功能：近實時搜尋全文檢索，結構化搜尋，統計分析那麼儲存在 ES 資料哪裡來？答案是資料同步。方式推薦如下：資料傳輸(Da

大資料篇：Elasticsearch分散式搜尋與分析引擎

Elasticsearch簡介 Elasticsearch是一個實時的分散式搜尋和分析引擎。它可以幫助你用前所未有的速度去處理大規模資料。它可以用於全文搜尋，結構化搜尋以及分析，當然你也可以將這三者進行組合。 Elasticsearch是一個建立在全文搜尋引擎 Apa

大資料下的日誌--ElasticSearch部分（四）--Mapping

相當於資料庫的表結構的定義，elasticsearch的mapping 也很重要。直接關係到效能及搜尋結果的準確性。elasticsearch的java api的例子太少，我在這兒就獻醜了。為了說明mapping的定義，我這裡定義了一個簡單的模型，就ID,type,和ca

大資料下的日誌--ElasticSearch部分（三）--Bulk,Search操作

其實在上一篇部落格中，只要大家能看懂，就應該能夠根據其程式碼做到舉一反三了，依次類推ES的批量操作Bulk，搜尋功能Search等，但在這裡還是簡單講一下。批量索引和刪除 Java程式碼收藏程式碼 BulkRequestBuilder bulkRequest

大流量場景下統計問題整理

前言電視劇《恰同學少年》中，給我印象最深的就是楊昌濟先生晨讀之前大聲朗讀的兩句話： “楊昌濟，時光易逝，汝當惜之；先賢至理，汝當常憶。” 人生苦短，汝當惜之。向聖賢學習，時常警惕、自審，整理今日所獲如下。背景流量分析過程中，有一個定時統計

高並發大流量站點架構簡單思路

壓力 mas pop 流量 track 操作正常其他可能 ******************************* 前端 ******************************* 1.添加必要的硬件和帶寬，同一時候額外儲備一部分，以備不時之需 2.特別

怎麽從優選擇死扛大流量攻擊，大型棋牌遊戲高防服務器

系統出口一定的備案美的工作機房重要維修需要大型棋牌遊戲高防服務器可咨詢QQ：2881375115 需要大型棋牌遊戲高防服務器可咨詢電話：17759186719 大型棋牌遊戲高防服務器大型棋牌遊戲高防服務器

PHP解決網站大數據大流量與高並發

支持們的 emca 網通開啟不用分類跨站連接 1：硬件方面普通的一個p4的服務器每天最多能支持大約10萬左右的IP，如果訪問量超過10W那麽需要專用的服務器才能解決，如果硬件不給力軟件怎麽優化都是於事無補的。主要影響服務器的速度有：網絡-硬盤讀寫速度-內存

CentOS7下Elasticsearch集群部署記錄

基本文件 one option 三臺停止並且是否 ons Elasticsearch是一個分布式搜索服務，提供Restful API，底層基於Lucene，采用多shard的方式保證數據安全，並且提供自動resharding的功能，github等大型的站點也都采

lvs主從服務器轉發風暴（廣播風暴、大流量）

lvs 廣播風暴流量大問題現象：在兩臺服務器上同時部署lvs+keepalived和nginx（反向代理其它服務器上的tomcat）。兩臺服務器內網出現大流量的情況。一、排查結果：在對單臺lvs服務器上的nginx停用的情況下，兩臺服務器外網流量立刻趨於正常，並根據下圖iftop的監控結

高並發和大流量解決方案

nbsp 處理機讀寫分離計時只有一個統計建立最大都是序都是在同一個處理機上運行，但任一個時刻點上只有一個程序在處理機運行。我們所說的高並發時什麽？上面的定義明顯不是我們通常所言的並發，在互聯網時代，所講的並發，高並發，通常是指並發訪問。也就是在某個事件點

如何解決web大流量，高並發問題

數據庫訪問負載均衡總結主機 blog 帶來 log 無法 explain 對於當今大流量的網站，每天幾千萬甚至上億的流量,是如何解決訪問量問題的呢? 以下是一些總結的方法: 第一，確認服務器硬件是否足夠支持當前的流量。普通的P4服務器一般最多能支持每天10萬獨立

CentOS下 elasticsearch集群安裝

pri iou per property stream removing odi cif there 1.進入root目錄並下載elasticsearch cd /root wget https://download.elastic.co/elasticsearch/el

本學期（大三下學期）學習目標

服務器學習java jquer 重點公務員 java工程師對象 jquery servlet 一離畢業越來越近，我了解到現在的市場就業形勢是如果走專業除非精通某語言，否則找工作很困難。其實很遺憾大一大二沒有考慮好自己的方向，所以沒有認真學習專業，現在想認真學習一門

大三下學期第一次

ear pos src 努力任務 image 完成 HR 簡單的第三次沖刺:登陸界面的制作任務進度：登陸界面的初步設計。運行環境：windows10 編譯環境：netbeans 編寫語言：java 界面展示：任務簡介：

SYSAUX表空間占用過大情況下的處理（AWR信息過多）

AWR真題1、 SYSTEM和SYSAUX表空間存儲的內容有哪些區別？若SYSAUX表空間占用過大則應該如何處理？答案：在一般情況下，企業產生的業務數據應該存放在單獨的數據表空間，而不應該使用系統已存在的表空間，尤其不能將業務數據保存到SYSTEM和SYSAUX表空間中，所以，DBA需要著重關註SYSTEM

實戰分享：如何成功防護1.2T國內已知最大流量DDoS攻擊

流量攻擊一個來源設計 CP 反射生命線中國聯通資源作者：騰訊雲宙斯盾安全團隊&騰訊安全平臺部引言： DDoS攻擊勢頭愈演愈烈，除了攻擊手法的多樣化發展之外，最直接的還是攻擊流量的成倍增長。3月份國內的最大規模DDoS攻擊紀錄還停留在數百G規模，4

永恒之塔私服高防服務器高防無死角死扛大流量攻擊

高防服務器萊昂內爾·安德列斯·梅西（西班牙語：Lionel Andrés Messi），1987年6月24日生於阿根廷聖菲省羅薩裏奧，綽號“新馬拉多納”，阿根廷著名足球運動員，司職前鋒、邊鋒和前腰，現效力於西班牙足球甲級聯賽巴塞羅那足球俱樂部。歡迎咨詢本人QQ8803582 Tel： 1990690757

手機上網占多大流量？WiFi要不要進行限速？

無線上網帶寬占用很多企業、公共場所都會給員工或者顧客提供WiFi服務，但是網管人員很快會發現大部分人都會抱怨WiFi速度太慢沒法用，明明是100M的專線，速度卻和撥號速度差不多。這究竟是什麽原因呢？今天我們就從網絡應用的角度來分析下，手機上網究竟需要多大的流量。無線的速度，還取決於無線AP的信號強度、信道幹

Linux下Elasticsearch集群配置

.tar.gz com download down 必須 spa origin 引擎 apache 一、簡介　　ElasticSearch是一個基於Lucene的搜索服務器。它提供了一個分布式多用戶能力的全文搜索引擎，基於RESTful web接口。Elasticsear

大流量下的 ElasticSearch 搜尋演進

一、小流量階段

二、流量慢慢大了

三、突然訂單流量暴增了

相關推薦