Elasticsearch 通關教程(三): 索引別名Aliases問題
業務問題
業務需求是不斷變化迭代的,也許我們之前寫的某個業務邏輯在下個版本就變化了,我們可能需要修改原來的設計,例如資料庫可能需要新增一個欄位或刪減一個欄位,而在搜尋中也會發生這件事,即使你認為現在的索引設計已經很完美了,在生產環境中,還是有可能需要做一些修改的,需要新增對映欄位或者需要修改欄位型別等等。
資料庫中我們可以直接修改原來的表設計語句,前提是需要做好資料遷移。但是在 Elasticsearch 中就沒那麼簡單了。儘管可以增加新的型別到索引中,或者增加新的欄位到型別中,但是不能新增新的分析器或者對現有的欄位做改動。如果你那麼做的話,結果就是那些已經被索引的資料就不正確,搜尋也不能正常工作。針對這個問題必須重新建立索引。
別名定義
重新建立索引的問題是必須更新應用中的索引名稱,索引別名就是用來解決這個問題的!
假設我們有個學生的原始索引 student_index_v1,我們給它起個別名 student_index,程式中也是用別名 student_index 進行搜尋,當我們的業務需求發生改變需要修改索引的時候,我們重新建立個索引 student_index_v2,同時將別名 student_index 指向新的索引 student_index_v2,同時將 student_index_v1 的資料遷移到新的 student_index_v2,這樣我們就可以做到在零停機下從舊索引切換到新索引。
索引別名
別名帶給我們極大的靈活性,允許我們做下面這些:
- 在執行的叢集中可以無縫的從一個索引切換到另一個索引。
- 給多個索引分組。
- 給索引的一個子集建立檢視。
別名管理
別名還可以對映到某個索引也可以對映到多個索引。別名還可以與篩選器關聯,篩選器將在搜尋和路由值時自動應用,別名不能與索引同名。
Elasticsearch 中有兩種方式管理別名: _alias
用於單個操作, _aliases
用於執行多個原子級操作。
單個索引別名
POST /_aliases { "actions" : [ { "add" : { "index" : "test1", "alias" : "alias1" } } ] }
刪除別名
POST /_aliases
{
"actions" : [
{ "remove" : { "index" : "test1", "alias" : "alias1" } }
]
}
重新命名別名
POST /_aliases
{
"actions" : [
{ "remove" : { "index" : "test1", "alias" : "alias1" } },
{ "add" : { "index" : "test2", "alias" : "alias1" } }
]
}
重新命名別名是一個簡單的刪除然後指向新的索引。這個操作是原子性的,因此不需要擔心短時間內的別名不指向一個索引。
將別名與多個索引關聯
POST /_aliases
{
"actions" : [
{ "add" : { "index" : "test1", "alias" : "alias1" } },
{ "add" : { "index" : "test2", "alias" : "alias1" } }
]
}
亦可以通過索引陣列的方式來實現
POST /_aliases
{
"actions" : [
{ "add" : { "indices" : ["test1", "test2"], "alias" : "alias1" } }
]
}
對於上面的示例,還可以使 glob pattern 將別名關聯到擁有公共名稱的多個索引:
POST /_aliases
{
"actions" : [
{ "add" : { "index" : "test*", "alias" : "all_test_indices" } }
]
}
Filtered Aliases
過濾器別名提供了一個簡單的方法對同一個索引來建立不同的“檢視”。過濾器能夠使用Query DSL來定義並且被應用到所有的搜尋,統計,通過查詢刪除和其它類似的行為。
為了建立一個帶過濾器的別名,首先需要確保對映的欄位已經存在於mapping中。
PUT /test1
{
"mappings": {
"_doc": {
"properties": {
"user" : {
"type": "keyword"
}
}
}
}
}
然後我們可以建立一個在user欄位上帶過濾器的別名。
POST /_aliases
{
"actions" : [
{
"add" : {
"index" : "test1",
"alias" : "alias2",
"filter" : { "term" : { "user" : "kimchy" } }
}
}
]
}
成功則返回
{"acknowledged":true}
這樣設定之後,我們通過 test1 這個 index 直接進行搜尋可以看到索引的全部文件,但是通過 alias2 這個別名就只能看到符合過濾器過濾後的結果了,即只有一個 user 為 "kimchy" 的結果。
Routing
可以將路由值與別名關聯。這個特性可以與過濾別名一起使用,以避免不必要的碎片操作。
何為路由?
所有的文件 API( get 、 index 、 delete 、 bulk 、 update 以及 mget )都接受一個叫做 routing 的路由引數 ,通過這個引數我們可以自定義文件到分片的對映。一個自定義的路由引數可以用來確保所有相關的文件---例如所有屬於同一個使用者的文件都被儲存到同一個分片中。
以下命令建立一個指向索引 test 的新別名 alias1。建立 alias1 後,所有具有此別名的操作將自動修改為使用值 1 進行路由:
POST /_aliases
{
"actions" : [
{
"add" : {
"index" : "test",
"alias" : "alias1",
"routing" : "1"
}
}
]
}
還可以為搜尋和索引操作指定不同的路由值
POST /_aliases
{
"actions" : [
{
"add" : {
"index" : "test",
"alias" : "alias2",
"search_routing" : "1,2",
"index_routing" : "2"
}
}
]
}
如上例所示,搜尋路由(search_routing)可能包含幾個用逗號分隔的多個值,但是 索引路由(index_routing)就只能包含一個值。
如果使用路由別名的搜尋操作也有路由引數,則使用搜索別名路由和引數中指定的路由的交集。例如,下面的命令將使用“2”作為路由值。因為搜尋操作中有路由引數2,3,而搜尋路由設定的是1,2,所以取交集即為2。
GET /alias2/_search?q=user:kimchy&routing=2,3
別名示例
仍然以上面學生的例子, student_index 是一個指向當前真實索引的別名。真實索引包含一個版本號: student_index_v1 , student_index_v2 等等。
首先,建立索引 student_index_v1 ,然後將別名 student_index 指向它:
PUT /student_index_v1 // 建立索引 student_index_v1 。
PUT /student_index_v1/_alias/student_index //設定別名 student_index 指向 student_index_v1 。
你可以檢測這個別名指向哪一個索引:
GET /*/_alias/student_index
或哪些別名指向這個索引:
GET /student_index_v1/_alias/*
兩者都會返回下面的結果:
{
"student_index_v1" : {
"aliases" : {
"student_index" : { }
}
}
}
然後,我們決定修改索引中一個欄位的對映。當然,我們不能修改現存的對映,所以我們必須重新索引資料。 首先, 我們用新對映建立索引 student_index_v2 :
PUT /student_index_v2
{
"mappings": {
"my_type": {
"properties": {
"tags": {
"type": "string",
"index": "not_analyzed"
}
}
}
}
}
然後我們將資料從 student_index_v1 索引到 student_index_v2 ,下面的過程在重新索引你的資料 中已經描述過。一旦我們確定文件已經被正確地重索引了,我們就將別名指向新的索引。
一個別名可以指向多個索引,所以我們在新增別名到新索引的同時必須從舊的索引中刪除它。這個操作需要原子化,這意味著我們需要使用 _aliases 操作:
POST /_aliases
{
"actions": [
{ "remove": { "index": "student_index_v1", "alias": "student_index" }},
{ "add": { "index": "student_index_v2", "alias": "student_index" }}
]
}
經過以上幾步操作,你的應用就成功在零停機的情況下從舊索引遷移到新索引了。其實別名還有更多管理的語法。
文件遷移
對於新舊索引的文件資料遷移,欄位 _source 的一個優點是在Elasticsearch中已經有整個文件。你不必從源資料中重建索引,而且那樣通常比較慢。
為了有效的重新索引所有在舊的索引中的文件,用 scroll 從舊的索引檢索批量文件 , 然後用 bulk API 把文件推送到新的索引中。
對現有資料的這類改變最簡單的辦法就是重新索引:用新的setting建立新的索引並把文件從舊的索引複製到新的索引。
總結
在你的應用中最好的方式是使用別名而不是索引名。這樣你就可以在任何時候重建索引。別名的開銷很小,應該廣泛使用。本文主要整理自官方文件。