elasticsearch關於explain引數解釋：docFreq docCount

阿新 • • 發佈：2020-08-11

背景介紹

排查問題時需要分析問題成因，設定explain為true，開啟分數列印後，公式雖然大差不離的看得懂，但是卻忘了幾個引數什麼意思，在這裡記錄一下。

樣例分析

首先任意選取一次explain的結果

圖中很明顯是在做tf和idf的計算，幾個比較迷惑人的地方

542是什麼意思

weight(topic_name:周杰倫 in 542) [PerFieldSimilarity], result of:

這裡面的542一開始我誤以為是docCount，後來發現不是…542是lucene文件內部的id，和外部的_id不同，不參與計算，無需理會。

docFreq是什麼
docFreq是指符合搜尋條件的doc數目有多少，圖中為5，我們可以理解為，符合topic_name:周杰倫這個召回條件的docCount在這個分片下有5篇。注意！！！是在這條資料對應的分片下！！！
docCount是什麼
docCount是指資料對應的分片下的文件總數，日常召回時會發現不同文件的docCount不一樣，而理論上應該是一樣的。原因就是來自於叢集的不同分片。同理，如果你專門去找2條來自於同一分片的資料驗證對比，可以發現docCount是相同的。
termFreq是什麼
搜尋詞在該欄位中出現的次數。這裡注意不是簡單理解上的搜尋次數，需要看欄位的型別，如果是不分詞欄位，則必須要完全匹配才會有一次。

關於分片的原理參考Elasticsearch引數search_type與分散式原理
這篇部落格的這一段說法，說得很好，很容易理解

從定義可知，idf僅僅與搜尋關鍵詞有關，與文件無關。所以同一輸入來說，所有的文件應該是共享同一idf的。但事實上並非如此。原因就在elasticsearch的分散式機制。elasticsearch的索引（index）會被分片（shard），而每一個分片相當於一個獨立的搜尋引擎。每一次搜尋任務會被分配到不同的shard去執行，然後將各個shard的結果彙總起來得到最終我們看到的結果。而評分的過程會在shard完成，因此不同分片下，會得到不同的idf。這裡需要有個前提假設是文件數量足夠多的時候各個分片的詞頻會趨近，因此idf的差異也就不大。但是如果文件數量不夠多的時候啟用分片，可能詞頻在不同分片會有較大的差異，我遇到的情況就是這樣的

結論

在排查相關性分數相關問題時首先開啟explain檢視具體計算方式，而這些計算分數的因子可能受分片數量影響，需要注意

作者：十五倍壓槍
連結：https://www.jianshu.com/p/ffecea5c7360
來源：簡書
著作權歸作者所有。商業轉載請聯絡作者獲得授權，非商業轉載請註明出處。

elasticsearch關於explain引數解釋：docFreq docCount

背景介紹排查問題時需要分析問題成因，設定explain為true，開啟分數列印後，公式雖然大差不離的看得懂，但是卻忘了幾個引數什麼意思，在這裡記錄一下。

HikariCP連線池引數解釋

HikariCP連線池引數解釋 ## 資料庫配置 spring.datasource.type=com.zaxxer.hikari.HikariDataSource

英特爾 11 代標壓酷睿更多引數曝光：最高 8 核，核顯支援 8K 60 HDR

10 月 4 日訊息根據外媒 NoteBookcheck 的獨家爆料，英特爾 11 代標壓酷睿 Tiger-H 系列處理器的更多細節浮出水面。

聯想小新 Air14 2021 全版本引數曝光：標配 11 代酷睿+MX450 獨顯

10月7日訊息據網友投遞，聯想官方在支援文件中列入了下一代小新 Air14 2021 和小新 Air15 2021 的引數文獻。

.net 呼叫rfc引數_RFC：.NET Core和ASP.NET 5的伺服器端影象和圖形處理

.net 呼叫rfc引數 The .NET Core and the Core Libraries are open source and run on Windows, Mac, and Linux. In fact, you can run them with support, today, in production on Windows and Li

Linux 黑話解釋：什麼是包管理器？它是如何工作的？ | Linux 中國

導讀：Linux 發行版之間有什麼不同的要點之一是包管理。　　　　　　　　　　　　　　　　

聯想 YOGA 27 一體機完整引數公佈：R7 4800H +RTX 2060，27英寸 4K 屏

10 月 17 日訊息聯想將於 10 月 20 日舉行秋季新品釋出會，除了筆記本之外還將推出 YOGA 27 一體機，現在聯想官方已經公佈了這款產品的完整引數。

引數解析：getopt

getopt可以獲取短引數(-a -b -c)，其包含在unistd.h中。函式： int getopt (int argc, char *const *argv, const char *options)

7. 引數匹配：eq、isA、any

技術標籤：gojunitpythonbuffer生成器 package lesson7; import org.junit.Assert; import org.junit.Test;

rocketMq broker.conf全部引數解釋

#4.7.1版本 #所屬叢集名字brokerClusterName=rocketmq-cluster#broker名字，名字可重複,為了管理,每個master起一個名字,他的slave同他,eg:Amaster叫broker-a,他的slave也叫broker-abrokerName=broker-a#0 表示 Maste

機器學習筆記之Matplotlib庫legend scatter plot figure subplot函式引數解釋

0x01 plt.lengend() 用於給影象加圖例。 # 圖例是集中於地圖一角或一側的地圖上各種符號和顏色所代表內容與指標的說明，有助於更好的認識地圖。

greenplum命令引數解釋

技術標籤：greenplum 1.Gpstart #正常啟動 2.Gpstop #正常關閉 3.Gpstop -M fast #快速關閉 4.Gpstop -r #重啟 5.Gpstop -u #重新載入配置檔案 6.查詢segment的配置 gpadmin=# select * from gp_segment_configu