倒排索引、正排索引系列一

阿新 • • 發佈：2018-12-22

1. 搜尋引擎簡介

搜尋引擎顧名思義就是：從千萬設定億、兆級別的資料中查詢出自己想要的資訊，比如：谷歌和百度

索引引擎最重要的是建立倒排索引和正排索引【不是必須的】

2. 倒排索引簡介

倒排索引的名詞解釋

單詞【key】：搜尋框中輸入的關鍵詞
文件【doc】：搜尋結果的基本資訊，比如百度這樣的搜尋引擎，doc是一個一個帶有特定資訊【關鍵詞，出現的次數，出現的位置.....】的網頁;

如果是淘寶的搜尋引擎，doc 就是一個一個包含特定資訊【寶貝的id、寶貝的類目.......】的寶貝；當然key和doc 要有一定的相關性，這個是演算法來計算的

倒排索引項：每個doc 包含一些特定資訊，就叫倒排索引項

詞典項：把我們搜尋的單詞叫詞典項
倒排索引表：肯定會有多個doc 包括一個單詞，這樣一個詞典項+ 包括這個詞典項的所有doc 構成倒排列表
倒排索引：數億萬級的倒排索引表構成倒排索引
一般為了減少索引的數量和搜尋的時間，在一個搜尋引擎中往往按照不同的緯度分成多份倒排索引

下面是倒排索引的機構圖：

繫結關係：建立索引之前，手續要把使用者常用的關鍵詞統計出來，並按照這些詞典項進行建立索引；如果是搜尋廣告要賣關鍵詞，需要讓廣告主對關鍵詞和doc 【網頁、或者電商的寶貝】進行繫結，【當然這個繫結要有原則，需要演算法計算相關性進行審批】繫結關係可以單獨建立一個索引。

query result：使用者輸入的關鍵詞中有很多是錯誤的或者在現有索引裡面沒有的，這是要把使用者查詢的關鍵詞改成使用者可能感興趣的關鍵詞比如使用者輸入 iphon --> iphone 。

3. 正排索引簡介

正排索引因為查詢效率是O(n)，所以用的不是很多；更多的時候是用於倒排索引的輔助作用；

正排索引用的場景：每個doc 裡面的關鍵字基本是唯一的就是，如果建立倒排索引基本也是1個關鍵詞對應一個doc；直接建立正排就可以了；正排索引建立起來簡單。

4. 正排索引、倒排索引在搜尋引擎的作用

倒排所有主要的作用就是召回，正排索引的作用主要是排序(計算分數),獲取dataid對應的detail資訊
對一個大型搜尋引擎，召回只是最基本、最簡單的功能，所以倒排index 只佔整個搜尋index的20%--30%；相反正排索引真正佔70--80%(其中排序的正排又佔大頭)
對於taobao 的搜尋來說：key 對應的doc集合就是所有title裡面包括了搜尋key(分過詞、糾過錯的)的所有寶貝的集合

正排索引主要是用來進行排序的

5. 搜尋演算法的架構理解

首先你要獲取搜尋的資料來源: (百度是爬蟲，淘寶是db，微信應該是db或者hbase/hdfs)
對資料進行打標: 又可以稱之為商品庫［任何個商品(資料) 的屬性，品牌，假貨，各種tag 標誌好］
搜尋演算法進行排序: 採取演算法模型: Score = L1R1 + L2R2 + .... + LkRk;最後對商品的分數進行排序
如果所說對搜尋關鍵詞的理解：在搜尋框輸入一個關鍵詞：要對關鍵詞進行糾錯改寫分詞各種預測最後把資料發給引擎

倒排索引、正排索引系列一

1. 搜尋引擎簡介搜尋引擎顧名思義就是：從千萬設定億、兆級別的資料中查詢出自己想要的資訊，比如：谷歌和百度索引引擎最重要的是建立倒排索引和正排索引【不是必須的】 2. 倒排索引簡介倒排索引的名詞解釋單詞【key】：搜尋框中輸入的關鍵詞文件【doc】：搜尋結果的基本

數據庫存儲結構：頁、聚集索引、非聚集索引

創建方法 6.2 insert語句方式放置變化分支通過數據庫存儲結構：頁、聚集索引、非聚集索引想了解數據庫存儲結構，因先了解數據庫的訪問方式然後從原理上理解數據庫存儲結構方式。一、SQL Server中訪問數據的方式從廣義上講，SQL Server檢索所

學習筆記（九）——數據庫存儲結構：頁、聚集索引、非聚集索引

分享 style end 宋體 blog lec storage rop cas 1、頁 SQL Server用8KB 的頁來存儲數據，並且在SQL Server裏磁盤 I/O 操作在頁級執行。也就是說，SQL Server 讀取或寫入所有數據頁。頁有不同的類型，像

03 -3 pandas 層次化索引（隱式構造，顯示構造）、多層列索引、多層索引物件的索引與切片操作（Series的操作，DataFrame的操作）

pandas層次化索引多級索引包括: 多級行索引和多級列索引 1. 建立多層行索引 1) 隱式構造最常見的方法是給DataFrame建構函式的index引數傳遞兩個或更多的陣列 Series也可以建立多層索引 import numpy as np

mysql 索引優化的要點（系列一）

背景：sql 優化對資料來說是什麼非常重要，sql的索引優化更重中之重，有的人認為索引優化就是簡單加一個索引，其實這種想法是錯的，索引是涉及到很多知識點，並非大家想得這麼簡單，廢話不多說，馬上開車！一，頭盤： SQL語句的五大要素：1，獲得結果集所需訪問的查詢條件2，定義結果集所需的查詢條件3，結果集的

資料庫中的聚集索引、非聚集索引、優化索引

原文: 資料庫中的聚集索引、非聚集索引、優化索引這篇文章我們來討論一下索引的問題吧，這篇文章不會介紹怎麼建立索引，但是會介紹怎麼優化索引。什麼是索引？索引是對記錄按照多個欄位進行排序的一種方式。對錶中的某個欄位建立索引會建立另一種資料結構，其中儲存著欄位的值，每個值又指向與它相關的

數據庫中的聚集索引、非聚集索引、優化索引

而不是能夠方法 tro .html hash 項目 () 討論原文:數據庫中的聚集索引、非聚集索引、優化索引這篇文章我們來討論一下索引的問題吧，這篇文章不會介紹怎麽創建索引，但是會介紹怎麽優化索引。什麽是索引？索引是對記錄按照多個字段進行排序的一種方式。

MySQL索引分為普通索引、唯一性索引、全文索引、單列索引、多列索引

一、 MySQL: 索引以B樹格式儲存　　Memory儲存引擎可以選擇Hash或BTree索引，Hash索引只能用於=或<=>的等式比較。　　1、普通索引：create index 索引名 Tablename(列的列表) 　　alter table

聚集索引、非聚集索引之概念篇

聚集索引聚集索引是一種特殊索引，使資料按照索引的排序順序存放表中。實際上重組了表中的標準。當資料按值的範圍查詢時，聚集索引就顯得特別有用。當大量資料修改的時候，不再適合使用聚集索引。 1、建立聚集索引的思想大多數表都應該有聚集索引或使用分割槽來降低對錶尾頁的競爭，在一

《Java虛擬機器原理圖解》1.3、class檔案中的訪問標誌、類索引、父類索引、介面索引集合

講完了class檔案中的常量池，我們就相當於克服了class檔案中最麻煩的模組了。現在，我們來看一下class檔案中緊接著常量池後面的幾個東西：訪問標誌、類索引、父類索引、介面索引集合訪問標誌、類索引、父類索引、介面索引集合在class檔案中的位置

B樹索引、點陣圖索引、雜湊索引

create table btree_test(id number,code varchar2(10));create index idx_btree_test_id on btree_test(id,code);select object_id from user_objects where object_

2019周筆記（2.14-2.17）（聚集索引、非聚集索引）

重建主線程結構自增id 字段 vat percent [] drop 這一周的背景是公司傳感數據即將大增，突然意識到需要對所有的數據庫表進行索引優化，以及查詢語句優化。這一篇博文主要是實現對聚集索引、非聚集索引的一些淺層原理的理解。 1、看懂Set Statistic

C# 模仿QQ、MSN訊息提示系列一、基本原理

QQ、msn訊息提示原理 1、提示框是什麼？提示框就是一個Form視窗 2、提示視窗的顯示狀態是怎樣的？提示視窗在一定時間內從螢幕右下角最下面的位置開始慢慢從下到上移動到整個form框全部顯示然後等待數秒鐘然後在一定時間內從上至下緩緩移出 3、製作這個效果需要用到哪些知識？因為提示視窗是從螢幕右下角

搜尋引擎原理 – 正排索引、倒排索引以及齊普夫法則

我們在提交一個關鍵字時，搜尋引擎是如何快速定位到包含有此關鍵字的相關頁面的？這就是索引系統的功勞，索引系統負責為關鍵字和網頁建立對應關係，使得在海量網頁中迅速查詢成為可能。索引首先我們先介紹下索引（Index）。索引本質上是一種記錄資訊的資訊，它本身佔較小的體積

搜尋引擎之正排與倒排索引

正排索引（正向索引）正排表是以文件的ID為關鍵字，表中記錄文件中每個字的位置資訊，查詢時掃描表中每個文件中字的資訊直到找出所有包含查詢關鍵字的文件。正排表結構如圖1所示，這種組織方法在建立索引的時候結構比較簡單，建立比較方便且易於維護;因為索引是基於文件建立的，若是有新的文件加入，直接為

lucene 倒排索引、反向索引概念明晰

lucene中，一直在糾結什麼叫倒排索引，為什麼叫倒排索引，找了n個部落格沒有對該名詞很透徹的解析，重於在知乎上中找到需要的答案： ----------------------------------------------------------------------

正排索引(forward index)與倒排索引(inverted index)

一、正排索引（前向索引）正排索引也稱為"前向索引"。它是建立倒排索引的基礎，具有以下欄位。（1）LocalId欄位（表中簡稱"Lid"）：表示一個文件的區域性編號。（2）WordId欄位：表示文件分詞後的編號，也可稱為"索引詞編號"。（3）NHits欄位：

Lucene 初學者實戰（二）正排索引與倒排索引

Lucene：基於傳統全文檢索引擎的倒排索引，並實現了分塊索引。與倒排所引相對立的是正排索引，也成為正向所引。本文將簡單介紹。 1 正排索引（forward index）由key查詢實體的過程，是正排索引. 在搜尋引擎中每個檔案都對應一個檔案ID，檔案內容被表示為一

Hadoop鏈式MapReduce、多維排序、倒排索引、自連線演算法、二次排序、Join效能優化、處理員工資訊Join實戰、URL流量分析、TopN及其排序、求平均值和最大最小值、資料清洗ETL、分析氣

Hadoop Mapreduce 演算法彙總第52課：Hadoop鏈式MapReduce程式設計實戰...1 第51課：Hadoop MapReduce多維排序解析與實戰...2 第50課：HadoopMapReduce倒排索引解析與實戰...3 第49課：Hado

大資料_Shuffle、MapReduce程式設計案例(資料去重、多表查詢、倒排索引、使用單元測試)

一、什麼是Shuffle（洗牌） ----> MapReduce核心 1、序列化 2、排序 3、分割槽 4、合併二、MapReduce程式設計案例 ------> 掌握方法：如何開發一個程式 1、資料

倒排索引、正排索引系列一

1. 搜尋引擎簡介

2. 倒排索引簡介

倒排索引的名詞解釋

3. 正排索引簡介

4. 正排索引、倒排索引在搜尋引擎的作用

5. 搜尋演算法的架構理解

相關推薦