ElasticSearch倒排索引原理揭祕——基於mapreduce實現自己的倒排索引

阿新 • • 發佈：2019-05-30

Elasticsearch簡單介紹

Elasticsearch (ES)是一個基於Lucene構建的開源、分散式、RESTful 介面全文搜尋引擎。Elasticsearch 還是一個分散式文件資料庫，其中每個欄位均是被索引的資料且可被搜尋，它能夠擴充套件至數以百計的伺服器儲存以及處理PB級的資料。它可以在很短的時間內在儲、搜尋和分析大量的資料。它通常作為具有複雜搜尋場景情況下的核心發動機。
Elasticsearch就是為高可用和可擴充套件而生的。可以通過購置效能更強的伺服器來完成

Elasticsearch優勢

1.橫向可擴充套件性:只需要增加臺伺服器，做一點兒配置，啟動一下Elasticsearch就可以併入叢集。

2.分片機制提供更好的分佈性:同一個索引分成多個分片(sharding), 這點類似於HDFS的塊機制;分而治之的方式可提升處理效率。

3.高可用:提供複製( replica) 機制，一個分片可以設定多個複製，使得某臺伺服器在宕機的情況下，叢集仍舊可以照常執行，並會把伺服器宕機丟失的資料資訊複製恢復到其他可用節點上。
4.使用簡單:共需一條命令就可以下載檔案，然後很快就能搭建一一個站內搜尋引擎。

Elasticsearch應用場景

大型分散式日誌分析系統ELK  elasticsearch（儲存日誌）+logstash(收集日誌)+kibana(展示資料)

大型電商商品搜尋系統、網盤搜尋引擎等。

什麼是倒排索引

倒排表以字或詞為關鍵字進行索引，表中關鍵字所對應的記錄表項記錄了出現這個字或詞的所有文件，一個表項就是一個字表段，它記錄該文件的ID和字元在該文件中出現的位置情況。
由於每個字或詞對應的文件數量在動態變化，所以倒排表的建立和維護都較為複雜，但是在查詢的時候由於可以一次得到查詢關鍵字所對應的所有文件，所以效率高於正排表。在全文檢索中，檢索的快速響應是一個最為關鍵的效能，而索引建立由於在後臺進行，儘管效率相對低一些，但不會影響整個搜尋引擎的效率。

倒排索引案例分析

文件內容:

序號

文件內容

1

小俊是一家科技公司創始人，開的汽車是奧迪a8l，加速爽。

2

小薇是一家科技公司的前臺，開的汽車是保時捷911

3

小紅買了小薇的保時捷911，加速爽。

4

小明是一家科技公司開發主管，開的汽車是奧迪a6l,加速爽。

5

小軍是一家科技公司開發，開的汽車是比亞迪速銳，加速有點慢

倒排索引會對以上文件內容進行關鍵詞分詞，可以使用關鍵次直接定位到文件內容。

單詞ID

單詞

倒排列表docId

1

小

1,2,3,4,5

2

一家

1,2,4,5

3

科技公司

1,2,4,5

4

開發

4,5

5

汽車

1,2,4,5

6

奧迪

1,4

7

加速爽

1,3,4

8

保時捷

2,3

9

保時捷911

2

10

比亞迪

5

基於mapreduce純手寫打造自己的倒排索引

需求：有大量的文字文件，如下所示：
a.txt
hello tom
hello jim
hello kitty
hello rose

b.txt
hello jerry
hello jim
hello kitty
hello jack

c.txt
hello jerry
hello java
hello c++
hello c++

需要得到以下結果：
hello  a.txt-->4  b.txt-->4  c.txt-->4
java   c.txt-->1
jerry  b.txt-->1  c.txt-->1
....

思路：

1、先寫一個mr程式：統計出每個單詞在每個檔案中的總次數

hello-a.txt 4

hello-b.txt 4

hello-c.txt 4

java-c.txt 1

jerry-b.txt 1

jerry-c.txt 1

要點1：map方法中，如何獲取所處理的這一行資料所在的檔名？

worker在呼叫map方法時，會傳入一個context，而context中包含了這個worker所讀取的資料切片資訊。而切片資訊又包含這個切片所在的檔案資訊，那麼就可以在map中：

FileSplit split=context.getInputSplit();

String fileName=split.getPath().getName();

要點二：setup方法

worker在正式處理資料之前，會先呼叫一次setup方法，所以，常利用這個機制來做一些初始化操作

2、然後在寫一個mr程式，讀取上述結果資料：

map：根據-切，以單詞做key，後面一段作為value

reduce：拼接values裡面的每一段，以單詞做key，拼接結果做value，輸出即可

程式碼實現

public class IndexStepOne {
    public static class IndexStepOneMapper extends Mapper<LongWritable,Text,Text,IntWritable>{
        /**
         * 產生: <單詞-檔名，1><單詞-檔名，1>
         */
        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            /**
             * 如果map task讀的是檔案：劃分範圍是：《檔案路徑，偏移量範圍》
             * 如果map task讀的是資料庫的資料，劃分的任務範圍是：《庫名.表名，行範圍》
             * 所以給抽象的getInputSplit
             */
            //每個map task所處理的資料任務範圍
            FileSplit inputSplit = (FileSplit) context.getInputSplit();
            String fileName = inputSplit.getPath().getName();
            String[] words = value.toString().split(" ");
            for(String w:words){
                //單詞-檔名 1
                context.write(new Text(w+"-"+fileName),new IntWritable(1));
            }
        }
    }
    public static class IndexStepOneReduce extends Reducer<Text,IntWritable,Text,IntWritable>{

        @Override
        protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            int count=0;
            for(IntWritable value:values){
                count+=value.get();
            }
            context.write(key,new IntWritable(count));
        }
    }
    public static void main(String[] args) throws Exception{
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);
        //動態獲取jar包在哪裡
        job.setJarByClass(IndexStepOne.class);
        //2.封裝引數：本次job所要呼叫的mapper實現類
        job.setMapperClass(IndexStepOneMapper.class);
        job.setReducerClass(IndexStepOneReduce.class);
        //3.封裝引數：本次job的Mapper實現類產生的資料key,value的型別
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        //4.封裝引數：本次Reduce返回的key,value資料型別
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        //6.封裝引數：想要啟動的reduce task的數量
        job.setNumReduceTasks(3);
        FileInputFormat.setInputPaths(job,new Path("F:\\mrdata\\index\\input"));
        FileOutputFormat.setOutputPath(job,new Path("F:\\mrdata\\index\\out1"));
        boolean res = job.waitForCompletion(true);
        System.exit(res ? 0:-1);
    }
}

執行輸出

part-r-000000 part-r-000001 part-r-0000002

hello-c.txt	4
jack-b.txt	1
java-c.txt	1
jerry-b.txt	1
kitty-a.txt	1
rose-a.txt	1

c++-c.txt	2
hello-a.txt	4
jerry-c.txt	1
jim-a.txt	1
kitty-b.txt	1
tom-a.txt	1

hello-b.txt	4
jim-b.txt	1

public class IndexStepOne2 {
    public static class IndexStepOneMapper extends Mapper<LongWritable,Text,Text,Text>{

        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            String[] split = value.toString().split("-");
            context.write(new Text(split[0]),
                    new Text(split[1].
                            replaceAll("\t","-->")));
        }
    }
    public static class IndexStepOneReduce extends Reducer<Text,Text,Text,Text>{
       //reduce階段對相同的key進行處理，相同key發給同一個reduce task處理
        @Override
        protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
            //StringBuffer是執行緒安全的，StringBuild是執行緒不安全的
            //這裡沒有多執行緒併發，用StringBuild更快
            StringBuilder sb = new StringBuilder();
            /**
             * <hello a.txt-->4> <hello b.txt-->4> <hello c.txt-->4>
             *  <java c.txt-->1>
             *  <jetty b.txt-->1><jetty c.tex-->1>
             */
            /**
             * hello  a.txt-->4  b.txt-->4  c.txt-->4
             * java   c.txt-->1
             * jerry  b.txt-->1  c.txt-->1
             */
            for(Text value:values){
                sb.append(value.toString()).append("\t");
            }
            context.write(key,new Text(sb.toString()));
        }
    }

    public static void main(String[] args) throws Exception{
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);
        //動態獲取jar包在哪裡
        job.setJarByClass(IndexStepOne2.class);
        //2.封裝引數：本次job所要呼叫的mapper實現類
        job.setMapperClass(IndexStepOneMapper.class);
        job.setReducerClass(IndexStepOneReduce.class);
        //3.封裝引數：本次job的Mapper實現類產生的資料key,value的型別
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);
        //4.封裝引數：本次Reduce返回的key,value資料型別
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);

        //6.封裝引數：想要啟動的reduce task的數量
        job.setNumReduceTasks(1);
        FileInputFormat.setInputPaths(job,new Path("F:\\mrdata\\index\\out1"));
        FileOutputFormat.setOutputPath(job,new Path("F:\\mrdata\\index\\out2"));
        boolean res = job.waitForCompletion(true);
        System.exit(res ? 0:-1);
    }
}

執行輸出

c++	c.txt-->2	
hello	a.txt-->4	b.txt-->4	c.txt-->4	
jack	b.txt-->1	
java	c.txt-->1	
jerry	b.txt-->1	c.txt-->1	
jim	a.txt-->1	b.txt-->1	
kitty	b.txt-->1	a.txt-->1	
rose	a.txt-->1	
tom	a.txt-->1

版權@須臾之餘https://my.oschina.net/u/399512

ElasticSearch倒排索引原理揭祕——基於mapreduce實現自己的倒排索引

Elasticsearch簡單介紹 Elasticsearch (ES)是一個基於Lucene構建的開源、分散式、REST

基於mapreduce實現圖的三角形計數

direct () add array 線程 src 運行時 void 部分源代碼放在我的github上，想細致了解的可以訪問：TriangleCount on github 一、實驗要求 1.1 實驗背景 ????????圖的三角形計數問題是一個基本的圖計算問題,是很多

自學大資料：基於Solr實現HBase的文字索引

前言最近接觸的專案中，需要針對HBase的資料進行索引查詢，主要支援中文查詢，分頁查詢等。在此情況下，學習了搜尋伺服器solr。總結了一些方法和經驗，正好可以分享個大家，鼓勵自己，共同學習。使用目的 HBase目前只支援對rowkey的一級索引，對於二級索引還不支援，

OsharpNS輕量級.net core快速開發框架簡明入門教程-基於Osharp實現自己的業務功能

bapi creat 建議存儲對象 required arc space 學習 category OsharpNS輕量級.net core快速開發框架簡明入門教程教程目錄從零開始啟動Osharp 1.1. 使用OsharpNS項目模板創建項目 1.2. 配置數據庫連

ElasticSearch最佳入門實踐（三十九）倒排索引核心原理揭祕

1、例子，兩段文字 doc1：I really liked my small dogs, and I think my mom also liked them doc2：He never liked any dogs, so I hope that my m

elasticsearch-倒排索引原理

Elasticsearch系列---倒排索引原理與分詞器

概要本篇主要講解倒排索引的基本原理以及ES常用的幾種分詞器介紹。倒排索引的建立過程倒排索引是搜尋引擎中常見的索引方法，用來儲存在全文搜尋下某個單詞在一個文件中儲存位置的對映。通過倒排索引，我們輸入一個關鍵詞，可以非常快地獲取包含這個關鍵詞的文件列表。我們先看英文的，假設我們有兩個文件： I have

大數據MapReduce入門之倒排索引

tsp 功能 nbsp bstr 生成 path 需要 turn 們的　　在上一篇博客中我們講解了MapReduce的原理以及map和reduce的作用，相信你理解了他們的原理，今天講解的是mapreduce 的另一個就是倒排索引。什麽是倒排索引呢？倒排索

倒排索引原理和實現

轉載https://blog.csdn.net/u011239443/article/details/60604017 倒排索引原理和實現關於倒排索引場景是：給定幾個關鍵詞，找出包含關鍵詞的文件倒排索引：不是由記錄來確定屬性值，而是由屬性值來確定記錄的位置

MapReduce實現倒排索引

倒排索引這個名字讓人很容易誤解成A-Z，倒排成Z-A；但實際上缺不是這樣的。一般我們是根據問檔案來確定檔案內容，而倒排索引是指通過檔案內容來得到文件的資訊，也就是根據一些單詞判斷他在哪個檔案中。知道了這一點下面就好做了：準備一些元資料下面我們要進行兩次MapR

Lucene倒排索引原理(轉)

Lucene是一個高效能的java全文檢索工具包，它使用的是倒排檔案索引結構。該結構及相應的生成演算法如下：0）設有兩篇文章1和2文章1的內容為：Tom lives in Guangzhou,I live in Guangzhou too.文章2的內容為：He once li

一些演算法的MapReduce實現——倒排索引實現

/** * input format * docid<tab>doc content * * output format * (term:docid)<tab>(tf in this doc) * */ public s

mapreduce演算法之倒排索引

package mapreduce; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.

MapReduce 案例之倒排索引

MapReduce 案例之倒排索引 1. 倒排索引倒排索引是文件檢索系統中最常用的資料結構，被廣泛地應用於全文搜尋引擎。它主要是用來儲存某個單詞（或片語）在一個文件或一組文件中的儲存位置的對映，即提供了一種根據內容來查詢文件的方式。由於不是根據文件來確定文件所包含的內容，而是進行相反的操作，因

Lucene 4.X 倒排索引原理與實現: (1) 詞典的設計

詞典的格式設計詞典中所儲存的資訊主要是三部分： Term字串 Term的統計資訊，比如文件頻率(Document Frequency) 倒排表的位置資訊其中Term字串如何儲存是一個很大的問題，根據上一章基本原理的表述中，我們知道，寫入檔案的Term是按照字典順序排好序的，那麼如何將這些

Lucene倒排索引原理與實現:Term Dictionary和Index檔案 (FST詳細解析)

我們來看最複雜的部分，就是Term Dictionary和Term Index檔案，Term Dictionary檔案的字尾名為tim，Term Index檔案的字尾名是tip，格式如圖所示。 Term Dictionary檔案首先是一個Header，接下來是Pos

MapReduce程式設計之倒排索引

任務要求： //輸入檔案格式 18661629496 110 13107702446 110 1234567 120 2345678 120 987654 110 2897839274 18661629496 //輸出檔

【漫畫】ES原理必知必會的倒排索引和分詞

![es1](https://yqfile.alicdn.com/cf7303615996607dad8068cfc67065cfb1d7ed3d.jpeg) # 倒排索引的初衷 ![es2_1](https://yqfile.alicdn.com/1c23ad58c7183fce376abf40042

我愛分享----百萬商業圈C語言實現的倒排索引算法(含全部源碼)

db4 cover cst via com deb nio main 20M PAT-1134VertexCover（圖的建立+set容器）刷題——POJ2395OutofHay QGC之QGCView.qml HDU-2049不容易系列之四（考新郎） 2e5訟矣屎htt

Hadoop偽分佈安裝詳解+MapReduce執行原理+基於MapReduce的KNN演算法實現

本篇部落格將圍繞Hadoop偽分佈安裝+MapReduce執行原理+基於MapReduce的KNN演算法實現這三個方面進行敘述。（一）Hadoop偽分佈安裝 1、簡述Hadoop的安裝模式中–偽分佈模式與叢集模式的區別與聯絡. Hadoop的安裝方式有三種:本地模式,偽分佈模式

序號	文件內容
1	小俊是一家科技公司創始人，開的汽車是奧迪a8l，加速爽。
2	小薇是一家科技公司的前臺，開的汽車是保時捷911
3	小紅買了小薇的保時捷911，加速爽。
4	小明是一家科技公司開發主管，開的汽車是奧迪a6l,加速爽。
5	小軍是一家科技公司開發，開的汽車是比亞迪速銳，加速有點慢

單詞ID	單詞	倒排列表docId
1	小	1,2,3,4,5
2	一家	1,2,4,5
3	科技公司	1,2,4,5
4	開發	4,5
5	汽車	1,2,4,5
6	奧迪	1,4
7	加速爽	1,3,4
8	保時捷	2,3
9	保時捷911	2
10	比亞迪	5

ElasticSearch倒排索引原理揭祕——基於mapreduce實現自己的倒排索引

Elasticsearch簡單介紹

Elasticsearch優勢

Elasticsearch應用場景

什麼是倒排索引

倒排索引案例分析

基於mapreduce純手寫打造自己的倒排索引

版權@須臾之餘https://my.oschina.net/u/399512

相關推薦