小實踐（5）倒排索引

阿新 • • 發佈：2018-12-22

背景

搜尋引擎通常都會建立關鍵字的倒排索引，由關鍵字為index，後面跟著包含該關鍵字的網頁，本次使用模擬資料，簡要嘗試一下，建立倒排索引的過程。

資料：

第一個元素為書名字，後面以空格分割，為書的關鍵字。

spark版本：

<dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.1.0</version>
        </dependency>

正文

中間遇到一個問題，就是textfile讀出的資料，沒有reduceByKey方法，查看了一下，是因為textfile讀出的資料是dataset不是rdd。所以下面的程式碼中轉了一下rdd

object InvertedIndex {

  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().master("master")
      .appName("Inverted index").getOrCreate()
    import spark.implicits._

    val bookwordRdd = spark.read.textFile("dir").rdd
      .flatMap{
        line=>
          val array = line.split(" ",2)
          val bookName = array(0)
          array(1).split(" ").map(word=>(bookName,word))
      }
    val finalRDD = bookwordRdd.map(kv=>(kv._2,kv._1)).reduceByKey(_+" "+_).collect()

  }
}

執行結果：

finalRDD: Array[(String, String)] = Array((spark,Spark大資料分析實戰), (日誌分析,Spark大資料分析實戰 hadoop實戰), (mapreduce,hadoop實戰大資料實戰), (hdfs,hadoop實戰大資料實戰), (大資料,Spark大資料分析實戰 hadoop實戰), (namenode,hadoop實戰大資料實戰), (推薦系統,Spark大資料分析實戰大資料實戰))

其他

給出其他書本中的一份程式碼：

小實踐（5）倒排索引

背景搜尋引擎通常都會建立關鍵字的倒排索引，由關鍵字為index，後面跟著包含該關鍵字的網頁，本次使用模擬資料，簡要嘗試一下，建立倒排索引的過程。資料：第一個元素為書名字，後面以空格分割，為書的關鍵字。spark版本：<dependency>

MapReduce框架學習（4）——倒排索引程式實戰

參考： JeffreyZhou的部落格園《Hadoop權威指南》第四版 0 倒排索引（Inverted Index）前面我們執行過WordCount例子，得到的單詞計數結果，如果輸入3篇文件，得到

MapReduce入門（三）倒排索引

什麼是倒排索引？倒排索引源於實際應用中需要根據屬性的值來查詢記錄。這種索引表中的每一項都包括一個屬性值和具有該屬性值的各記錄的地址。由於不是由記錄來確定屬性值，而是由屬性值來確定記錄的位置，因而稱為倒排索引(inverted index)。帶有倒排索

mapreduce系列（6）---倒排索引的建立

一、概述如我們有三個檔案： a.txt,b.txt,c.txt tian jun li lei han meimei li lei han meimei li lei han meimei tian jun gege jiejie tian jun

海量資料處理專題（八）——倒排索引(搜尋引擎之基石)(轉)

引言：在資訊大爆炸的今天，有了搜尋引擎的幫助，使得我們能夠快速，便捷的找到所求。提到搜尋引擎，就不得不說VSM模型，說到VSM，就不得不聊倒排索引。可以毫不誇張的講，倒排索引是搜尋引擎的基石。VSM檢索模型VSM全稱是Vector Space Model(向量空間模型)，是IR(Information Ret

【Elasticsearch 7 探索之路】（三）倒排索引

上一篇，我們介紹了 ES 文件的基本 CURE 和批量操作。我們都知道倒排索引是搜尋引擎非常重要的一種資料結構，什麼是倒排索引，倒排索引的原理是什麼。 1 索引過程在講解倒排索引前，我們先了解索引建立，下圖是 Elasticsearch 中資料索引過程的流程。從上圖可以看到，文件未在 ES 中進行索引

ElasticSearch最佳入門實踐（三十九）倒排索引核心原理揭祕

1、例子，兩段文字 doc1：I really liked my small dogs, and I think my mom also liked them doc2：He never liked any dogs, so I hope that my m

ElasticSearch最佳入門實踐（六十六）倒排索引組成結構以及其索引可變原因

倒排索引，是適合用於進行搜尋的倒排索引的結構（1）包含這個關鍵詞的document list （2）包含這個關鍵詞的所有document的數量：IDF（inverse document frequency）（3）這個關鍵詞在每個document中出現的次數：TF（ter

Lucene 初學者實戰（二）正排索引與倒排索引

Lucene：基於傳統全文檢索引擎的倒排索引，並實現了分塊索引。與倒排所引相對立的是正排索引，也成為正向所引。本文將簡單介紹。 1 正排索引（forward index）由key查詢實體的過程，是正排索引. 在搜尋引擎中每個檔案都對應一個檔案ID，檔案內容被表示為一

搜索引擎基礎概念（3）—— 倒排列表

相關整數原因 tro tex 進行大於 http 1-1 　　倒排列表　　　　倒排列表用來記錄有哪些文檔包含了某個單詞。一般在文檔集合裏會有很多文檔包含某個單詞，每個文檔會記錄文檔編號（DocID），單詞在這個文檔中出現的次數（TF）及單詞在文檔中哪些位置出現過等

框架綜合實踐（5）-loginView測試用例封裝

測試用例封裝在業務資料夾businessView資料夾下已經封裝好了登入模組的測試指令碼，現在要將登入模組進一步封裝成測試用例。指令碼概要： Myunit.py：定義了測試用例執行的初始化和結束，類名StarEnd LoginView.py：定義登入的整個業務操作模組

GO語言Beego框架之WEB安全小系統（5）跨目錄上傳檔案漏洞

跨目錄上傳檔案漏洞攻擊原理絕對路徑名或者相對路徑名中可能會包含檔案連結（例如：軟連結、硬連結、快捷方式、影子檔案、別名等），或者包含特殊字元（例如：.與..），這使得驗證檔案路徑變得困難；同時還有很多作業系統和檔案系統相關的命名約定，也增加了驗證檔案路

react專案實踐——（5）路由配置

1. 新建檔案routes.js，分別定義頁面的路由資訊和其他資訊 const Routes = { 100: { title: "home", pageName: "home", path: "/home" },　　 101: {　　　　

Spring+SpringMVC+MyBatis入門實踐（5）

註解方式AOP 註解配置切面 @Aspect 註解表示這是一個切面 @Component 表示這是一個bean,由Spring進行管理 @Around(value = “execution(* com.happycoder.service.ProductServ

TensorFlow實踐（5）——多元線性迴歸模型

（一）前言一元線性迴歸是一個主要影響因素作為自變數來解釋因變數的變化，但在現實問題中，因變數的變化往往受到多個重要因素的影響，這時就需要兩個或兩個以上的影響因素作為自變數來解釋因變數的變化，這便是多元迴歸，而當多個自變數與因變數之間是線性關係時，所進

微信小程式（5）搭建SpringBoot後臺

使用IntelliJ IDEA搭建一個整合SpringBoot的Maven聚合專案結構如圖 &nb

敏捷開發實踐（5）-有些工具不得不用

做敏捷開發，貴在敏捷，如何敏捷？我們需要一系列成熟的工具去幫助我們敏捷。這篇文件不寫技術，就是純粹地說工具，介紹我們實施scrum過程中，起到關鍵作用的工具。 1、Jira或物理看板 Jira配合JIRA Agile外掛，即可實施敏捷開發，核心就是提供了一個電子

流式大資料計算實踐（5）----HBase使用

一、前言 1、上文中我們搭建好了一套HBase叢集環境，這一文我們學習一下HBase的基本操作和客戶端API的使用二、shell操作先通過命令進入HBase的命令列操作 /work/soft/hbase-1.2.2/bin/hbase shell 1、建表 create 'test

ROS實踐（5）-除錯相關

一編譯程式 [email protected]:~/dev/rosbook# cp -r /home/yangkai04/Documents/Learning\ ROS\ for\ Robotics\ Programming\ 1448OS_Code/1448O

hadoop程式設計小技巧（5）---自定義輸入檔案格式類InputFormat

Hadoop程式碼測試環境：Hadoop2.4應用：在對資料需要進行一定條件的過濾和簡單處理的時候可以使用自定義輸入檔案格式類。Hadoop內建的輸入檔案格式類有：1）FileInputFormat<K,V>這個是基本的父類，我們自定義就直接使用它作為父類；2）T

小實踐（5）倒排索引

背景

資料：

spark版本：

正文

其他

相關推薦