倒排索引的java實現

阿新 • • 發佈：2018-12-22

假設有3篇文章，file1, file2, file3，檔案內容如下：

檔案內容程式碼

file1 (單詞1，單詞2，單詞3，單詞4....)
file2 (單詞a，單詞b，單詞c，單詞d....)
file3 (單詞1，單詞a，單詞3，單詞d....)

那麼建立的倒排索引就是這個樣子：

檔案內容程式碼

單詞1 (file1,file3)
單詞2 (file1)
單詞3 (file1,file3)
單詞a (file2, file3)
....

而詞頻就是每個單詞在檔案中出現的相應次數，本文計算的是每個單詞在所有檔案中出現的總次數，如果有更簡潔有效的寫法，歡迎交流。

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Map;


public class IntertedIndex {
	
	private Map<String, ArrayList<String>> map=new HashMap<>();
	private ArrayList<String> list;
	private Map<String, Integer> nums=new HashMap<>();
	
	public void CreateIndex(String filepath){

		String[] words = null;
		try {
		
			File file=new File(filepath);
			BufferedReader reader=new BufferedReader(new FileReader(file));
			String s=null;
			while((s=reader.readLine())!=null){
				//獲取單詞
				words=s.split(" ");
				
			}
			
			for (String string : words) {
			
				if (!map.containsKey(string)) {
					list=new ArrayList<String>();
					list.add(filepath);
					map.put(string, list);
					nums.put(string, 1);
				}else {
					list=map.get(string);
					//如果沒有包含過此檔名，則把檔名放入
					if (!list.contains(filepath)) {
						list.add(filepath);
					}
					//檔案總詞頻數目
					int count=nums.get(string)+1;
					nums.put(string, count);
				}
			}
			reader.close();
			
		} catch (IOException e) {
			
			e.printStackTrace();
		}
	
		
	}
	public static void main(String[] args) {
		IntertedIndex index=new IntertedIndex();
		
		for(int i=1;i<=3;i++){
			String path="E:\\data\\"+i+".txt";
			index.CreateIndex(path);
		}
		for (Map.Entry<String, ArrayList<String>> map : index.map.entrySet()) {
			System.out.println(map.getKey()+":"+map.getValue());
		}

		for (Map.Entry<String, Integer> num : index.nums.entrySet()) {
			System.out.println(num.getKey()+":"+num.getValue());
		}
	}
}

檔案內容：

1.txt：i live in hangzhou where are you

2.txt：i love you i love you

3.txt：i love you today is a good day

執行結果

倒排索引 mr實現

Map階段 <0,"this is google"> .... context.write("google ->a.txt",1); context.write("google -&g

MapReduce 倒排索引的實現

package cheryl.dhcc.mapreduce; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configu

倒排索引C++實現

倒排索引原理：根據屬性的值來查詢記錄位置。假設有3篇文章，file1, file2, file3，檔案內容如下： file1 (單詞1，單詞2，單詞3，單詞4....) file2 (單詞a，單詞b

倒排索引的實現

https://blog.csdn.net/xn4545945/article/details/8791484倒排索引（英語：Inverted index），也常被稱為反向索引、置入檔案或反向檔案，是一種索引方法，被用來儲存在全文搜尋下某個單詞在一個文件或者一組文件中的儲存位

C++ 倒排索引的實現

1.1基本介紹倒排索引的概念很簡單：就是將檔案中的單詞作為關鍵字，然後建立單詞與檔案的對映關係。當然，你還可以新增檔案中單詞出現的頻數等資訊。倒排索引是搜尋引擎中一個很基本的概念，幾乎所有的搜尋引擎都會使用到倒排索引。 1.2 準備工作 ² 5個原始檔 Test0

倒排索引的java實現

假設有3篇文章，file1, file2, file3，檔案內容如下：檔案內容程式碼 file1 (單詞1，單詞2，單詞3，單詞4....) file2 (單詞a，單詞b，單

我愛分享----百萬商業圈C語言實現的倒排索引算法(含全部源碼)

db4 cover cst via com deb nio main 20M PAT-1134VertexCover（圖的建立+set容器）刷題——POJ2395OutofHay QGC之QGCView.qml HDU-2049不容易系列之四（考新郎） 2e5訟矣屎htt

倒排索引原理和實現

轉載https://blog.csdn.net/u011239443/article/details/60604017 倒排索引原理和實現關於倒排索引場景是：給定幾個關鍵詞，找出包含關鍵詞的文件倒排索引：不是由記錄來確定屬性值，而是由屬性值來確定記錄的位置

Lucene全文檢索之倒排索引實現原理、API解析【2018.11】

》官網 http://lucene.apache.org/ 下載地址：https://mirrors.tuna.tsinghua.edu.cn/apache/lucene/java/7.5.0/ 》 Lucene的全文檢索是指什麼：程式掃描文件

MapReduce實現倒排索引

倒排索引這個名字讓人很容易誤解成A-Z，倒排成Z-A；但實際上缺不是這樣的。一般我們是根據問檔案來確定檔案內容，而倒排索引是指通過檔案內容來得到文件的資訊，也就是根據一些單詞判斷他在哪個檔案中。知道了這一點下面就好做了：準備一些元資料下面我們要進行兩次MapR

倒排索引的分散式實現（MapReduce程式）

package aturbo.index.inverted; import java.io.IOException; import java.util.HashSet; import org.apache.commons.lang3.StringUtils; imp

python 實現倒排索引

程式碼如下： #encoding:utf-8 fin = open('1.txt', 'r') ''' 建立正向索引: “文件1”的ID > 單詞1：出現位置列表；單詞2：出現位置列表；…

倒排索引構建演算法SPIMI（已實現，修訂版）

TA011121600045170###347###A0###2###20111214213127###86b4bc20eb98b1eb21932ebf5dcfcca5###1###蘭州###空氣質量# TA011121600045168###347###A0###2###20111215181000###e

Hadoop環境搭建及實現倒排索引

目錄 1.應用介紹 3 1.1實驗環境介紹 3 1.2應用背景介紹 3 1.3應用的意義與價值 4 2.資料及儲存 5 2.1資料來源及資料量 5 2.2資料儲存解決方案 5 3.分析處理架構 5 3.1架構設計和處理方法

倒排索引詳解及C++實現

1.介紹　　倒排索引是現代搜尋引擎的核心技術之一，其核心目的是將從大量文件中查詢包含某些詞的文件集合這一任務用O(1)或O(logn)的時間複雜度完成，其中n為索引中的文件數目。也就是說，利用倒排索引技術，可以實現與文件集大小基本無關的檢索複雜度，這一點對於

一些演算法的MapReduce實現——倒排索引實現

/** * input format * docid<tab>doc content * * output format * (term:docid)<tab>(tf in this doc) * */ public s

Hadoop 文件倒排索引實現

在上黃宜華老師的MapReduce的課程中，會有實驗讓實現帶詞頻的文件倒排索引。一般情況下根據他的書就能實現基本的東西，但是根據書上的程式碼，執行的時候可能會有一些小的trick，會報出一些異常。其實如果參照這個文章《Hadoop之倒排索引》就能實現所需要的功能了。但是本

檔案倒排索引演算法及其hadoop實現

什麼是檔案的倒排索引？簡單講就是一種搜尋引擎的演算法。過倒排索引，可以根據單詞快速獲取包含這個單詞的文件列表。倒排索引主要由兩個部分組成：“單詞”和對應出現的“倒排檔案”。 MapReduce的設計思路整個過程包含map、combiner、reduce三個階段，

使用Hadoop 實現文件倒排索引

文件倒排索引主要是統計每個單詞在各個文件中出現的頻數，因此要以單詞為key，value為文件以及該單詞在此文件頻數，即輸出資料的格式形如： < word1,[doc1,3] [doc2,4] ... > :表示word1這個單詞在doc1文

elasticsearch核心知識---52.倒排索引組成結構以及實現TF-IDF演算法

首先實現了採用java 簡易的實現TF-IDF演算法package matrixOnto.Ja_9_10_va; import com.google.common.base.Preconditions; import org.nutz.lang.Strings; impo

倒排索引的java實現

相關推薦