1. 程式人生 > >dbpedia.lookup:全文檢索工具

dbpedia.lookup:全文檢索工具

1.介紹

DBpedia是一個根據相關關鍵字檢索DBpedia URIs的web伺服器。所謂“相關” 指的是資源匹配的標籤或者是頻繁用於維基百科頁面指定特定資源的錨文字。==結果是通過指向其他維基百科頁面的連結數量排名的==。

2.web API

此專案提供了兩個介面:關鍵字搜尋和字首搜尋。託管版本的服務可以在lookup.dbpedia中找到。

2.1關鍵字查詢
2.2字首查詢

字首查詢介面用來實現“輸入自動補全autocomplete input boxes”,對於給定的“一般的單詞”,比如Berl(in),API可以自動獲取相關的資源:
http://dbpedia.org/resource/Berlin

2.3 引數解釋

可以收的引數含義如下:
1. QueryString:DBpedia URI中應該 包含/模糊匹配 的字串;
2. QueryClass:結果應該包含的、從Ontology中來的DBpedia中的類(owl#thing和無型別資源不用指定這個引數);
3. MaxHits:返回結果的數量,預設5;

2.4 返回結果支援json格式

返回結果預設為XML,請求頭包含Accept: application/json則返回JSON格式.

3.執行服務的本地映象
3.1 可控並構建Lookup
git clone git://github.com/dbpedia/lookup.git
cd lookup mvn clean install
3.2下載並配置index
3.3 執行服務

./run Server [PATH TO THE INDEX]/[VERSION]/
例如
./run Server /opt/dbpedia-lookup/2015-04

注意:索引檔案必須解壓縮
現在允許的版本:見github頁面
允許的語言:英語

4.重建索引
4.1 獲取資料集:
  • redirects_en.nt (or .ttl)
  • short_abstracts_en.nt (or .ttl)
  • instance_types_en.nt (or .ttl)
  • article_categories_en.nt (or .ttl)
  • instance_types_en.ttl
  • instance_types_sdtyped_dbo_en.ttl
  • instance_types_transitive_en.ttl
4.2 連線所有資料,並且通過URI排序

這一步非常重要,應為排序後的索引非常快:

  cat instance_types_en.nt (or .ttl)  \
      short_abstracts_en.nt (or .ttl) \
      article_categories_en.nt (or .ttl) \
      instance_types_en.ttl  \
      instance_types_sdtyped_dbo_en.ttl \
      instance_types_transitive_en.ttl | sort >all_dbpedia_data.nt (or .ttl)
4.3 獲取資料集redirects_en.nt (or .ttl)

重定向資料集不會被索引,他們作為lookup的目標被排除;

4.4執行索引器Indexer

Indexer必須執行兩次:
1. 有DBpedia資料
./run Indexer lookup_index_dir redirects_en.nt (or .ttl) all_dbpedia_data.nt (or .ttl)
2. 有wikistatsextractor資料
./run Indexer lookup_index_dir redirects_en.nt (or .ttl) pairCounts

相關推薦

dbpedia.lookup全文檢索工具

1.介紹 DBpedia是一個根據相關關鍵字檢索DBpedia URIs的web伺服器。所謂“相關” 指的是資源匹配的標籤或者是頻繁用於維基百科頁面指定特定資源的錨文字。==結果是通過指向其他維基百科頁面的連結數量排名的==。 2.web API

Elasticsearch全文檢索工具入門

使用步驟 artifact rop 創建 是否 方式 cluster 包名 Lucene 1 Elasticsearch全文檢索工具入門: 2 1.下載對應系統版本的文件 3 elasticsearch-2.4.0.zip 4

Lucene學習總結之一全文檢索的基本原理

一、總論 Lucene是一個高效的,基於Java的全文檢索庫。 所以在瞭解Lucene之前要費一番工夫瞭解一下全文檢索。 那麼什麼叫做全文檢索呢?這要從我們生活中的資料說起。 我們生活中的資料總體分為兩種:結構化資料和非結構化資料。 結構化資料:指具

**全文檢索工具_Lucence*

課程計劃: 1. 什麼是全文檢索,如何實現全文檢索 2. Lucene實現全文檢索的流程 * 建立索引 * 查詢索引 3. 配置開發環境 4. 入門程式 5. 分析器的分析過程 1. 測試分析器的分析效果 2. 第三方中文分析器 6. 索引庫維護 1.

看完“最老程式設計師創業札記全文檢索、資料探勘、推薦引擎應用” 有感

         今天早起,看完這篇文章,頗有感,想記錄一些關鍵點,以期後用! 這篇文章很不錯,但是卻讓讀者完整的經歷了在網際網路領域從草根idea到產品上線盈利的完整過程。 1、技術積累很重要。文章

Lucene&solr全文檢索學習

例如:搜尋一堆檔案中含有java單詞的檔案-->Lucene·可以解決 資料庫搜尋 資料分類 非結構化資料查詢方式 弊端:相當慢 如何實現全文索引 全文檢索的運用場景 索引過程 搜尋過程

《從Lucene到Elasticsearch全文檢索實戰》學習筆記一

img 要求 用戶查詢 tex sea 系統 Lucene ext 早期 今天,我主要給大家講一下信息檢索概念。 ? ? ? ?信息檢索: ? ? ? ?互聯網時代的飛速發展使人們進入了信息爆炸時代,據統計全球的互聯網用戶已達到30億,在各個網站及移動app在每個分鐘 產生

《從Lucene到Elasticsearch全文檢索實戰》學習筆記二

天我給大家講講分詞演算法       分詞演算法概述:詞是語義的最小單位。分詞對搜尋引擎的作用很大,可以促進搜尋引擎程式自動識別語句的含義,可以提高搜尋結果的匹配度,分析的質量也將直接影響了搜尋結果的精確度。分詞存在於文字索引的建立過程和使用者提交檢索過程。利用相同的分詞器把短

《從Lucene到Elasticsearch全文檢索實戰》學習筆記三

數據庫 核心 但是 .net 實戰 cse 內容 acl elastics 今天我給大家講講倒排索引。 索引是構成搜索引擎的核心技術之一,它在日常生活中是非常常見的,比如我看一本書的時候,我首先會看書的目錄,通過目錄可以快速定位到具體章節的頁碼,加快對內容的查詢

《從Lucene到Elasticsearch全文檢索實戰》學習筆記四

思維方式 ear 作者 邏輯 優先 原創 blog article 開源 今天我給大家講講布爾檢索模型基本概念 布爾檢索模型: 檢索模型是判斷文檔內容與用戶相關性的核心技術,以大規模網頁搜索為例,在海量網頁中與用戶查詢關鍵詞相關的網頁可能會有成千上萬個,甚至耕

《從Lucene到Elasticsearch全文檢索實戰》學習筆記五

今天我給大家講講tf-idf權重計算 tf-idf權重計算:        tf-idf(中文詞頻-逆文件概率)是表示計算詞項對於一個文件集或語料庫中的一份檔案的重要程度。詞項的重要性隨著它在文件中出現的次數成正比,會隨著它在文件集中出現的頻率成反比。如果一個詞項在

Lucene全文檢索工具包學習筆記總結

Lucene—-全文檢索的工具包 隸屬於apache(solr也是屬於apache,solr底層的實現是Lucene) 一、資料的分類: 結構化資料 具有固定型別和長度的資料 比如:資料庫(mysql/oracl)中的資料,元資料(windows中的檔案) 非結構化資料

全文檢索工具迅搜的安裝和體驗(可用於自建中文全文搜尋引擎)

1、Ubuntu環境下安裝:    1)LNMP安裝:參考https://lnmp.org/install.html      #wget -c http://mirrors.duapp.com/lnmp/lnmp1.3-full.tar.gz && tar

Lucene實踐全文檢索的基本原理 (轉載)

一、總論 "Apache Lucene(TM) is a high-performance, full-featured text search engine library written entirely in Java. It is a technology suitable for nearly

Lucene實踐全文檢索的基本原理

一、總論 "Apache Lucene(TM) is a high-performance, full-featured text search engine library written entirely in Java. It is a technology suitable for nearly

Lucene學習總結之一全文檢索的基本原理(03-01

浪費了“黃金五年”的Java程式設計師,還有救嗎? >>>   

Elasticsearch什麼是全文檢索

什麼是全文檢索? 全文檢索是指計算機索引程式通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置,當用戶查詢時,檢索程式就根據事先建立的索引進行查詢,並將查詢的結果反饋給使用者的檢索方式。這個過程類似於通過字典中的檢索字表查字的過程。 在說全文檢索之前我們先

Lucene全文檢索引擎工具包使用方法總結

Lucene是apache軟體基金會4 jakarta專案組的一個子專案,是一個開放原始碼的全文檢索引擎工具包,但它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,部分文字分析引擎(英文與德文兩種西方語言)。Lucene的目的是為軟體

開源影象檢索工具Caliph&Emir使用方法

Caliph&Emir是基於MPEG7的軟體。它是用Java編寫的開源軟體。採用了lucene完成索引和檢索功能。是研究MPEG7標準,影象檢索等等方面不可多得的好工具。在此介紹一下它們的基本使用方法。深入的研究還需要分析其原始碼。Caliph是一個軟體,Emir也是

solr基於lucene的全文檢索解決方案

採用Lucene搜尋庫為核心,提供全文索引和搜尋開源企業平臺,提供REST的HTTP/XML和JSON的API,如果你是Solr新手,那麼就和我一起來入門吧!本教程以solr4.8作為測試環境,jdk版本需要1.7及以上版本。 準備 本文假設你對J