1. 程式人生 > >solr (索引自己的資料集)

solr (索引自己的資料集)

概要

Solr是一個建立在Apache Lucene 之上的搜尋伺服器,它是一個開源的,基於Java的資訊檢索庫。它旨在驅動強大的文件檢索應用程式 - 無論您需要根據使用者的查詢向用戶提供資料,Solr都可以為您服務。


由於Solr基於開放標準,因此具有高度的可擴充套件性。Solr查詢是簡單的HTTP請求URL,響應是結構化文件:主要是JSON,但也可以是XML,CSV或其他格式。這意味著各種各樣的客戶端將能夠使用Solr,從其他Web應用程式到瀏覽器客戶端,富客戶端應用程式和移動裝置。任何有HTTP能力的平臺都可以和Solr對話。

一個比較常見的情況是,你有太多的資料,或者太多的查詢,以至於一臺Solr伺服器無法處理你的整個工作負載。

在這種情況下,您可以使用SolrCloud擴充套件應用程式的功能,以便更好地在多臺伺服器上分佈資料和處理請求。根據您需要的可擴充套件性型別,可以混合和匹配多個選項。

“分片”是一種縮放技術,其中一個集合被分割成多個邏輯分片,稱為“分片”,以便擴大集合中的文件數量,使其超出實際適合單個伺服器的數量。傳入查詢分發到集合中的每個分片,這些分片響應合併的結果。另一種可用的技術是增加集合的“複製因子”,這允許您通過將請求分散到多個機器來新增具有集合的其他副本的伺服器,以處理較高的併發查詢負載。分片和複製不是相互排斥的,它們一起使Solr成為一個非常強大和可擴充套件的平臺。


更新資料

numDocs

表示索引中可搜尋文件的數量(由於某些檔案包含多個文件,因此將大於XML,JSON或CSV檔案的數量)。maxDoc值可能會更大,因為maxDoc計數包括尚未從索引中物理刪除的邏輯刪除文件。你可以重新張貼樣本檔案一遍又一遍,只要你想,numDocs永遠不會增加,因為新的檔案將不斷取代舊的。

刪除資料


執行以下命令刪除特定的文件:

bin/post -c localDocs -d "<delete><id>SP2514N</id></delete>"

要刪除所有文件,可以使用“刪除查詢”命令:

bin/post -c localDocs -d "<delete><query>*:*</query></delete>"


相關推薦

solr 索引自己資料

概要 Solr是一個建立在Apache Lucene 之上的搜尋伺服器,它是一個開源的,基於Java的資訊檢索庫。它旨在驅動強大的文件檢索應用程式 - 無論您需要根據使用者的查詢向用戶提供資料,Sol

Python實現支援向量機基於雙月資料

1、生成資料集 class moon_data_class(object): def __init__(self,N,d,r,w): self.N=N self.w=w self.d=d self.r=

RDD彈性分散式資料的分析

RDD: Resilient Distributed Dataset(彈性分散式資料集) 彈性:資料集的可恢復型 原因:在分散式環境下,運算節點很容易出問題,會造成資料的丟失,rdd可以在資料丟失的背景下恢復資料。 資料恢復的技術:1.基本備份 2.基於日誌(hadoop n

tf.keras入門(1) Basic ClassificationFashion MNIST資料

基本分類(Fashion MNIST) 使用tf.keras ,是一種在TensorFlow中構建和訓練模型的高階api 本指南使用 Fashion MNIST 資料集,其中包含 70000 張灰度影象,涵蓋 10 個類別。以下影象顯示了單件服飾在較低解析度(28x28 畫素)下

TensorFlow車牌識別完整版含車牌資料

在之前釋出的一篇博文《MNIST資料集實現車牌識別--初步演示版》中,我們演示瞭如何使用TensorFlow進行車牌識別,但是,當時採用的資料集是MNIST數字手寫體,只能分類0-9共10個數字,無法分類省份簡稱和字母,侷限性較大,無實際意義。 經過影象定位分割處理

構建決策樹和svm模型某金融資料

根據金融資料集作出的決策樹和svm模型 # 匯入需要的包 import pandas as pd from sklearn.linear_model import LogisticRegression from sklearn.model_selection i

R語言學習二包與資料

R語言安裝包 什麼是R語言的包? 我們可以把它視為一種擴充套件R基本功能的機制,包本身也集成了眾多的函式。在使用R的過程中如果我們要使用某些函式,而當前R裡面沒有的話,我們通常可以去查詢那些與其相關的包,那些包裡面通常已經包含了其他開發者開發好的功能,我們

Kaggle--泰坦尼克號失蹤者生死情況預測原始碼附Titanic資料

資料視覺化分析import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np titanic=pd.read_csv('train.csv') #pri

Tensorflow深度學習之二十一:LeNet的實現CIFAR-10資料

一、LeNet的簡介 LeNet是一個用來識別手寫數字的最經典的卷積神經網路,是Yann LeCun在1998年設計並提出的。Lenet的網路結構規模較小,但包含了卷積層、池化層、全連線層,他們都構成了現代CNN的基本元件。 LeNet包含輸入層在內共有

Python實現多層感知器MLP基於雙月資料

1、載入必要的庫,生成資料集 import math import random import matplotlib.pyplot as plt import numpy as np class moon_data_class(object): def

Tensorflow深度學習之二十二:AlexNet的實現CIFAR-10資料

二、工程結構 由於我自己訓練的機器記憶體視訊記憶體不足,不能一次性讀取10000張圖片,因此,在這之前我按照圖片的類別,將每一張圖片都提取了出來,儲存成了jpg格式。與此同時,在儲存圖片的過程中,儲存了一個python的dict結構,鍵為每一張圖片的相對地

caffe隨記---使用caffe訓練FCN的pascalcontext-fcn32s模型pascal-context資料

本篇討論利用caffe進行FCN訓練(採用的是pascal-context資料集) 1、下載FCN的框架 如圖是我在windows下的檢視 因為不同的資料來源和不同的FCN型別的網路結構並不同,對資料來源的讀取方式也不同,因此有很多分支,本篇博文以pascalcont

我的Keras使用總結2——構建影象分類模型針對小資料

  Keras基本的使用都已經清楚了,那麼這篇主要學習如何使用Keras進行訓練模型,訓練訓練,主要就是“練”,所以多做幾個案例就知道怎麼做了。   在本文中,我們將提供一些面向小資料集(幾百張到幾千張圖片)構造高效,實用的影象分類器的方法。 1,熱身練習——CIFAR10 小圖片分類示例(Sequentia

深度學習tensorflow —— 自己資料讀取opencv

先來看一下我們的目錄: dataset1 和creat_dataset.py 屬於同一目錄 mergeImg1 和mergeImg2 為Dataset1的兩子目錄(兩類為例子)目錄中儲存影象等檔案 核心檔案creat_dataset.py 檔案如下#來生成訓練集和測試集的矩陣 im

FCN訓練自己資料person-segmentation、SIFT-FLOW、SBD和VOC實驗總結

最近花了將近一週的時間,基於提供的原始碼,通過參考網上的部落格,跑通了FCN在三個資料集上的訓練以及測試。在這裡寫下總結,即是記錄,又希望能夠對其他剛剛接觸FCN的人有所幫助。 FCN的原始碼地址:https://github.com/shelhamer/fcn.berkeleyvision.o

FastRCNN 訓練自己資料——修改讀寫介面

這裡樓主講解了如何修改Fast RCNN訓練自己的資料集,首先請確保你已經安裝好了Fast RCNN的環境,具體的編配編制操作請參考我的上一篇文章。首先可以看到fast rcnn的工程目錄下有個Lib目錄這裡下面存在3個目錄分別是:datasetsfast_rcnnroi_d

FastRCNN 訓練自己資料——編譯配置

FastRCNN是Ross Girshick在RCNN的基礎上增加了Multi task training整個的訓練過程和測試過程比RCNN快了許多。別的一些細節不展開,過幾天會上傳Fast RCNN的論文筆記。FastRCNN mAP效能上略有上升。Fast RCNN中,提取OP的過程和訓練過程仍

win10 tensorflow faster rcnn訓練自己資料一、製作VOC2007資料

參考部落格:http://blog.csdn.net/gaohuazhao/article/details/60871886 一、關於VOC資料集: 1)JPEGImages資料夾 資料夾裡包含了訓練圖片和測試圖片,混放在一起 2)Annatations資料夾 資

Win10系統下一步一步教你實現MASK_RCNN訓練自己資料使用labelme製作自己資料及需要注意的大坑

一、Labelme的安裝 二、製作自己的資料集       2.1 首先使用labelme標註如下樣式圖片(我的圖片是jpg格式)            2.2每個檔案生成一個對應的.json檔案。如下              2.3執行上面參考部落格最後給

TensorFlow學習筆記——LeNet-5訓練自己資料

  在之前的TensorFlow學習筆記——影象識別與卷積神經網路(連結:請點選我)中瞭解了一下經典的卷積神經網路模型LeNet模型。那其實之前學習了別人的程式碼實現了LeNet網路對MNIST資料集的訓練。而這篇文章是想自己完成LeNet網路來訓練自己的資料集。LeNet主要用來進行手寫字元的識別與分類,下