【Apache Solr系列之三】Solr客戶端SolrJ API使用文件-增刪改

阿新 • • 發佈：2019-02-14

通過之前兩篇文章的學習之後，使用solr對mysql進行資料匯入以及增量索引應該都會了！

接下來我們學習下如果從Solr中讀取我們想要的資料。同時你也可以結合Solr的web介面進行驗證，看看你的查詢結果是否正確。

環境準備：

從之前下載的solr安裝包中解壓獲取以下jar包

/dist：

apache-solr-solrj-*.jar

/dist/solrj-lib：

commons-codec-1.3.jar
commons-httpclient-3.1.jar
commons-io-1.4.jar
jcl-over-slf4j-1.5.5.jar
slf4j-api-1.5.5.jar

/lib：

slf4j-jdk14-1.5.5.jar

或者如果你通過maven進行jar包管理的。可以使用以下maven庫新增所需要的jar包

<dependency>
               <artifactId>solr-solrj</artifactId>
               <groupId>org.apache.solr</groupId>
               <version>1.4.0</version>
               <type>jar</type>
               <scope>compile</scope>
        </dependency>

如果需要使用到EmbeddedSolrServer，那麼需要匯入core包。

<dependency>
               <artifactId>solr-core</artifactId>
               <groupId>org.apache.solr</groupId>
               <version>1.4.0</version>
               <type>jar</type>
               <scope>compile</scope>
        </dependency>

還有兩個依賴包

<dependency>
               <groupId>javax.servlet</groupId>
               <artifactId>servlet-api</artifactId>
               <version>2.5</version>
        </dependency>

<dependency>
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-simple</artifactId>
            <version>1.5.6</version>
        </dependency>

環境準備好之後，我們先來看下使用HttpSolrServer建立連線

String url = "http://${ip}:${port}";
  /*
    HttpSolrServer is thread-safe and if you are using the following constructor,
    you *MUST* re-use the same instance for all requests.  If instances are created on
    the fly, it can cause a connection leak. The recommended practice is to keep a
    static instance of HttpSolrServer per solr server url and share it for all requests.
    See https://issues.apache.org/jira/browse/SOLR-861 for more details
  */
SolrServer server = new HttpSolrServer( url );

你還可以在建立連線的時候設定相應的一些連線屬性

String url = "http://<span style="font-family: Arial, Helvetica, sans-serif;">${ip}:${port}</span><span style="font-family: Arial, Helvetica, sans-serif;">"</span>
  HttpSolrServer server = new HttpSolrServer( url );
  server.setMaxRetries(1); // defaults to 0.  > 1 not recommended.
  server.setConnectionTimeout(5000); // 5 seconds to establish TCP
  // Setting the XML response parser is only required for cross
  // version compatibility and only when one side is 1.4.1 or
  // earlier and the other side is 3.1 or later.
  server.setParser(new XMLResponseParser()); // binary parser is used by default
  // The following settings are provided here for completeness.
  // They will not normally be required, and should only be used 
  // after consulting javadocs to know whether they are truly required.
  server.setSoTimeout(1000);  // socket read timeout
  server.setDefaultMaxConnectionsPerHost(100);
  server.setMaxTotalConnections(100);
  server.setFollowRedirects(false);  // defaults to false
  // allowCompression defaults to false.
  // Server side must support gzip or deflate for this to have any effect.
  server.setAllowCompression(true);

我想大夥很多都是使用實體來接收返回的資料，這樣的話方便管理，那麼看下SolrJ裡面是如何定義實體的。

其實SolrJ中定義實體和平時沒有太大區別。就是多了一個Annotation註解，用來標誌與solr entry屬性對應。

import org.apache.solr.client.solrj.beans.Field;

 public class Item {
    @Field
    String id;

    @Field("cat")
    String[] categories;

    @Field
    List<String> features;

  }

除了設定在欄位上，我們還可以設定在set方法上。

@Field("cat")
   public void setCategory(String[] c){
       this.categories = c;
   }

新增資料：

首先獲取SolrServer

SolrServer server = new HttpSolrServer("http://${ip}:${port}");

如果要刪除所有的索引的話

server.deleteByQuery( "*:*" );// CAUTION: deletes everything!

使用我們定義的Bean來往solr插入資料

Item item = new Item();
    item.id = "one";
    item.categories =  new String[] { "aaa", "bbb", "ccc" };
server.addBean(item);

如果需要一次插入多個的話。插入一個List<Bean>即可

List<Item> beans ;
  //add Item objects to the list
  server.addBeans(beans);

你可以通過以下形式在一個HTTP請求中更改你所有的索引。這個是最優化的方式

HttpSolrServer server = new HttpSolrServer();
Iterator<SolrInputDocument> iter = new Iterator<SolrInputDocument>(){
     public boolean hasNext() {
        boolean result ;
        // set the result to true false to say if you have more documensts
        return result;
      }

      public SolrInputDocument next() {
        SolrInputDocument result = null;
        // construct a new document here and set it to result
        return result;
      }
};
server.add(iter);

solrj查詢方面會有單獨的博文講解。

【Apache Solr系列之三】Solr客戶端SolrJ API使用文件-增刪改

通過之前兩篇文章的學習之後，使用solr對mysql進行資料匯入以及增量索引應該都會了！接下來我們學習下如果從Solr中讀取我們想要的資料。同時你也可以結合Solr的web介面進行驗證，看看你的查詢結果是否正確。環境準備：從之前下載的solr安裝包中解壓獲取以下ja

【solr專題之三】Solr常見異常

1、RemoteSolrException: Expected mime type application/octet-stream but got text/html 現象： SLF4J: Failed to load class "org.slf4j.impl.Sta

【OCR技術系列之三】大批量生成文字訓練集

9.png false per store else value 隨機 %d alt 放假了，終於可以繼續可以靜下心寫一寫OCR方面的東西。上次談到文字的切割，今天打算總結一下我們怎麽得到用於訓練的文字數據集。如果是想訓練一個手寫體識別的模型，用一些前人收集好的手寫文字集就

【Oracle XE系列之三】使用OMF方式手工建立Oracle XE資料庫

環境：win10_X64_Pro 1.建立資料庫例項，例項名為PF C:\oraclexe\app\oracle\product\11.2.0\server\bin>oradim -new -sid PF 例項已建立。錯誤：dim-00014:無法開啟

【Java進階面試系列之三】哥們，訊息中介軟體在你們專案裡是如何落地的？【石杉的架構筆記】

歡迎關注個人公眾號：石杉的架構筆記（ID:shishan100）週一至週五早8點半！精品技術文章準時送上！一、前情回顧之前給大家聊了一下，面試時如果遇到訊息中介軟體這個話題，面試官上來可能問的兩個問題：你們的系統架構中為什麼要引入訊息中介軟體？系統架構中引入訊息中介軟體有什麼缺點？關於

【騰訊TMQ】【UTP自動化測試平臺系列之三】用例管理

導語 UTP自動化測試平臺是TMQ的一個聯合專案，目的是方便各專案測試人員更好地開展自動化測試建設工作，減少重複平臺建設的成本，提高產品的自動化測試效率。背景測試用例，是測試的基礎原料，沒有用例，測試工作無法執行，自動化測試也是一樣。實際的自動化測

【Hadoop入門學習系列之三】YARN原理和資源排程

一.Hadoop YARN產生背景 Mapreduce1.0版本固有的問題擴充套件性受限單點故障難以支援MR之外的計算資源利用率運維成本和資料共享【多計算框架各自為戰，資料共享困難】  MR：離線計算框架  Storm：實時計算框

【WEB前端系列之CSS】CSS3動畫之Tranition

transform log 值變化 mozilla 大眾適應 int 處理中一前言 css中的transition允許css的屬性值在一定的時間區間內平滑的過渡。這種效果可以在鼠標點擊、獲得焦點、被點擊或對元素任何改變中觸發，並圓滑的以動畫效果改變CSS的屬性值。語法

【OCR技術系列之四】基於深度學習的文字識別（3755個漢字）

架構 indices 編碼協調器論文準備分享深度 ast 上一篇提到文字數據集的合成，現在我們手頭上已經得到了3755個漢字（一級字庫）的印刷體圖像數據集，我們可以利用它們進行接下來的3755個漢字的識別系統的搭建。用深度學習做文字識別，用的網絡當然是CNN，那具

【美妙的Python之三】Python 物件解析

美妙的Python之Python物件簡而言之： Python 是能你無限驚喜的語言。與眾不同。 &n

【美妙的Python之三】Python 對象解析

dsm pid log 標識 tex 對象解析 blog -h 性能美妙的Python之Python對象簡而言之： Python 是能你無限驚喜的語言。與眾不同。

【 MAKEFILE 程式設計基礎之三】詳解 MAKEFILE 變數的定義規則使用！

本站文章均為李華明Himi 原創,轉載務必在明顯處註明：轉載自【黑米GameDev街區】原文連結: http://www.himigame.com/gcc-makefile/770.html 使用變數：在Mak

【OCR技術系列之六】文字檢測CTPN的程式碼實現

這幾天一直在用Pytorch來複現文字檢測領域的CTPN論文，本文章將從資料處理、訓練標籤生成、神經網路搭建、損失函式設計、訓練主過程編寫等這幾個方面來一步一步復現CTPN。CTPN演算法理論可以參考這裡。訓練資料處理我們的訓練選擇天池ICPR2018和MSRA_TD500兩個資料集，天池ICPR的資

【OCR技術系列之五】場景文字檢測技術綜述（CTPN, SegLink, EAST）

文字識別分為兩個具體步驟：文字的檢測和文字的識別，兩者缺一不可，尤其是文字檢測，是識別的前提條件，若文字都找不到，那何談文字識別。今天我們首先來談一下當今流行的文字檢測技術有哪些。文字檢測不是一件簡單的任務，尤其是複雜場景下的文字檢測，非常具有挑戰性。自然場景下的文字檢測有如下幾個難點：文字存在多種分佈

【OpenCV入門教程之三】影象的載入，顯示和輸出一站式完全解析

毛星雲，網路ID「淺墨」，90後，熱愛遊戲開發、遊戲引擎、計算機圖形、實時渲染等技術，就職於騰訊互娛。微軟最有價值專家著作《Windows遊戲程式設計之從零開始》、《OpenCV3程式設計入門》碩士就讀於南京航空航天大學航天學院（2013級碩士研究生），已於2016年三月畢業。本科

【OCR技術系列之五】自然場景文字檢測技術綜述（CTPN, SegLink, EAST）

文字識別分為兩個具體步驟：文字的檢測和文字的識別，兩者缺一不可，尤其是文字檢測，是識別的前提條件，若文字都找不到，那何談文字識別。今天我們首先來談一下當今流行的文字檢測技術有哪些。文字檢測不是一件簡單的任務，尤其是複雜場景下的文字檢測，非常具有挑戰性。自然場景下的文字檢測有如下幾個難點：

【基本網路概念之三】IP、TCP和UDP IP地址和域名埠

IP、TCP和UDP 　　java支援的協議只有TCP和UDP，以及建立在TCP和UDP之上的應用層協議。所有其他傳輸層、網際層和更底層的協議，如ICMP、IGMP、ARP和其他協議在java程式中都只能通過連結到原生程式碼來實現。 IP地址和域名　　I

【學習ARToolkit小記之三】攝像頭標定（Camera Calibration）

本部分內容只用於個人的學習記錄與記錄，詳細內容請參考官方網站教程。一、開發環境 1、作業系統：Windows 7（64位） 2、程式設計環境：Microsoft Visual Studio 2010 3、ARToolkit版本：ARToolKit-2.72.1 二、

【機器學習系列之四】概率統計學習基礎

這部分介紹概率裡的重要概念，如隨機事件，貝葉斯概率公式。統計裡描述資料分佈的重要概念如期望，方差，眾數，四分位數。統計推斷裡的引數估計 3.1 概率隨機事件：某一事件可能發生，也可能不發生，則稱其為隨機事件頻率：以拋硬幣為例，重複拋十次，若出現4次正面，6次反

【機器學習系列之七】模型調優與模型融合(程式碼應用篇)

這是本人對模型的融合的程式碼合集，環境是python3，只要複製過去就可以用了，非常方便。目錄 1.交叉驗證 1.1 原理 1.2 GridSearchCV 2.繪製學習曲線 3.stacking 3.1 stacking原理 3.2 程式碼實現不

【Apache Solr系列之三】Solr客戶端SolrJ API使用文件-增刪改

相關推薦