1. 程式人生 > >solr學習之域的管理與中文分析器配置

solr學習之域的管理與中文分析器配置

該文使用  Centos6.5 64 位    solr4.10.3   IK-Analyzer中文分析器

一、solr域

在solr中域的概念與lucene中域的概念相同,資料庫的一條記錄或者一個檔案的資訊就是一個document,資料庫記錄的欄位或者檔案的某個屬性就是一個Field域,solr中對索引的檢索也是對Field的操作。lucene中對域的操作是通過程式碼,solr對域的管理是通過一個配置檔案schema.xml。

solr中域的型別是schema.xml中<fieldType>元素常用的field型別

複製程式碼
 <!--string 型別 在儲存索引時不進行分詞   sortMissingLast:設定為true時 沒有該filed的資料將排在有該Field的資料後面,忽略請求時的排序規則,預設為false。-->
    <fieldType name="string" class="solr.StrField" sortMissingLast="true" />
    <!-- boolean 型別只有兩個值 true false-->
    <fieldType name="boolean" class="solr.BoolField" sortMissingLast="true"/>

    <!--用於直接數值搜尋,該型別不分詞  -->
    <fieldType name="int" class="solr.TrieIntField" precisionStep="0" positionIncrementGap="0"/>
    <fieldType name="float" class="solr.TrieFloatField" precisionStep="0" positionIncrementGap="0"/>
    <fieldType name="long" class="solr.TrieLongField" precisionStep="0" positionIncrementGap="0"/>
    <fieldType name="double" class="solr.TrieDoubleField" precisionStep="0" positionIncrementGap="0"/>
    
    <!--用於數值範圍搜尋,進行分詞 通過設定precisionStep的值可以提高檢索速度,8是solr的推薦值  -->
    <fieldType name="tint" class="solr.TrieIntField" precisionStep="8" positionIncrementGap="0"/>
    <fieldType name="tfloat" class="solr.TrieFloatField" precisionStep="8" positionIncrementGap="0"/>
    <fieldType name="tlong" class="solr.TrieLongField" precisionStep="8" positionIncrementGap="0"/>
    <fieldType name="tdouble" class="solr.TrieDoubleField" precisionStep="8" positionIncrementGap="0"/>

    <!--日期型別-->
    <fieldType name="date" class="solr.TrieDateField" precisionStep="0" positionIncrementGap="0"/>
    <fieldType name="tdate" class="solr.TrieDateField" precisionStep="6" positionIncrementGap="0"/>
    <!--二進位制型別-->     
    <fieldtype name="binary" class="solr.BinaryField"/>
    <!--隨機數型別-->
    <fieldType name="random" class="solr.RandomSortField" indexed="true" />
    
    <!-- text_general 型別 進行分詞 -->
    <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
      <!--建立索引時的配置   -->    
      <analyzer type="index">
        <!-- tokenizer 建立索引使用的分詞器 -->
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <!--filter  分詞時的過濾器  class="solr.StopFilterFactory"  處理停用詞   words:配置停用詞-->
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
        <!-- filter  分詞時的過濾器  class="solr.LowerCaseFilterFactory" 處理大小寫轉換問題(將大寫轉小寫)-->
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
      <!--查詢索引時的配置   -->    
      <analyzer type="query">
          <!-- tokenizer 對查詢條件分詞時使用的分詞器 -->
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <!--filter  分詞時的過濾器  class="solr.StopFilterFactory"  處理停用詞   words:配置停用詞-->
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
        <!--filter  分詞時的過濾器  class="solr.SynonymFilterFactory"  處理同義詞   synonyms:配置同義詞-->
        <filter 

相關推薦

solr學習管理中文分析器配置

該文使用  Centos6.5 64 位    solr4.10.3   IK-Analyzer中文分析器 一、solr域 在solr中域的概念與lucene中域的概念相同,資料庫的一條記錄或者一個檔案的資訊就是一個document,資料庫記錄的欄位或者檔案的某個屬性就是一個Field域,solr中對索引

mysql學習資料庫管理管理

資料庫管理 3.1 查詢所有資料庫 mysql> show databases; 3.2 建立資料庫 mysql> create database emp       -- 指定預設字符集建立資料庫   &n

Linux學習許可權管理-ACL許可權-簡介開啟

許可權簡介與開啟: 基本許可權:使用者對檔案擁有的所有者、所屬組、其他人三類身份;                     每個身份都有都有讀、寫、執行三種檔案讀寫許可權  

Android學習 記憶體管理機制應用記憶體優化

    Random Access Memory(RAM)在任何軟體開發環境中都是一個很寶貴的資源。這一點在實體記憶體通常很有限的移動作業系統上,顯得尤為突出。儘管Android的Dalvik虛擬機器扮演了常規的垃圾回收的角色,但這並不意味著你可以忽視app的記憶體分配與釋放的時機與地點。於大多數apps來說

機器學習SVM初解淺析(一):最大距離

機器學習 svm 最大距離 2 / ||w|| 這段時間在看周誌華大佬的《機器學習》,在看書的過程中,有時候會搜搜其他人寫的文章,對比來講,周教授講的內容還是比較深刻的,但是前幾天看到SVM這一章的時候,感覺甚是晦澀啊,第一感覺就是比較抽象,特別是對於像本人這種I

機器學習SVM初解淺析(一):

機器學習 svm 最大距離 2 / ||w||sdsshngshan‘gccha 這段時間在看周誌華大佬的《機器學習》,在看書的過程中,有時候會搜搜其他人寫的文章,對比來講,周教授講的內容還是比較深刻的,但是前幾天看到SVM這一章的時候,感覺甚是晦澀啊,第一感覺就

機器學習決策樹隨機森林模型

會有 strong pytho red -s 很多 4.5 是我 機器 歡迎大家前往騰訊雲技術社區,獲取更多騰訊海量技術實踐幹貨哦~ 作者:汪毅雄 導語 本文用容易理解的語言和例子來解釋了決策樹三種常見的算法及其優劣、隨機森林的含義,相信能幫助初學者真正地理解相關知識

Redis學習發布訂閱機制

tom ger 取消 scribe mes 技術 超時 兩個 order Redis提供了發布訂閱功能,可以用於消息的傳輸,Redis的發布訂閱機制包括三個部分,分別是發布者、訂閱者、頻道(channel)。註意:redis屬於即發即棄的機制,信息發送後則會丟失,如果訂閱者

Linux學習用戶root

使用 pwd 如何 但是 images 。。 圖片 不能 localhost 因為想要建立建立一個目錄,但是發現權限不夠,因為沒用root登陸,所以學習了一下普通用戶與root之間如何切換以及如何創建用戶的一些知識。 1、pwd命令可以查看當前用戶

Gradle學習構建javaweb項目

jcenter yun 接口 webxml oot conf ava getc clas 一.使用Gradle的java插件構建Java項目 1)Gradle插件包含了若幹個接口定義和已有的任務項,語法結構:apply plugin:‘插件名‘ ,此處我們定義插件

學習總結:工程管理makefile

管理 用法 ron 有效 第一個 可執行 多目錄 log 包含 工程管理與makefile 一、為什麽需要makefile和make 一個工程中的源文件可能很多,按照類型、功能、模塊分別放在若幹個目錄中,為了有效地管理軟件工程,更高效地編譯整個工程,需要用到makefile

Impala源碼資源管理資源隔離

查詢 圖片 src 阻塞隊列 AI 詳細 利用 生成 獨立 本文由 網易雲 發布。 前言 Impala是一個MPP架構的查詢系統,為了做到平臺化服務,首先需要考慮就是如何做到資源隔離,多個產品之間盡可能小的甚至毫無影響。對於這種需求,最好的隔離方案無疑是物理機器上

Vue學習v-ifv-show的區別

css屬性 綁定 strong 似的 表達式 他會 根據 als 相對 v-if和v-show具有類似的功能,不過v-if才是真正的條件渲染,他會根據表達式適當的銷毀或重建元素及綁定事件或子組件。若表達式初始值為false,則一開始元素或組件不會渲染,只有當第一次為真時,才

Python學習-序列化反序列化

什麽是 註意 not 技術分享 js對象 字節 com 操作 是個 1、什麽是序列化與反序列化? # 我們把對象(或變量)從內存變成可存儲或可傳輸的過程稱之為序列化,在python中被稱為picking; # 自定義的類的實例如何保存在一個文件中?如何從文件中讀取數據,並讓

JS學習賦值賦引用

內容 當前 都沒有 分享 img 定義 con png 技術分享 1、基本類型 基本的數據類型有:undefined,boolean,number,string,null。 基本類型存放在棧區,訪問是按值訪問的,就是說你可以操作保存在變量中的實際的值。 當基本類型的數據賦

C++基礎學習記憶體模型名稱空間(5)

單獨編譯 將程式分為三個部分: 標頭檔案:包含結構宣告和使用這些結構的函式的原型。 原始碼檔案:包含與結構有關的函式的程式碼。 原始碼檔案:包含呼叫與結構相關的函式的程式碼。 一般儘量避免將函式定義或變數宣告放到標頭檔案中,防止出現重複定義的問題。 標頭

機器學習----目標檢測目標跟蹤的區別

1.目標檢測就是檢測出一個圖片或者一個視訊中目標的位置(靜態或者動態)如yolo檢測目標 2.目標追蹤是給視訊中第一幀目標以及它的位置,然後跟蹤這個目標,以及預測它的軌跡,(如果出現一些遮擋,也可以根據軌跡來跟蹤這個目標,假如是yolo檢測出的目標,有時候還會出現丟幀的情況,如果用了跟蹤演算法,

機器學習---似然概率

“概率”描述了給定模型引數後,描述結果的合理性,而不涉及任何觀察到的資料。 拋一枚均勻的硬幣,拋20次,問15次拋得正面的可能性有多大? 這裡的可能性就是”概率”,均勻的硬幣就是給定引數θ=0.5 ,“拋20次15次正面”是觀測值O。求概率P(H=15|θ=0.5)=

[三]機器學習決策樹隨機森林

3.1 目標任務 1.學習決策樹和隨機森林的原理、特性 2.學習編寫構造決策樹的python程式碼 3.學習使用sklearn訓練決策樹和隨機森林,並使用工具進行決策樹視覺化 3.2 實驗資料 資料集:鳶尾花資料集,詳情見[機器學習之迴歸]的Logistic迴歸實驗 3.3

Unity3d學習路-牧師魔鬼V2(動作分離版)

Unity3d學習之路-牧師與魔鬼V2(動作分離版) 該版本改進的目的 把每個需要移動的遊戲物件的移動方法提取出來,建立一個動作管理器來管理不同的移動方法。 對於上一個版本,每一個可移動的遊戲物件的元件都有一個Move指令碼,當遊戲物件需要移動時