學習筆記:從0開始學習大資料-29. solr增加ik中文分詞器並匯入doc，pdf文件全文檢索

阿新 • • 發佈：2018-12-17

環境 centos7,solr7.5.0

1. 新建core

從 solr-7.5.0/example/files/conf 作為配置檔案模板，建立core，名為mycore

2.下載分詞器

從https://search.maven.org/search?q=g:com.github.magese 下載 ik-analyzer-7.5.0.jar

複製到 solr-7.5.0/server/solr-webapp/webapp/WEB-INF/lib 目錄下

3. 修改 mycore/conf/managed-schema 檔案，增加：

<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf"/> <filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" conf="ik.conf"/> <filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>

並修改，原來的 text_simple 修改為新增的text_ik 即指定用新的分詞器去對這幾個欄位內容分詞。文字內容根據設定可儲存在索引庫，也可以不儲存。

4.修改 mycore/conf/tika-data-config.xml 檔案全文：

</entity>
</entity>
</document>
</dataConfig>

注意 filename匹配或萬用字元指定掃描的檔案型別，baseDir="${solr.install.dir}/example/exampledocs" 這個指定要匯入的檔案存放位置。

5. 測試

6.匯入doc文件

把要匯入的文件存放在指定目錄，然後執行匯入

7. 查詢檢查匯入資料

學習筆記:從0開始學習大資料-29. solr增加ik中文分詞器並匯入doc，pdf文件全文檢索

學習筆記:從0開始學習大資料-29. solr增加ik中文分詞器並匯入doc，pdf文件全文檢索

學習筆記:從0開始學習大資料-20. 機器學習spark ml演算法庫應用練習

學習筆記:從0開始學習大資料-19. storm開發及執行環境部署

學習筆記:從0開始學習大資料-18.kettle安裝使用

學習筆記:從0開始學習大資料-17.Redis安裝及使用

學習筆記:從0開始學習大資料-16. kafka安裝及使用

學習筆記:從0開始學習大資料-15. Flume安裝及使用

學習筆記:從0開始學習大資料-14. java spark程式設計實踐

學習筆記:從0開始學習大資料-13. Eclipse+Scala+Maven Spark開發環境配置

學習筆記:從0開始學習大資料-12. spark安裝部署

學習筆記:從0開始學習大資料-11. sqoop安裝部署

學習筆記:從0開始學習大資料-10. hive安裝部署

學習筆記:從0開始學習大資料-9. MapReduce讀並寫Hbase資料

學習筆記:從0開始學習大資料-8.直接在Eclipse配置執行MapReduce程式

學習筆記:從0開始學習大資料-7.hbase java程式設計hello world

學習筆記:從0開始學習大資料-6.hbase安裝

學習筆記:從0開始學習大資料-5.hadoop hdfs檔案讀寫api操作

學習筆記:從0開始學習大資料-4.Eclipse配置hadoop開發環境

學習筆記:從0開始學習大資料-3.Eclipse安裝

學習筆記:從0開始學習大資料-2.hadoop安裝

學習筆記:從0開始學習大資料-29. solr增加ik中文分詞器並匯入doc，pdf文件全文檢索

相關推薦