1. 程式人生 > >基於Lucene4.6+Solr4.6+Heritrix1.14+S2SH實戰開發從無到有垂直搜尋引擎

基於Lucene4.6+Solr4.6+Heritrix1.14+S2SH實戰開發從無到有垂直搜尋引擎

我這裡有個課程和大家分享,我的qq是2059055336。我放到你們郵箱裡。

。如下圖所示:

 

      整個課程 的最大特點是內容新穎全面而又通俗易懂。對於實際搜尋引擎所涉及的各種核心技術都有全面細緻的介紹,除了作為搜尋系統核心的網路爬蟲、索引系統、排序系統、連結分析及使用者分析外,還包括網頁反作弊、快取管理、網頁去重技術等實際搜尋引擎必須關注的技術,同時用相當大的篇幅講解了雲端計算與雲端儲存的核心技術原理及實現。

      整個課程的另一亮點是:整個專案的構建全部採用最新技術,包括但不限於以下技術:struts 2.3.16 +spring 4.0.1 +hibernate 4.3.1+jquery-easyui 1.3.5+lucene 4.6.0+solr 4.6.0+Heritrix1.14

並對其做了二次封裝。為了增進學員的理解,課程大量引入形象的圖片來講解演算法原理,相信讀者會發現原來搜尋引擎的核心技術理解起來比原先想象的要簡單得多。

      一、理論部分:

         2.1、搭建heritrix

            1.什麼是網路爬蟲

            2.網路爬蟲能做什麼

            3.Heritrix原理

            4.Heritrix搭建

         2.2、如何進行主題抓取

            1.什麼是主題抓取

            2.主題抓取的意義

            3.主題抓取的策略

            4.如何用heritrix進行主題抓取

         2.3、heritrix優化

           1. ELFHash演算法

           2.關於robot.txt

           3.將heritrix打包成工具

         2.4、解析html頁面

            1.java正則表示式

            2.基於模板獲取網頁內容

            3.利用htmlparser解析html

          2.5、中文分詞介紹

            1.Lucene自帶的分詞

            2.ICTCLAS

            3.IK

            4.利用機器學習的演算法識別中文文章中的領域詞

          2.6、網頁去重

            1.網頁去重的意義

            2.網頁去重的主要方法

            3.什麼是tf*idf

            4.基於指紋演算法的網頁去重

          2.7、Lucene4.6快速索引與搜尋

            1.如何用lucene建立索引

            2.如何用lucene搜尋結果

            3.Lucene中intfield怎麼搜尋

            4.Lucene的結果高亮顯示

          2.8、Lucene4.6索引的相關操作

            1.建立索引

            2.修改索引

            3.刪除索引

            4.索引優化

          2.9、Lucene4.6的query、及queryparser

            1.TermQuery 

            2.BooleanQuery

            3.TermRangeQuery

            4.NumericRangeQuery

            5.PrefixQuery

            6.PhraseQuery

            7.MultiPhraseQuery

            8.FuzzyQuery

            9.WildcardQuery

            10.queryparser

          2.10、Lucene的Filter及自定義排序

            1.Filter

            2.Lucene自帶排序及指定權重

            3.Lucene自定義排序

         2.11、Solr快速索引與搜尋

            1.什麼是solr

            2.為什麼工程中要使用solr

            3.Solr的原理

            4.如何在tomcat中執行solr

            5.如何利用solr進行索引與搜尋

         2.12、Solr的查詢及Filter

            1.solr的各種查詢

            2.solr的Filter

            3.solr的排序

            4.solr的高亮

         2.13、Solr的facet介紹

            1.solr的某個域統計

            2.solr的範圍統計

         2.14、Solrcloud叢集搭建

            1.zookeeper簡介

            2.solrcloud叢集搭建

         2.15、搜尋服務的工具封裝

            1.工廠模式

            2.封裝搜尋服務_lucene

            3.封裝搜尋服務_solr

            4.將lucene與solr封裝成可以配置的工具,可以支援任何業務系統

      二、專案部分:

         2.16、專案實戰

            1.專案需求分析及框架選擇

            2.Struts 2.3.16介紹

            3.Struts 2.3.16整合Spring 4.0.1

            4.Spring 4.0.1整合hibernate 4.3.1

            5.利用jquery-easyui 1.3.5 做後臺管理頁面

            6.Heritrix 在工程中的運用

            7.封裝好的搜尋框架在工程中的運用

            8.Flexpaper模仿百度文庫

            9.檔案上傳

            10.相關程式碼編寫

            11.搜尋結果優化

            12.專案總結

課程總目錄: