java課程設計團隊(搜索引擎)

阿新 • • 發佈：2018-01-25

plc 簡介 mpi hasclass findall image doc style agen

JAVA課程設計

基於學院網站的搜索引擎

對學院網站進行抓取、建索（需要中文分詞）、排序（可選）、搜索、摘要顯示。可以是GUI界面，也可以是Web界面。

一、團隊介紹

學號	班級	姓名	簡介
201621123049	網絡1612	[組長]袁德興	熱衷於網絡安全
201621123047	網絡1612	陳芳毅	有思想，有深度，有能力
201621044079	網絡1612	韓燁	學習力強，人稱韓可愛
201621123055	網絡1612	劉兵	人稱五社區發哥，動手能力強
201621123054	網絡1612	張晨曦	掌管學校所有社團，足球一級6

二、項目git地址

碼雲地址

三、項目git提交記錄截圖

技術分享圖片

四、項目主要使用技術

Httplcient

Jsoup

多線程

數據庫dao模式

IKAnanyzer

Lucene

Javascript /jQuery

Bootstrap

Web

五、項目其余特點

容錯處理完善

界面美觀

有配置文件

數據量大的時候查詢速度依舊快

六、項目功能架構圖與主要功能流程圖

技術分享圖片

七、項目運行截圖

技術分享圖片

八、項目關鍵代碼

        try {
            Document doc=Jsoup.connect("http://cec.jmu.edu.cn/").get();
            Elements links = doc.select(".menu0_0_");  
            for (Element link : links) {  
                lis1.add(oriurl+link.attr("href"));
            }  
        } catch (IOException e1) {
            e1.printStackTrace();
        }

      try {
            CloseableHttpResponse response = httpClient.execute(httpget, context);
            try {
                HttpEntity entity = response.getEntity();
                Document doc=Jsoup.parse(EntityUtils.toString(entity,"utf8"));
                Elements links=doc.select(".c124907");    
                for (Element link : links) {  
                    lis1.add(url +link.attr("href"));
                }   
                String pattern ="\\?a2t=([0-9]{1,})&a2p=[0-9]{1,}&a2c=10&urltype=tree.TreeTempUrl&wbtreeid=([0-9]{1,})";  
                Elements links1=doc.select("a[href]"); 
                for (Element link1 : links1) {
                    String line=link1.attr("href");
                    Pattern r = Pattern.compile(pattern);
                    Matcher m = r.matcher(line);
                    int i=0;
                    if (m.find( )) {
//                       System.out.println("Found value: " + m.group(0) );
                        int j=Integer.parseInt(m.group(1));
                        if(j>7){
                            for(int k=1;k<j+1;k++){
                                lis.add("?a2t="+String.valueOf(j)+"&a2p="+String.valueOf(k)+"&a2c=10&urltype=tree.TreeTempUrl&wbtreeid="+m.group(2));
                                }
                            }
                        else{
                        lis.add(m.group(0));
                        }

       CloseableHttpResponse response = httpClient.execute(httpget, context);
            try {
                HttpEntity entity = response.getEntity();
                Document doc=Jsoup.parse(EntityUtils.toString(entity,"utf8"));
                Elements links=doc.select(".c124907");    
                for (Element link : links) {         
                    lis.add(link.attr("href"));
                    
                }

            try {
                HttpEntity entity = response.getEntity();
                Document doc=Jsoup.parse(EntityUtils.toString(entity,"utf8"));
                String title = doc.select(".contentstyle124904").text();

 Crawl crawl=new Crawl(httpget.getURI().toString(),doc.title().toString(),title);
                CrawlDaoImpl test=new CrawlDaoImpl();
                try {
                    if(bool){
                    test.add(crawl);
                    System.out.println(httpget.toString()+"添加成功");
                    }
                    
                    else{
                        System.out.println("添加失敗");

jdbc.url=jdbc:mysql://localhost:3306/test
jdbc.username=root
jdbc.password=root
jdbc.driver=com.mysql.jdbc.Driver

    @Override
    public Crawl findById(int id) throws SQLException {
        Connection conn = null;
        PreparedStatement ps = null;
        ResultSet rs = null;
        Crawl p = null;
        String sql = "select url,abs,description from crawl where id=?";
        try{
            conn = DBUtils.getConnection();
            ps = conn.prepareStatement(sql);
            ps.setInt(1, id);
            rs = ps.executeQuery();
            if(rs.next()){
                p = new Crawl();
                p.setId(id);
                p.setUrl(rs.getString(1));
                p.setAbs(rs.getString(2));
                p.setDescription(rs.getString(3));
            }
        }catch(SQLException e){
            e.printStackTrace();
            throw new SQLException("*");
        }finally{
            DBUtils.close(rs, ps, conn);
        }
        return p;
    }

public class IndexManager {
    @Test
    public void createIndex() throws Exception {
        // 采集數據
        CrawlDao dao = new CrawlDaoImpl();
        List<Crawl> list = dao.findAll();
        // 將采集到的數據封裝到Document對象中
        List<Document> docList = new ArrayList();
        Document document;
        for (Crawl crawl : list) {
            document = new Document();
            // store:如果是yes，則說明存儲到文檔域中
            Field id = new IntField("id", crawl.getId(), Store.YES);
            Field url = new StoredField("url", crawl.getUrl());
            Field abs = new StoredField("abs", crawl.getAbs());
            Field description = new TextField("description",
                    crawl.getDescription(), Store.YES);
            document.add(id);
            document.add(url);
            document.add(abs);
            document.add(description);
            docList.add(document);
        }
        // 創建分詞器，標準分詞器
        // Analyzer analyzer = new StandardAnalyzer();
        // 使用ikanalyzer
        Analyzer analyzer = new IKAnalyzer();
        // 創建IndexWriter
        IndexWriterConfig cfg = new IndexWriterConfig(Version.LUCENE_4_10_3,
                analyzer);
        // 指定索引庫的地址
        File indexFile = new File("C:\\test1\\aaa\\");
        Directory directory = FSDirectory.open(indexFile);
        IndexWriter writer = new IndexWriter(directory, cfg);
        // 通過IndexWriter對象將Document寫入到索引庫中
        for (Document doc : docList) {
            writer.addDocument(doc);
        }
        writer.close();
    }

public class IndexSearch {
    
    List<Crawl> lis1=new ArrayList();
    public List doSearch(Query query) throws InvalidTokenOffsetsException {
        // 創建IndexSearcher
        // 指定索引庫的地址
        try {
            File indexFile = new File("C:\\test1\\aaa\\");
            Directory directory = FSDirectory.open(indexFile);
            IndexReader reader = DirectoryReader.open(directory);
            IndexSearcher searcher = new IndexSearcher(reader);
            // 通過searcher來搜索索引庫
            // 第二個參數：指定需要顯示的頂部記錄的N條
            TopDocs topDocs = searcher.search(query, 20);
            // 根據查詢條件匹配出的記錄總數
            int count = topDocs.totalHits;
//          ScoreDoc[] scoreDocs = topDocs.scoreDocs;
            String filed="description";  
//          TopDocs top=searcher.search(query, 100);  
            QueryScorer score=new QueryScorer(query,filed);//傳入評分  
            SimpleHTMLFormatter fors=new SimpleHTMLFormatter("<span style=\"color:red;\">", "</span>");//定制高亮標簽  
            Highlighter  highlighter=new Highlighter(fors,score);//高亮分析器  
//           highlighter.setMaxDocCharsToAnalyze(10);//設置高亮處理的字符個數  
            for(ScoreDoc sd:topDocs.scoreDocs){  
                Document doc=searcher.doc(sd.doc);  
                String description=doc.get(filed);  
           //Lucene中分詞的所有信息我們都可以從TokenStream流中獲取.  
                TokenStream token=TokenSources.getAnyTokenStream(searcher.getIndexReader(), sd.doc, "description", new IKAnalyzer(true));//獲取tokenstream  
                Fragmenter  fragment=new SimpleSpanFragmenter(score);  //根據這個評分新建一個對象     
                highlighter.setTextFragmenter(fragment);  //必須選取最合適的    
                highlighter.setTextFragmenter(new SimpleFragmenter());//設置每次返回的字符數 
                String str=highlighter.getBestFragment(token, description);//獲取高亮的片段，可以對其數量進行限制  
                Crawl crawl = new Crawl();
                crawl.setDescription(str);
                crawl.setAbs(doc.get("abs"));
                crawl.setUrl(doc.get("url"));
                lis1.add(crawl);
            }       
            reader.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return lis1;
        
    }

<div id="test"> <img src="./img/logo.png" height="300" width="250"/></div>

    <form action="./query2.jsp" method="GET">
        <div class="search-wrapper">
            <div class="input-holder">
                <input type="text" class="search-input" placeholder="" name="name"/>
                <button class="search-icon" onclick="searchToggle(this, event);"><span></span></button>
            </div>
            <span class="close" onclick="searchToggle(this, event);"></span>
            <div class="result-container">

            </div>
        </div>
    </form>

<script src="js/jquery-1.11.0.min.js" type="text/javascript"></script>
<script type="text/javascript">
    function searchToggle(obj, evt){
        var container = $(obj).closest('.search-wrapper');

        if(!container.hasClass('active')){
              container.addClass('active');
              evt.preventDefault();
        }
        else if(container.hasClass('active') && $(obj).closest('.input-holder').length == 0){
              container.removeClass('active');
        
              container.find('.search-input').val('');
        
              container.find('.result-container').fadeOut(100, function(){$(this).empty();});
        }
    }

    function submitFn(obj, evt){
        value = $(obj).find('.search-input').val().trim();

        _html = "Yup yup! Your search text sounds like this: ";
        if(!value.length){
            _html = "Yup yup! Add some text friend :D";
        }
        else{
            _html += "<b>" + value + "</b>";
        }

        $(obj).find('.result-container').html('<span>' + _html + '</span>');
        $(obj).find('.result-container').fadeIn(100);

        evt.preventDefault();
    }
</script>

<script type="text/javascript">


$(function(){
    var Count = "<%=i %>";//記錄條數
    var tmp = "<%=test %>";
    var PageSize=5;//設置每頁示數目
    var PageCount=Math.ceil(Count/PageSize);//計算總頁數
    var currentPage =1;//當前頁，默認為1。
    //造個簡單的分頁按鈕
    for(var i=1;i<=PageCount;i++){
        if(PageCount==1){
        }//如果頁數為1的話，那麽我們就是不分頁

        else{
        var pageN='<li style=\"font-size:30px\"><a href="?name='+tmp+'&a='+i+'">'+i+'</a></li>';
        
        $('.pagination').append(pageN);
    }

    }
    
    //顯示默認頁（第一頁）

});  
</script>

<%

String d =request.getParameter("a");    
//out.print(d+"<br>");
int b=0;
int k=0;
if(i!=0&&d==null){
    for(Crawl crawl: lis){
        if(5>k&&k>=0){
            out.print("<h3><p class=\"text-center\"><a href=\""+crawl.getUrl()+"\">"+crawl.getAbs()+"</a></p></h3>"); 
            out.print("<p class=\"text-center\">"+crawl.getDescription()+"<br>");  
            out.print("<br>");
        }
        k=k+1;
    }
    
    
}
else{
if(d!=null){
int c=Integer.valueOf(d);
//out.print(c);
for(Crawl crawl: lis){
    if(c*5>b&&b>=(c-1)*5){
        if(crawl.getDescription()==null){
            out.print("");
        }
        else{
            out.print("<h3><p class=\"text-center\"><a href=\""+crawl.getUrl()+"\">"+crawl.getAbs()+"</a></p></h3>"); 
            out.print("<p class=\"text-center\">"+crawl.getDescription()+"<br>"); 
        out.print("<br>");

        }
    }
    b=b+1;  
}
}
}
%>

尚待改進或者新的想法

變量的命名不太規範

可以嘗試著去做一個只有修改部分參數，就可以去爬取別的網站的搜索引擎

團隊成員任務分配

姓名	任務
袁德興	利用Lucene和IKanalyzer進行檢索，部分前後端內容與模塊銜接
陳芳毅	采用httpclient和jsoup，進行爬取和解析，部分數據庫內容
韓燁	采用數據庫的dao模式將jsoup解析後的內容進行存儲，部分前端和logo的設計
劉兵	采用bootstrap和jsp等進行前端界面的設計和後端代碼實現
張晨曦	采用jquery和jsp等進行前端界面的設計和後端代碼的實現

java課程設計團隊(搜索引擎)

plc 簡介 mpi hasclass findall image doc style agen JAVA課程設計基於學院網站的搜索引擎對學院網站進行抓取、建索（需要中文分詞）、排序（可選）、搜索、摘要顯示。可以是GUI界面，也可以是Web界面。一、團隊介紹學

簡易全文搜索引擎設計

blog family 目前基於簡單的 python 結巴 bsp 思路　　最近利用空閑時間實現了一個簡易的全文搜索引擎，主要是把學的東西練一下手，目前支持簡單的單詞搜索和基於用戶點擊實學習。其他部分還在繼續開發（本文主要用以記錄設計思路，完整代碼等主要的做出來提交。

Java搜索引擎選擇： Elasticsearch與Solr（轉）

文件格式 article base 使用社區 run 穩定 tails 定制 Elasticsearch簡介 Elasticsearch是一個實時的分布式搜索和分析引擎。它可以幫助你用前所未有的速度去處理大規模數據。它可以用於全文搜索，結構化搜索以及分析，當然你也可

基於Lucene框架的“虎撲籃球”網站搜索引擎（java版）

writer 用戶源碼 static 數組 head 完整需求 ash 　1 引言本次作業完成了基於Lucene的“虎撲籃球”網站搜索引擎，對其主要三個板塊---“最新新聞”（主要NBA新聞），“虎撲步行街”（類似貼吧性質），“虎撲濕乎乎”（籃球發帖區）進行頁

9個基於Java的搜索引擎框架

rail 最小 detail 適合 light 註意 ssa 並且 pro 轉自：http://blog.csdn.net/xiaomin1991222/article/details/50980573 1、Java 全文搜索引擎框架 Lucene 毫無疑問，Lucene是

軟件需求工程與建模--搜索引擎項目--設計文檔

挖掘規模優化 tor 第一章計算圖書 crawl 說明書第一章緒論　　一. 搜索引擎出現的背景及意義　　網絡的出現以及發展對於世界發展的意義是極其重要的，它讓地球村的理念變成的現實，信息的傳輸不再受到時間和空間的限制。　　隨著網絡技術和應用的不

商品搜索引擎---推薦系統設計

億級資料的高併發通用搜索引擎架構設計

[文章作者：張宴本文版本：v1.0 最後修改：2008.12.09 轉載請註明原文連結：http://blog.s135.com/post/385/]　　曾經在七月，寫過一篇文章──《基於Sphinx+MySQL的千萬級資料全文檢索（搜尋引擎）架構設計》，前公司的分類資訊搜

php全文搜索引擎xunsearch的搭建

php 搜索引擎 sunsearch 關鍵詞匹配 1.運行下面指令下載、解壓安裝包wget http://www.xunsearch.com/download/xunsearch-full-latest.tar.bz2 tar -xjf xunsearch-full-latest.ta

一般人都不知道的功能強大的超級搜索引擎！！！！

div 不同 watermark search 引擎 cor 百度 bsp server 百度的中文搜索非常的好。Google的搜索引擎支持非常多種語言。速度也非常快，據說有8000多臺server來支撐搜索。可是有時候域名解析不是特別的穩定。並且我們發現用同一個key

為Android開發人員定制的搜索引擎

tex tps targe overflow south nts over csdn git 我在谷歌上定制了一個專門針對Android開發人員的搜索引擎。載入慢的童鞋考慮FanQiang吧，作為技術人員使用Google才是王道。在此推薦給大家：Android搜索引擎

什麽樣的網站更受搜索引擎青睞

在網站建設中，怎樣使網站排名靠前，得到百度等搜索引擎的青睞，是很多網站建設推廣者絞盡腦汁費盡心思要做的事情。下面，億豐科技就跟大家分析一下，究竟什麽樣的網站，才能更受搜索引擎的青睞。要想建設一個受搜索引擎青睞的網站，首先網站的主題必須足夠鮮明。這樣才能方便用戶們快速地找到自己想要的信息，進

如何將搜索引擎嵌入到頁面

car bbs 嵌入索引搜索 read -1 thread 1-1 Linux%E4%B8%8B%E4%BD%BF%E7%94%A8OpenSSL%E5%AE%9E%E7%8E%B0RSA%E9%9D%9E%E5%AF%B9%E7%A7%B0%E5%8A%A0%E5%A

什麽樣的網站才能讓搜索引擎喜歡？

切割一次時間級別垃圾網站模板最好影響運營要做好一個網站，更多的重心而不是網站有多麽好，而是網站的運營、網站的seo優化、網站的推廣有沒有做好。對於一個網站的發展來講，怎麽做好這一系列的工作才是最為重要的。搜索引擎都喜歡什麽樣的網站？怎麽樣做才能讓搜索引擎愛

ElasticSearch5.4.1 搜索引擎搭建文檔

ase ping 重啟 pil use 世界 analyzer 連接 col 安裝配置JDK環境JDK安裝（不能安裝JRE）JDK下載地址：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downl

搜索引擎ElasticSearch系列（四）： ElasticSearch2.4.4 sql插件安裝

china code als 插件技術分享 -s fun nlp 4.0 一：ElasticSearch sql插件簡介　　With this plugin you can query elasticsearch using familiar SQL syntax.

學習用Node.js和Elasticsearch構建搜索引擎（6）：實際項目中常用命令使用記錄

nds 黃色 ati cat htm action last shard open 1、檢測集群是否健康。 curl -XGET ‘localhost:9200/_cat/health?v‘#後面加一個v表示讓輸出內容表格顯示表頭綠色表示一切正常，黃色表示所有

2-1 搜索引擎與目錄

搜索引擎 hao123 搜索關鍵詞數據庫輸入關鍵詞一、二者的含義1、搜索引擎真正的搜索引擎指的是由蜘蛛程序沿著鏈接爬行和抓取網上的大量頁面，存進數據庫，經過預處理，用戶在搜索框輸入關鍵詞後，搜索引擎排序程序從數據庫中挑選出符合搜索關鍵詞要求的頁面。蜘蛛的爬行、頁面的收錄及排序都是自動

2-2 搜索引擎工作原理簡介

搜索引擎搜索結果工作原理數據庫搜索引擎的工作過程大體上可以分成三個階段：1、爬行和抓取：搜索引擎蜘蛛通過跟蹤鏈接訪問網頁，獲得頁面HTML代碼存入數據庫。（1）蜘蛛（2）跟蹤鏈接（3）吸引蜘蛛（4）地址庫（5）文件存儲（6）爬行時的復制內容檢測2、預處理：索引程序對抓取來的頁面數據進行

理性的認識和使用搜索引擎進行網的推廣

購物客戶不同的如果建設們的有一個引擎分析網站分不同的類型，對搜索引擎的使用也是不一樣的。如果我們建立的是門戶網站，或者是給客戶提供服務的網站，前期通過搜索引擎進行推廣的目的是，讓客戶找到我們的，並且記住的網站域名，便於以後直接進入我們的網站，

java課程設計團隊(搜索引擎)

JAVA課程設計

基於學院網站的搜索引擎

對學院網站進行抓取、建索（需要中文分詞）、排序（可選）、搜索、摘要顯示。可以是GUI界面，也可以是Web界面。

一、團隊介紹

學號

班級

姓名

簡介

201621123049

網絡1612

[組長]袁德興

熱衷於網絡安全

201621123047

網絡1612

陳芳毅

有思想，有深度 ，有能力

201621044079

網絡1612

韓燁

學習力強，人稱韓可愛

201621123055

網絡1612

劉兵

人稱五社區發哥，動手能力強

201621123054

網絡1612

張晨曦

掌管學校所有社團，足球一級6

二、項目git地址

碼雲地址

三、項目git提交記錄截圖

四、項目主要使用技術

Httplcient

Jsoup

多線程

數據庫dao模式

IKAnanyzer

Lucene

Javascript /jQuery

Bootstrap

Web

五、項目其余特點

容錯處理完善

界面美觀

有配置文件

數據量大的時候查詢速度依舊快

六、項目功能架構圖與主要功能流程圖

七、項目運行截圖

八、項目關鍵代碼

尚待改進或者新的想法

變量的命名不太規範

可以嘗試著去做一個只有修改部分參數，就可以去爬取別的網站的搜索引擎

團隊成員任務分配

姓名

任務

袁德興

利用Lucene和IKanalyzer進行檢索，部分前後端內容與模塊銜接

陳芳毅

采用httpclient和jsoup，進行爬取和解析，部分數據庫內容

韓燁

采用數據庫的dao模式將jsoup解析後的內容進行存儲，部分前端和logo的設計

劉兵

采用bootstrap和jsp等進行前端界面的設計和後端代碼實現

張晨曦

采用jquery和jsp等進行前端界面的設計和後端代碼的實現

相關推薦

有思想，有深度，有能力