Lucene搜尋引擎+HDFS+MR完成垂直搜尋

阿新 • • 發佈：2019-01-23

  1 package org.liky.sina.craw;
  2 
  3 import java.util.ArrayList;
  4 import java.util.HashMap;
  5 import java.util.HashSet;
  6 import java.util.List;
  7 import java.util.Map;
  8 import java.util.Set;
  9 
 10 import org.apache.hadoop.conf.Configuration;
 11 import org.apache.hadoop.fs.FSDataOutputStream;
 
 12 import org.apache.hadoop.fs.FileSystem;
 13 import org.apache.hadoop.fs.Path;
 14 import org.jsoup.Jsoup;
 15 import org.jsoup.nodes.Document;
 16 import org.jsoup.nodes.Element;
 17 import org.jsoup.select.Elements;
 18 import org.liky.sina.dao.INewsDAO;
 19 import org.liky.sina.dbc.DataBaseConnection;
 
 20 import org.liky.sina.factory.DAOFactory;
 21 import org.liky.sina.vo.News;
 22 
 23 /**
 24  * 爬蟲開始進行資料庫操作以及HDFS寫入
 25  * 
 26  * @author k04
 27  * 
 28  */
 29 public class URLDemo {
 30     // 該物件的構造方法會預設載入hadoop中的兩個配置檔案，hdfs-site.xml和core-site.xml
 31     // 這兩個檔案包含訪問hdfs所需的引數值
 32     private static 
 Configuration conf = new Configuration();
 33 
 34     private static int id = 1;
 35 
 36     private static FileSystem fs;
 37 
 38     private static Path path;
 39 
 40     // 等待爬取的url
 41     private static List<String> allWaitUrl = new ArrayList<>();
 42     // 已經爬取的url
 43     private static Set<String> allOverUrl = new HashSet<>();
 44     // 記錄所有url的深度，以便在addUrl方法內判斷
 45     private static Map<String, Integer> allUrlDepth = new HashMap<>();
 46     // 爬取網頁的深度
 47     private static int maxDepth = 5;
 48     // 宣告object獨享幫助進行執行緒的等待操作
 49     private static Object obj = new Object();
 50     // 設定匯流排程數
 51     private static final int MAX_THREAD = 20;
 52     // 記錄空閒的執行緒數
 53     private static int count = 0;
 54 
 55     // 宣告INewsDAO物件，
 56     private static INewsDAO dao;
 57 
 58     static {
 59         dao = DAOFactory.getINewsDAOInstance(new DataBaseConnection());
 60     }
 61 
 62     public static void main(String args[]) {
 63         // 爬取的目標網址
 64         String strUrl = "http://news.sina.com.cn/";
 65 
 66         // 爬取第一個輸入的url
 67         addUrl(strUrl, 0);
 68         // 建立多個執行緒
 69         for (int i = 0; i < MAX_THREAD; i++) {
 70             new URLDemo().new MyThread().start();
 71         }
 72 
 73         // DataBaseConnection dc=new DataBaseConnection();
 74         // dc.getConnection();
 75 
 76     }
 77 
 78     public static void parseUrl(String strUrl, int depth) {
 79         // 先判斷當前url是否爬取過
 80         // 判斷深度是否符合要求
 81         if (!(allOverUrl.contains(strUrl) || depth > maxDepth)) {
 82             System.out.println("當前執行的  " + Thread.currentThread().getName()
 83                     + "  爬蟲執行緒處理爬取： " + strUrl);
 84 
 85             try {
 86                 // 用jsoup進行資料爬取
 87                 Document doc = Jsoup.connect(strUrl).get();
 88                 // 通過doc接受返回的結果
 89                 // 提取有效的title和description
 90                 String title = doc.title();
 91                 Element descE = doc.getElementsByAttributeValue("name",
 92                         "description").first();
 93                 String desc = descE.attr("content");
 94 
 95                 // System.out.println(title + " --> " + desc);
 96 
 97                 // 如果有效，則驚醒儲存
 98                 if (title != null && desc != null && !title.trim().equals("")
 99                         && !desc.trim().equals("")) {
100                     // 需要生成一個id，以便放入資料庫中，因此id也要加入到HDFS中，便於後續索引
101                     News news = new News();
102                     news.setId(id++);
103                     news.setTitle(title);
104                     news.setDescription(desc);
105                     news.setUrl(strUrl);
106                     // 新增到資料庫語句
107                     dao.doCreate(news);
108                     // 向HDFS儲存資料
109                     path = new Path("hdfs://localhost:9000/sina_news_input/"
110                             + System.currentTimeMillis() + ".txt");
111                     fs = path.getFileSystem(conf);
112                     FSDataOutputStream os = fs.create(path);
113                     // 進行內容輸出，此處需要用news.getId()，不然資料庫和HDFS的id會不相同，因為多執行緒的執行
114                     os.writeUTF(news.getId() + "\r\n" + title + "\r\n" + desc);
115                     os.close();
116 
117                     // 解析所有超連結
118                     Elements aEs = doc.getElementsByTag("a");
119                     // System.out.println(aEs);
120                     if (aEs != null && aEs.size() > 0) {
121                         for (Element aE : aEs) {
122                             String href = aE.attr("href");
123                             System.out.println(href);
124                             // 擷取網址，並給出篩選條件！！！
125                             if ((href.startsWith("http:") || href
126                                     .startsWith("https:"))
127                                     && href.contains("news.sina.com.cn")) {
128                                 // 呼叫addUrl()方法
129                                 addUrl(href, depth + 1);
130                             }
131                         }
132                     }
133 
134                 }
135 
136             } catch (Exception e) {
137 
138             }
139             // 吧當前爬完的url放入到偶爾中
140             allOverUrl.add(strUrl);
141             System.out.println(strUrl + "爬去完成，已經爬取的內容量為：" + allOverUrl.size()
142                     + "剩餘爬取量為：" + allWaitUrl.size());
143 
144             // 判斷是否集合中海油其他的內容需要進行爬取，如果有，則進行執行緒的喚醒
145             if (allWaitUrl.size() > 0) {
146                 synchronized (obj) {
147                     obj.notify();
148                 }
149             } else {
150                 System.out.println("爬取結束...");
151                 System.exit(0);
152             }
153 
154         }
155     }
156 
157     /**
158      * url加入到等待佇列中 並判斷是否已經放過，若沒有就放入allUrlDepth中
159      * 
160      * @param href
161      * @param depth
162      */
163     public static synchronized void addUrl(String href, int depth) {
164         // 將url放入佇列中
165         allWaitUrl.add(href);
166         // 判斷url是否已經存在
167         if (!allUrlDepth.containsKey(href)) {
168             allUrlDepth.put(href, depth + 1);
169         }
170     }
171 
172     /**
173      * 獲取等待佇列下一個url，並從等待佇列中移除
174      * 
175      * @return
176      */
177     public static synchronized String getUrl() {
178         if (allWaitUrl.size() > 0) {
179             String nextUrl = allWaitUrl.get(0);
180             allWaitUrl.remove(0);
181             return nextUrl;
182         }
183         return null;
184     }
185 
186     /**
187      * 用多執行緒進行url爬取
188      * 
189      * @author k04
190      * 
191      */
192     public class MyThread extends Thread {
193 
194         @Override
195         public void run() {
196             // 編寫一個死迴圈，以便執行緒可以一直存在
197             while (true) {
198                 //
199 
200                 String url = getUrl();
201                 if (url != null) {
202                     // 呼叫該方法爬取url的資料
203                     parseUrl(url, allUrlDepth.get(url));
204                 } else {
205                     System.out.println("當前執行緒準備就緒，等待連線爬取：" + this.getName());
206                     // 執行緒+1
207                     count++;
208                     // 建立一個物件，幫助執行緒進入等待狀態wait()
209                     synchronized (obj) {
210                         try {
211                             obj.wait();
212                         } catch (Exception e) {
213                             e.printStackTrace();
214                         }
215                         // 執行緒-1
216                         count--;
217                     }
218                 }
219             }
220         }
221 
222     }
223 
224 }

Lucene搜尋引擎+HDFS+MR完成垂直搜尋

1 package org.liky.sina.craw; 2 3 import java.util.ArrayList; 4 import java.util.HashMap; 5 import java.util.HashSet; 6 import java.util.List

Lucene搜尋引擎-搜尋

文章目錄搜尋API詳解 IndexReader 索引讀取器 IndexSearch 索引搜尋器查詢結果基本查詢詳解 TermQuery 詞項查詢 BooleanQuery 布林查詢 Ph

Lucene搜尋引擎-索引

文章目錄概念理解 IndexWriter詳解 Document詳解 Docement儲存 Field索引型別附加資訊Payloads 支援排序 Lucene所有欄位子類 Luke索引檢視工具

Lucene搜尋引擎-分詞器

文章目錄 Lucene初識適用場景特性 Lucene初識分詞器正向索引反向索引 Lucene自帶分詞器專案整合IKAnalyzer分詞器 IKAnalyze擴充套件

Lucene搜尋引擎(1)--Cygwin的安裝

本人使用Windows系統，為了使用Nutch搜尋引擎的Web爬蟲爬取網站頁面，需要給Windows系統安裝Linux開發環境以執行Nutch。而安裝Linux開發環境需要安裝Cywin。查了很多安裝教程，大多是使用163的映象網站下載的，但是實際操作過程中，發現連線不到該映象網站，不論是http://mir

垂直搜尋架構(爬蟲部分) ------垂直爬蟲

垂直爬蟲的程式碼實現比較簡單，主要是兩方面： 1. 限定url，一般是通過正則匹配 2.限定內容，比如列表頁面只要抓取詳細頁面的url，詳細頁面只要抓取特定內容，一般都是用css 選擇器或者xpath的庫取匹配內容垂直爬蟲的技術難點沒有全網爬出那麼多，主要要解決的是反爬的問題. 針對性的做

Lucene學習篇之高亮搜尋結果

前言： import org.apache.lucene.document.Document; import org.apache.lucene.index.DirectoryReader; import org.apache.lucene.index.IndexRe

HUE整合HDFS MR

HUE(HadoopUser Experience)管理工具HUE是一個開源的HadoopUl系統,它基於PythonWEB框架實現,通過使用HUE我們可以在瀏覽器端的Web控制檯上與Hadoop叢集進行互動來分析處理資料。官網下載頁面 http://gethue.com/catego

高效能搜尋引擎sphinx原始碼解析之搜尋過程和評分公式

技術交流qq群： 659201069sphinx搜尋(select)邏輯用輸入的查詢詞在索引檔案中挨個進行比較，找到滿足關係的文件的過程，並讀出文件，給每個檔案打分，最後打分完成後進行排序，隨後獲取到排

Hadoop原理（HDFS+MR+YARN）

一、HDFS原理1->HDFS 架構HDFS是一個分散式檔案系統。一個HDFS叢集主要由一個 NameNode ,一個Secondary NameNode 和多個 Datanode 組成：Namenode管理檔案系統的元資料，Datanode儲存資料。2->HDF

Nutch+Lucene搜尋引擎開發實踐

網路拓撲圖 1 網路拓撲圖安裝Java JDK 首先檢視系統是否已經安裝了其他版本的JDK，如果有，先要把其他版本的JDK解除安裝。用root使用者

【Lucene】Apache Lucene全文檢索引擎架構之搜尋功能

　　上一節主要總結了一下Lucene是如何構建索引的，這一節簡單總結一下Lucene中的搜尋功能。主要分為幾個部分，對特定項的搜尋；查詢表示式QueryParser的使用；指定數字範圍內搜尋；指定字串開

基於Lucene.Net包裝的傻瓜索引搜尋系統

最初做了一個快速搜尋的系統，但是改動很多，就考慮把這個系統給做成一個簡化的Lucene應用。把複雜的東西過濾掉，幫助只想應用的使用者相對輕鬆的應用Lucene快速搜尋。下載地址如下： http://download.csdn.net/detail/raykenio/42

Lucene.Net+盤古分詞實現搜尋 Quartz.Net(定時任務) 實現熱詞統計

一：Lucene.Net +盤古分詞實現搜尋功能 1 、Lucene.Net的配置：引入相關dll檔案（ Lucene.Net、log4net、PanGu、PanGu.HighLight、PanGu.Lucene.Analyzer）。當用戶新

大資料---hadoop生態圈之架構HDFS-MR-YARN原理圖彙總終極篇

1、HDFS架構原理圖Secondary Namenode流程圖HDFS寫流程官方HDFS架構圖副本存放策略各個元件概念和作業Namenode:儲存:檔案系統的名稱空間a.檔名稱;b.檔案目錄結構;c.檔案的屬性[許可權,建立時間,副本數];d.檔案對應哪些資料塊-->

《開發自己的搜尋引擎》讀書筆記——Lucene搜尋

使用IndexSearcher進行搜尋 Lucene搜尋相關的API多數都被包含在org.apache.lucene.search包中。其中，最重要的是IndexSearcher類。（1）、Ind

使用Lucene開發簡單的站內新聞搜尋引擎(搜尋結果的顯示)

前面已經可以查詢到資料，接下來就是資料的顯示。這裡就直接使用jsp+servlet簡單的顯示資料。前面三篇的地址：使用Lucene開發簡單的站內新聞搜尋引擎（環境的搭建）關於web專案的

Lucene+nutch構建垂直搜尋引擎

垂直搜尋是針對某一個行業的專業搜尋引擎，是搜尋引擎的細分和延伸，是對網頁庫中的某類專門的資訊進行一次整合，定向分欄位抽取出需要的資料進行處理後再以某種形式返回給使用者。垂直搜尋引擎和普通的網頁搜尋引擎的最大區

測試Hadoop hdfs 上傳與 mr

一個 nbsp 輸入 sco sha bin apr art 文檔 1.隨便在哪個目錄新增一個文檔。內容隨便輸入 mkdir words 2.在hdfs 中新建文件輸入目錄 ./hdfs dfs -mkdir /test 3.把新建的文檔 (/home/

【搜尋那些事】細談lucene（三）lucene核心API簡介

經過前面的簡單理論介紹，相信大家對搜尋引擎lucene有個簡單的瞭解。前面我們也提到過在lucene中主要包括索引和搜尋這兩大方面的元件。今天我們我們就通過一個簡單的例項來看一下lucene給我們提供的有關這兩個元件的簡單用法。一：建立索引在用lucene搜尋之前，我們首先要做的

Lucene搜尋引擎+HDFS+MR完成垂直搜尋

相關推薦