1. 程式人生 > >hadoop正式學習之redis---網路資料爬蟲

hadoop正式學習之redis---網路資料爬蟲

一:專案描述   該專案的主要目的是抓取京東、易迅、國美、蘇寧等電商網站的商品資訊。主要獲取商品的標題,價格以及規格引數等資訊,在前臺介面為使用者提供商品查詢和商品比價等功能,幫助使用者購買到物美價廉的商品。這個專案主要分為四個模組:頁面下載模組。頁面解析模組。解析內容儲存模組以及系統監控模組   1:頁面下載模組:主要負責爬取指定電商網站的資料,在這裡我們不能直接連上瀏覽器,所以我們使用httpclient工具模擬流浪器訪問頁面,從而對頁面進行下載   2:頁面解析模組:主要負責對抓取過來的資料進行解析 ,使用htmlcleaner工具和xpath規則來對關鍵性資料進行解析提取   3:解析資料儲存模組:主要負責對解析過後的關鍵性資料進行儲存,以便後期的使用。由於其中的商品詳細資訊資料量大,且改動較小,所以儲存到hbase中(由於這裡還沒有學習hbase先使用mysql)。我們需要迴圈抓取資料的時候,就需要對頁面url進行儲存,這一部分資料,資料量比較小、增刪頻繁並且我們要提高爬蟲的效率,對於這一部分資料,將之儲存到redis資料庫中。   4:系統監控模組:主要負責監控爬蟲的生命週期以及伺服器硬體的使用情況(運維人員的工作),監控爬蟲的生命週期使用zookeeper中的臨時節點來實現,監控伺服器硬體使用情況使用ganglia進行監控 二:專案實現   1:頁面下載模組
  2:頁面解析模組

  3:解析內容儲存
 4:系統監控