hadoop正式學習之redis---網路資料爬蟲

阿新 • • 發佈：2019-02-08

一：專案描述該專案的主要目的是抓取京東、易迅、國美、蘇寧等電商網站的商品資訊。主要獲取商品的標題，價格以及規格引數等資訊，在前臺介面為使用者提供商品查詢和商品比價等功能，幫助使用者購買到物美價廉的商品。這個專案主要分為四個模組：頁面下載模組。頁面解析模組。解析內容儲存模組以及系統監控模組 1：頁面下載模組：主要負責爬取指定電商網站的資料，在這裡我們不能直接連上瀏覽器，所以我們使用httpclient工具模擬流浪器訪問頁面，從而對頁面進行下載 2：頁面解析模組：主要負責對抓取過來的資料進行解析，使用htmlcleaner工具和xpath規則來對關鍵性資料進行解析提取 3：解析資料儲存模組：主要負責對解析過後的關鍵性資料進行儲存，以便後期的使用。由於其中的商品詳細資訊資料量大，且改動較小，所以儲存到hbase中（由於這裡還沒有學習hbase先使用mysql）。我們需要迴圈抓取資料的時候，就需要對頁面url進行儲存，這一部分資料，資料量比較小、增刪頻繁並且我們要提高爬蟲的效率，對於這一部分資料，將之儲存到redis資料庫中。 4：系統監控模組：主要負責監控爬蟲的生命週期以及伺服器硬體的使用情況（運維人員的工作），監控爬蟲的生命週期使用zookeeper中的臨時節點來實現，監控伺服器硬體使用情況使用ganglia進行監控二：專案實現 1：頁面下載模組

2：頁面解析模組

3：解析內容儲存

4：系統監控

hadoop正式學習之redis---網路資料爬蟲

hadoop正式學習之redis---網路資料爬蟲

Redis學習筆記之Redis基本資料結構

Nosql學習之Redis資料（一）

深度學習之影象的資料增強方法彙總

深度學習之批量圖片資料增強

三十七、python學習之Redis資料庫

深度學習之影象的資料增強

如何學習爬蟲,我的爬蟲學習之路,怎樣學好爬蟲的,爬蟲認知篇（1）

React學習之旅----迴圈資料

C++學習之統計二進位制資料1的個數

python學習之路-基本資料型別1 變數的概念、數字、字串

深度學習之神經網路（CNN/RNN/GAN）演算法原理+實戰目前最新

Flutter學習之Dart基礎資料型別

Python基礎學習之常用六大資料型別

深度學習之(神經網路)單層感知器（python）（一）

機器學習之神經網路及python實現

機器學習之神經網路：離線安裝tensorflow

系統學習機器學習之神經網路（十一） --TDNN

詳解深度學習之經典網路架構（十）：九大框架彙總

Spring系列學習之Spring Data 資料訪問介紹

hadoop正式學習之redis---網路資料爬蟲

相關推薦