1. 程式人生 > >輿情繫統設計方案

輿情繫統設計方案

1.爬蟲抓取環節

需要解析來源很多種類的不同網站,每個網站所需要抓取資訊的html,css格式大不相同,這個時候需要構造一個通用模版類來解析一部分網站模版的需求,然後再構造一個獨立解析的後臺系統供編輯使用建立需要解析的模版,然後爬蟲系統自動讀取後臺要解析的獨立模版來解析對應的網站內容

2.爬蟲監控環節

監控環節包括監控每個種類每個爬蟲抓取的資料量,以及監控爬蟲的錯誤日誌資訊,部分問題可採用自動糾錯機制來解決。監控環節還需要增加預警機制,對於未抓取到的資料爬蟲和出現當天大量抓取資料的爬蟲進行實時預警來通知開發人員檢視

3.清洗環節

清洗環節基本要做的內容主要是將垃圾資訊過濾,重複資訊刪除,相同資訊合併,敏感資訊標敏等等。清洗環節在整個資料彙總層面當然也少不了對該程式的監控預警等功能

4.分析環節

分析環節應該是在整個系統當中最需要注重穩定和效率的環節,因為分析的結果和效率是使用者可看的,整個資料的結果集也是相當重要。首先通過搜尋引擎的搜尋對資料進行分析固化,分析結果為空的要進行糾錯或重試處理,錯誤日誌收集,失敗請求次數收集,分析資料量收集,使用者關鍵字收集等操作來建設更穩定的系統設計方案

以上內容主要是想表達系統監控,自動糾錯,日誌收集在整個系統環節都有舉足輕重的地位