RuiJi Scraper 網頁視覺識別
阿新 • • 發佈:2018-11-20
網頁設計師在設計網頁的過程中,往往會考慮頁面的視覺結構,這使得使用者可以快速分辨出網頁不同區域(RuiJi Scraper的資料塊,資料片,元資料就是基於此所定義)。在大多數的網頁中,頁面中的不同的區域會通過橫向或縱向佈局,佈局塊邊距等來達到視覺識別目的。以如下頁面為例:
從整體上來看,該頁面分為導航區,搜尋結果區,熱詞區。每個區域內還有區域劃分,例如搜尋結果區的每個搜尋結果還分為文字區和縮圖區。這種結構良好的頁面,通過視覺識別演算法可以將不同區域的內容自動識別出來。
下面我們來介紹RuiJi Scraper網頁視覺識別功能的使用。我們同樣也上面的頁面為例。
1. 首先開啟搜狗微信搜尋,搜尋任意關鍵詞,到搜尋結果頁面
2. 開啟RuiJi Scraper抽取面板,視覺識別位於公共選項卡第一項
這裡面的選項為過濾條件,視覺識別出的元素可能很多,我們只對其中一部分感興趣,選項的預設值所表示如下:
寬 : 顯示寬度在0畫素-1024畫素之間的Dom
高:顯示高度在0畫素-1024畫素之間的Dom
深度:Dom樹深度,顯示深度0-深度50
子塊:具有大於等於5的子塊
重組:根據class或path重組資料,適合部分結構不太良好的頁面
移除相同資料:如果某列識別出的資料完全一樣,該列將不再結果中展示
3. 點選識別按鈕
4. 觀察識別結果
這裡的5:0的意義為冒號前為深度,冒號後面為序號,深度可以用來重新設定深度過濾條件,序號僅是編號。
5. 點選識別出的區域上面的編號
6. 檢視識別結果
這看著有些擠,但是您可以將面板停靠在頁面下端來觀看抽取結果,或者直接使用匯出按鈕,匯出結果後檢視。