1. 程式人生 > >RuiJi Scraper 網頁視覺識別

RuiJi Scraper 網頁視覺識別

網頁設計師在設計網頁的過程中,往往會考慮頁面的視覺結構,這使得使用者可以快速分辨出網頁不同區域(RuiJi Scraper的資料塊,資料片,元資料就是基於此所定義)。在大多數的網頁中,頁面中的不同的區域會通過橫向或縱向佈局,佈局塊邊距等來達到視覺識別目的。以如下頁面為例:

從整體上來看,該頁面分為導航區,搜尋結果區,熱詞區。每個區域內還有區域劃分,例如搜尋結果區的每個搜尋結果還分為文字區和縮圖區。這種結構良好的頁面,通過視覺識別演算法可以將不同區域的內容自動識別出來。

下面我們來介紹RuiJi Scraper網頁視覺識別功能的使用。我們同樣也上面的頁面為例。

1.  首先開啟搜狗微信搜尋,搜尋任意關鍵詞,到搜尋結果頁面

2. 開啟RuiJi Scraper抽取面板,視覺識別位於公共選項卡第一項

這裡面的選項為過濾條件,視覺識別出的元素可能很多,我們只對其中一部分感興趣,選項的預設值所表示如下:

寬 : 顯示寬度在0畫素-1024畫素之間的Dom

高:顯示高度在0畫素-1024畫素之間的Dom

深度:Dom樹深度,顯示深度0-深度50

子塊:具有大於等於5的子塊

重組:根據class或path重組資料,適合部分結構不太良好的頁面

移除相同資料:如果某列識別出的資料完全一樣,該列將不再結果中展示

3. 點選識別按鈕

4. 觀察識別結果

這裡的5:0的意義為冒號前為深度,冒號後面為序號,深度可以用來重新設定深度過濾條件,序號僅是編號。

5. 點選識別出的區域上面的編號

6. 檢視識別結果

這看著有些擠,但是您可以將面板停靠在頁面下端來觀看抽取結果,或者直接使用匯出按鈕,匯出結果後檢視。