1. 程式人生 > >前嗅ForeSpider教程:采集需要登陸的網頁內容

前嗅ForeSpider教程:采集需要登陸的網頁內容

需要 網頁跳轉 ref 進入 軟件 dba 問題 htm bbs

第一步:新建任務
①點擊左上角“加號”新建任務,如圖1:
技術分享圖片
【圖1】
②彈窗裏填寫采集地址,任務名稱,開啟手動登錄配置,如圖2:
技術分享圖片
【圖2】
若未在此處開啟登錄配置,可在模板抽取配置中點擊相應的模板,開啟登錄配置,如圖3。
技術分享圖片
【圖3】
③點擊下一步,選擇進行數據抽取還是鏈接抽取,本次采集列表下的正文數據,所以本次需要抽取內容選擇鏈接列表,所以點擊抽取鏈接,選擇鏈接列表,如圖4:

技術分享圖片
【圖4】
④完成後模板抽取配置列表有兩個模板,默認模板和子欄目。默認模板下自動生成一個鏈接抽取,名稱為鏈接列表,此鏈接抽取已與鏈接列表模板關聯,如圖5:
技術分享圖片
【圖5】
第二步:配置登錄
① 內置瀏覽器找到登錄按鈕,彈出登錄框,如圖6:
技術分享圖片
【圖6】
②按Ctrl+鼠標左鍵單擊“用戶名輸入框”,如圖7。

技術分享圖片
【圖7】
③.填寫用戶名、密碼,如圖8。
技術分享圖片
【圖8】
④.點擊“完成”,cookie配置框中出現數據,按Ctrl+鼠標左鍵單擊“登錄按鈕”,內置瀏覽器頁面登錄成功,配置完成,如圖9。
技術分享圖片

【圖9】
第三步:通過地址過濾,得到所需鏈接。
①點擊采集預覽,在采集預覽中有於目標鏈接相似的其他鏈接,可通過地址過濾得到列表鏈接。找到所需要的列表鏈接,觀察得出所需要的目標鏈接都包含“thread-”,右擊復制鏈接,如圖10所示。
技術分享圖片
【圖10】
②勾選地址過濾,過濾規則選擇包含,填入“thread-”,得到列表鏈接,如圖11所示。

技術分享圖片
【圖11】
③點擊采集預覽確認鏈接是否過濾完全,如圖12
技術分享圖片

【圖12】
第四步:關聯模板
在軟件中模板的關聯關系,與網頁中鏈接跳轉的關系相同。

根據網頁跳轉規律,將“鏈接列表”關聯模板二“鏈接列表:02”,此處由於我們開始就選擇了創建列表鏈接,所以軟件自動關聯好了模板二。如果配置的時候發現關聯有問題,可以自己進行更改,如圖13
技術分享圖片
【圖13】
第五步:創建翻頁鏈接抽取
方法一:創建任務,勾選鏈接抽取,直接選擇鏈接列表和普通翻頁,如圖14。
技術分享圖片
【圖14】
方法二:如果創建任務時,只勾選了鏈接列表,可以點擊上一步,回到模板層,補選翻頁鏈接抽取,點擊下一步,創建翻頁鏈接。
方法三:直接點擊模板二,點擊上面“新建鏈接抽取” 按鈕,得到鏈接抽取,並重名命為翻頁鏈接抽取,如圖15。
技術分享圖片
【圖15】
第六步:通過地址過濾,得到所需翻頁鏈接。
①右擊模板預覽找到翻頁鏈接,如圖16所示。觀察鏈接得出規律使用“page=”得到目標鏈接。
技術分享圖片

【圖16】
②勾選地址過濾,過濾規則選擇包含,將復制的目標地址粘入,使用共用詞“page=”過濾得到目標鏈接,如圖17。
技術分享圖片
【圖17】
③點擊采集預覽確認鏈接是否過濾完全,如圖18
技術分享圖片
【圖18】
④關聯“翻頁”
情況一:創建模板或通過向導,創建的翻頁鏈接抽取,會默認關聯模板一,即當前頁模板,如圖19。
情況二:手動點擊按鈕創建翻頁鏈接抽取,需要手動關聯
技術分享圖片
【圖19】
第七步:填寫模板示例地址並新建數據抽取
①將模板一過濾得到的任意一條鏈接,作為鏈接列表模板的示例地址。如:https://bbs.360.cn/thread-15646770-1-1.html, 見圖20:
技術分享圖片
【圖20】
②新建數據抽取。直接點擊鏈接列表,點擊上面“新建數據抽取” 按鈕,得到數據抽取,如圖21。
技術分享圖片
【圖21】
第八步:創建/選擇表單
①在ForeSpider爬蟲中,表單是可以復用的,所以可以在數據表單出直接選擇之前建過的表單,也可以通過表單ID來進行查找並關聯數據表單。此處使用的方法三,如圖22。
方法一:通過下拉菜單或表單ID選擇已有表單
方法二:點擊創建表單進入快速建表頁面,新建表單
方法三:點擊“采集配置”-“數據建表”,點擊采“采集表單”後面的 如圖22。

技術分享圖片
【圖22】
②配置表單
根據所需內容,配置表單字段(即表頭),此處配置了包括網頁主鍵、發布時間、正文內,網頁標題以及網頁地址五個字段,表單如圖23。
技術分享圖片
【圖23】
③數據抽取鏈接處關聯表單,如圖24。
技術分享圖片
【圖24】
第九步:字段取值
①取值方法:按住Ctrl+鼠標左鍵,進行區域選擇,按住Shift+鼠標左鍵,擴大選擇區域。
pub_time、content字段,如圖25、圖26:
技術分享圖片
【圖25】
技術分享圖片
【圖26】
②點擊采集預覽確數據是否采集完全,如圖27:
技術分享圖片
【圖27】
第十步:采集預覽
① 點擊右上角采集預覽,如圖28:
技術分享圖片
【圖28】
②點擊任意一條鏈接,看看是否可以得到和網頁對應的規整的數據,如圖29:
技術分享圖片
【圖29】

前嗅ForeSpider教程:采集需要登陸的網頁內容