1. 程式人生 > >三、爬蟲輔助工具 SeimiAgent

三、爬蟲輔助工具 SeimiAgent

(一)作用
  簡單點說,有些頁面元素是靠js動態載入的,那麼我們在使用爬蟲時,無法直接取到這些動態載入的DOM元素。而使用 SeimiAgent 工具以後,它會在我們取DOM元素之前,預先將js動態載入的部分先加載出來,這樣我們就可以向取普通DOM元素一樣進行處理。

(二)安裝

1、先去SeimiAgent官網下載最新的工具包

2、centos上操作

yum -y install gcc gcc-c++ make flex bison gperf ruby openssl-devel freetype-devel fontconfig-devel libicu-devel sqlite-devel libpng-devel libjpeg-devel

3、開啟8000埠防火牆(供遠端訪問)
下面演示是基於centos7系統,不同於centos6.5

//開啟埠
firewall-cmd --zone=public --add-port=80/tcp --permanent

//重啟防火牆
firewall-cmd --reload

4、./seimiagent -p 8000
在8000埠啟動 seimiagent