神箭手爬蟲學習筆記(二)
阿新 • • 發佈:2017-06-14
暫存 自動 表達 eve doc 常用 學習 數據 .sh
一,可以使用神劍手已經做好的爬蟲市場直接跑,不需要自己定義爬取規則
二,爬蟲市場裏沒有的網站,需要自己去定義規則來爬數據。
三,爬取的數據可以先存放在神劍手,也可以放到七牛暫存。(提醒下,網站需要數據備份如果數量不大可以到七牛做備份,有免費版)
四,爬取的數據可以直接發布到數據庫,也可以發布到具有支持神劍插件的網站。可以手動發布,也可以自動發布。
五,可以使用代理IP,防封
六:常用的幾個輔助工具:http://docs.shenjianshou.cn/develop/tools/tools.html
------------------------------------------------------------------------------------------------------
如何寫規則
<1> 定義config 對象,運行config對象
<2> 需要掌握Xpath,Jsonpath,正則表達式
-------------------------------------------------------------------------------------------------------
惡補下正則表達式吧
神箭手爬蟲學習筆記(二)