1. 程式人生 > >Java爬蟲框架SeimiCrawler V2.0升級來襲

Java爬蟲框架SeimiCrawler V2.0升級來襲

主要變動

  • 完美支援SpringBoot,可以盡情的整合SpringBoot現有生態,demo參考

  • 回撥函式支援方法引用,設定起來更自然

    push(Request.build(s.toString(),Basic::getTitle));
  • 非SpringBoot模式全域性配置項通過SeimiConfig進行配置,包括 Redis叢集資訊,SeimiAgent資訊等,SpringBoot模式則通過SpringBoot標準模式配置

常規模式:

SeimiConfig config = new SeimiConfig();
config.setSeimiAgentHost
("127.0.0.1"); //config.redisSingleServer().setAddress("redis://127.0.0.1:6379"); Seimi s = new Seimi(config); s.goRun("basic");

SpringBoot模式,在application.properties中配置

seimi.crawler.enabled=true
# 指定要發起start請求的crawler的name
seimi.crawler.names=basic,test

seimi.crawler.seimi-agent-host=xx
seimi.crawler.seimi
-agent-port=xx #開啟分散式佇列 seimi.crawler.enable-redisson-queue=true #自定義bloomFilter預期插入次數,不設定用預設值 () #seimi.crawler.bloom-filter-expected-insertions= #自定義bloomFilter預期的錯誤率,0.001為1000個允許有一個判斷錯誤的。不設定用預設值(0.001) #seimi.crawler.bloom-filter-false-probability=
  • 分散式佇列改用Redisson實現,底層依舊為redis,去重引入BloomFilter以提高空間利用率,一個線上的

    BloomFilter調參模擬器地址

  • JDK要求 1.8+

文件地址

Wiki

專案地址