Java爬蟲框架SeimiCrawler V2.0升級來襲
阿新 • • 發佈:2019-01-05
主要變動
完美支援SpringBoot,可以盡情的整合SpringBoot現有生態,demo參考
回撥函式支援方法引用,設定起來更自然
push(Request.build(s.toString(),Basic::getTitle));
- 非SpringBoot模式全域性配置項通過
SeimiConfig
進行配置,包括 Redis叢集資訊,SeimiAgent資訊等,SpringBoot模式則通過SpringBoot標準模式配置
常規模式:
SeimiConfig config = new SeimiConfig();
config.setSeimiAgentHost ("127.0.0.1");
//config.redisSingleServer().setAddress("redis://127.0.0.1:6379");
Seimi s = new Seimi(config);
s.goRun("basic");
SpringBoot模式,在application.properties中配置
seimi.crawler.enabled=true
# 指定要發起start請求的crawler的name
seimi.crawler.names=basic,test
seimi.crawler.seimi-agent-host=xx
seimi.crawler.seimi -agent-port=xx
#開啟分散式佇列
seimi.crawler.enable-redisson-queue=true
#自定義bloomFilter預期插入次數,不設定用預設值 ()
#seimi.crawler.bloom-filter-expected-insertions=
#自定義bloomFilter預期的錯誤率,0.001為1000個允許有一個判斷錯誤的。不設定用預設值(0.001)
#seimi.crawler.bloom-filter-false-probability=
分散式佇列改用Redisson實現,底層依舊為redis,去重引入BloomFilter以提高空間利用率,一個線上的
JDK要求 1.8+