WebMagic入門--爬取b站視訊標題與時間戳Demo
阿新 • • 發佈:2019-02-04
WebMagic入門–爬取b站視訊標題與時間戳Demo
最近對爬蟲有點感興趣,瞭解了一下java相關的爬蟲框架,選用webmagic作為入門。
寫了個比官方案例還簡單的Demo,甚至可以用簡陋來形容。
package test.t01;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
public class PageProcess 實現方法 implements PageProcessor{
//設定拼接的url變數
private static int count =123422;
//設定網站相關配置
private Site site = Site.me().setRetryTimes(5).setSleepTime(0).setUserAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36");//重試次數和抓取間隔
public void process(Page page) {
//視訊標題
System.out.println(page.getHtml().xpath("//h1/span/text()").get());
//時間戳
System.out.println(page.getHtml().xpath("//div/time/text()"));
}
public Site getSite() {
return site;
}
public static void main(String[] args) {
while (count<130000) {
Spider.create(new PageProcess實現方法()).addUrl("https://www.bilibili.com/video/av" + count + "/").thread(1).run();
count++;
}
}
}