java爬蟲:jsoup的簡單案例
阿新 • • 發佈:2019-01-31
package jsoup;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
//jsoup跟JavaScript有些類似,主要用於爬取靜態的網頁。需要自己下載一個jar包jsoup-1.8.1.jar
public class GetLinks {
public static void getLinks(String url) {
.timeout(14000)
.get();
//此處需要自己填寫網頁中標籤對應的id屬性值
Element content = doc.getElementById("id屬性值");
//用於儲存連結
String linkHref="";
//獲取連結(因為連結是多個所以使用"Elements")
Elements links=content.getElementsByTag("a");
System.out.println(linkHref);
}
}
}
} catch (IOException e) {
e.printStackTrace();
}
}
//主程式main
getLinks(first);
}
}
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
//jsoup跟JavaScript有些類似,主要用於爬取靜態的網頁。需要自己下載一個jar包jsoup-1.8.1.jar
public class GetLinks {
public static void getLinks(String url) {
try {
//此處使用迴圈來遍歷連結(如果存在多個連結的話)
for(int h=1;h<=8;h++){
//對連結進行拼接(格式需要自己重新定義,每個網站的格式都不相同)
//此處timeout設定了延遲,減少被網站識別爬蟲的機率
.timeout(14000)
.get();
//此處需要自己填寫網頁中標籤對應的id屬性值
Element content = doc.getElementById("id屬性值");
//用於儲存連結
String linkHref="";
//獲取連結(因為連結是多個所以使用"Elements")
Elements links=content.getElementsByTag("a");
for(int i=0;i<links.size();i++){
//獲取連結的全稱
linkHref = links.get(i).attr("abs:href");
//對獲取的連結進行一些簡單的操作
System.out.println(linkHref);
}
}
}
} catch (IOException e) {
e.printStackTrace();
}
}
//主程式main
public static void main(String[] args) {
//需要自己填寫一個url地址
getLinks(first);
}
}