1. 程式人生 > >java爬蟲:jsoup的簡單案例

java爬蟲:jsoup的簡單案例

package jsoup;

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

//jsoup跟JavaScript有些類似,主要用於爬取靜態的網頁。需要自己下載一個jar包jsoup-1.8.1.jar
public class GetLinks {

public static void getLinks(String url) {

try {

                        //此處使用迴圈來遍歷連結(如果存在多個連結的話)

for(int h=1;h<=8;h++){

                                //對連結進行拼接(格式需要自己重新定義,每個網站的格式都不相同)

                                //此處timeout設定了延遲,減少被網站識別爬蟲的機率

Document doc = Jsoup.connect(url+"o"+h+"/")
.timeout(14000)
.get();
                                //此處需要自己填寫網頁中標籤對應的id屬性值
Element content = doc.getElementById("id屬性值");

//用於儲存連結
String linkHref="";
//獲取連結(因為連結是多個所以使用"Elements")
Elements links=content.getElementsByTag("a");

for(int i=0;i<links.size();i++){

                                        //獲取連結的全稱

linkHref = links.get(i).attr("abs:href");

                                        //對獲取的連結進行一些簡單的操作

if(linkHref.indexOf("gongsi")==-1)
System.out.println(linkHref);
}
}
}
} catch (IOException e) {
e.printStackTrace();
}
}
//主程式main

public static void main(String[] args) {

                //需要自己填寫一個url地址

String first="";
getLinks(first);
}
}