1. 程式人生 > >Jsoup爬取table頁面資料

Jsoup爬取table頁面資料

昨天接到一個任務需要爬取一個網頁的table資料,因為第一次接觸有些打怵。查詢資料尋找解決的方法。 查到不少資料都在用jsoup . 需要下載jsoup-1.8.1.jar

jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似於jQuery的操作方法來取出和操作資料。

網頁獲取和解析速度飛快,推薦使用。 主要功能如下:

  1. 從一個URL,檔案或字串中解析HTML;
  2. 使用DOM或CSS選擇器來查詢、取出資料;
  3. 可操作HTML元素、屬性、文字;
	public static  String run() {
		String Rpt_date = null;
		// 網頁地址
		String url = "############";
		List<String >list =new ArrayList<String>();
		try {
			Document doc = Jsoup.connect(url).get();
			// 獲取第一個表格
			Element element = doc.select("table").first();
			// System.out.println(element);
			Elements els = element.select("tr");
			for (Element el : els) {
				Elements ele = el.select("td");
				for (Element elem : ele) {
					if (els.text().toString().indexOf("七日年化收益率") != -1) {
						Rpt_date = el.select("td").get(2).text().toString();
//						System.err.println("Rpt_date"+Rpt_date);
						list.add(Rpt_date);
					}
				}
			}
			
		} catch (Exception e) {
			e.printStackTrace();
		}
		return list;

	}