Jsoup爬取table頁面資料
阿新 • • 發佈:2018-12-20
昨天接到一個任務需要爬取一個網頁的table資料,因為第一次接觸有些打怵。查詢資料尋找解決的方法。 查到不少資料都在用jsoup . 需要下載jsoup-1.8.1.jar 包
jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似於jQuery的操作方法來取出和操作資料。
網頁獲取和解析速度飛快,推薦使用。 主要功能如下:
- 從一個URL,檔案或字串中解析HTML;
- 使用DOM或CSS選擇器來查詢、取出資料;
- 可操作HTML元素、屬性、文字;
public static String run() { String Rpt_date = null; // 網頁地址 String url = "############"; List<String >list =new ArrayList<String>(); try { Document doc = Jsoup.connect(url).get(); // 獲取第一個表格 Element element = doc.select("table").first(); // System.out.println(element); Elements els = element.select("tr"); for (Element el : els) { Elements ele = el.select("td"); for (Element elem : ele) { if (els.text().toString().indexOf("七日年化收益率") != -1) { Rpt_date = el.select("td").get(2).text().toString(); // System.err.println("Rpt_date"+Rpt_date); list.add(Rpt_date); } } } } catch (Exception e) { e.printStackTrace(); } return list; }