Java解析html頁面,獲取想要的元素

阿新 • • 發佈：2017-09-05

parse tails src www 標準 pro 1.8 com 9.png

背景:通過接口訪問數據，獲取的內容是個標準的html格式，使用jsoup的方式獲取頁面元素值

先推薦比較好的博客：http://www.open-open.com/jsoup/、單個案例比較不錯

http://blog.csdn.net/u010814849/article/details/52526582 整合內容很多

1.插件下載並安裝

官網安裝地址：http://jsoup.org/packages/jsoup-1.8.1.jar

2.使用（目前都是用的css方式定位元素）

1.獲取這個網頁的商品標題內容

技術分享

代碼說明：response為頁面的網頁元素，一個標準的html

Document doc = Jsoup.parse(resopnes); // 
 使用jsoup 進行語言轉換
String getTitle = doc.select("#goods_title").attr("value");// 商品標題 #使用css方式

技術分享

2. 獲取靜態頁面的標題，元素input

技術分享

可直接使用瀏覽器的css方式：#showtab0 > tbody > tr:nth-child(2) > td:nth-child(2) > input.input_style

Document doc = Jsoup.parse(resopnes); // 使用jsoup 進行語言轉換

String getProductName = doc.select("#showtab0 > tbody > tr:nth-child(2) > td:nth-child(2) > input.input_style").attr("value");
System.out.println("商品名稱:"+getProductName);

技術分享

3.獲取其他說明，元素為textarea

技術分享

String detail = doc.select("#goods_desc_en").text();// 詳細描述
System.out.println("詳細描述"+detail);

技術分享

Java解析html頁面,獲取想要的元素

parse tails src www 標準 pro 1.8 com 9.png 背景:通過接口訪問數據，獲取的內容是個標準的html格式，使用jsoup的方式獲取頁面元素值先推薦比較好的博客：http://www.open-open.com/jsoup/、單個案例比較

用IHTMLDocument2接口獲取頁面上想要的數據，代替正則表達式

正則表達式導入 innertext close lose doc html con HA 原文:用IHTMLDocument2接口獲取頁面上想要的數據，代替正則表達式原文發布時間為：2010-07-01 —— 來源於本人的百度文章 [由搬家工具導入]1. 用

java遍歷複雜json字串獲取想要的資料

https://blog.csdn.net/qq_34309663/article/details/80508125 java如何解析複雜的json資料關於json處理的包有好幾個，比如jackson、Gson、Fastjson。Gson是谷歌做的，功能強大；Fastjson

java遍歷復雜json字符串獲取想要的數據

arr 學會 map i++ {} 最簡 shm 完成數組 https://blog.csdn.net/qq_34309663/article/details/80508125 java如何解析復雜的json數據關於json處理的包有好幾個，比如jackson、G

Java爬蟲入門簡介（三） —— Jsoup解析HTML頁面

上一篇部落格我們已經介紹瞭如何使用HttpClient模擬客戶端請求頁面了。這一篇部落格我們將描述如何解析獲取到的頁面內容。上一節我們獲取了 http://www.datalearner.com/blog_list 頁面的HTML原始碼，但是這些原始碼是提供給瀏覽器解析用的，

java解析html的table

import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class test11 {

Eclipse、Java如何下載到我想要的版本？

官網 work oracle 是我直接 ali 提示 alt ext Eclipse官網：http://www.eclipse.org/　　不信你去看看 Java官網：https://www.java.com/　　不信你去看看可惜是，每次進入官網提示都是下面這樣的：來，

html頁面獲取session中的資料

controller中的程式碼 public ActionResult Index() { userInfo user = new userInfo();

Java解析HTML之HTMLParser使用與詳解

出處： http://free0007.iteye.com/blog/1131163 HTMLParser具有小巧，快速的優點，缺點是相關文件比較少（英文的也少），很多功能需要自己摸索。對於初學者還是要費一些功夫的，而一旦上手以後，會發現

HTML頁面獲取終端型別筆記

// var browser={ // versions:function(){ // var u = navigator.userAgent, // app = navigat

Jsoup—解析HTML頁面資料的工具

原文地址！尊重原創！介紹： GitHub原始碼點選檢視程式碼jar包點選下載 Jsoup是一款比較好的Java版HTML解析器。可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CS

解決PyCharm下python使用XPath解析html，獲取文字時中文為亂碼問題

最近在學習XPath解析庫，但是獲取中文文字時總是亂碼，網上看了些教程，然並卵，最後只好自己解決：文字檔案html.txt如下： <p class="name"> <a href="/films/1297" title="肖申克的救贖" d

Android中利用jsoup解析html頁面

學習jsoup :jsoup學習網站 Android 中使用: 新增依賴 implementation 'org.jsoup:jsoup:1.10.1' 直接上程式碼: package com.loaderman.jsoupdemo; import android.

uiautomator中相同控制元件名該如何獲取想要的控制元件，instance(0)區分佈局一樣的控制元件

大家在使用uiautomator測試開發中肯定遇到一樣佈局、連控制元件ID都一樣的情況，我們該如何去獲取？舉例：以下如圖的所有介面開關（圖片可能載入不出來，大家請自行想象下），所有控制元件顯示名稱都是一樣的，就index有區別，假如我們要開關NFC開關，我們肉眼可以去判斷，但

使用MSHTML解析HTML頁面

最近在寫一個爬蟲專案，本來打算用C/C++來實現，在網上查詢有關資料的時候發現了微軟的這個MSHTML庫，最後發現在解析動態頁面的時候它的表現實在是太差：在專案中需要像瀏覽器那樣，執行JavaScript等指令碼然後形成靜態的HTML頁面，最後才分析這個靜態頁面

爬蟲2解析HTML頁面-第三方庫Beautiful Soup

1.安裝BeautifulSoup–pip install beautifulSoup4 Beautiful Soup庫也叫beautifulsoup4或bs4 2.解析demo頁面 import requests r=requests.get(“http://python123.io/

SQL injection 1: 如何從資料庫中獲取想要獲得的內容?

由於我們的專案用到了資料庫，還有JSP頁面，因此先關注一些SQL injection等技術，以便找出應對的辦法。以下是整理的網上的一些資料：如何從資料庫中獲取想要獲得的內容? http://www.cz88.net/2004/7-6/164357.htm學習

python3.x如何從網際網路獲取想要的文章，及轉化為nltk可以處理的文字

from urllib.request import urlopen from bs4 import BeautifulSoup from nltk import word_tokenize import nltk #2種方式解析HTML中的文字 url = "http:/

Java解析HTML到org.w3c.dom.Document，再把Document輸出到檔案。

Document doc = parser.parseHtml(url, httpBody, entryPageUrl, docType); try {

java的jsoup介紹--java爬蟲與java解析html

最近的工作需要從網上抓取些資訊，奈何不會python，暫時又沒時間去研究它，只好用java來搞了。事實證明，做爬蟲不一定要用python，java一樣能做到。jsoup是java的文件解析工具，很方便，很強大。它可以將html檔案、字串或URL轉化為Doc

Java解析html頁面,獲取想要的元素

相關推薦