通過html解析網頁資料

阿新 • • 發佈：2019-01-24

最近遇到一個工作需要從新浪財經網頁拉取某支股票的當天成交明細，於是乎發現了一個好用的第三方包，在這裡跟大家分享一下。

這個包叫Jsoup包，jsoup是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。

中文api文件（點選檢視）

接下就來通過我這個專案來說明一下如何解析html

1.分析相應的html程式碼。

我要拉取的網頁是http://vip.stock.finance.sina.com.cn/quotes_service/view/vMS_tradehistory.php?symbol=sh601988&date=2016-07-26&page=41

這是網頁上顯示的表格：

我們要獲取這個股票每個成交時間的成交價和漲跌幅。

檢視網頁原始碼發現主要這幾行：

資料是在一個叫datatb1的表格裡面。

2.這裡原始碼有接近有一千行，用Jsoup來解析就比較方便快捷了。

貼上程式碼：

public class GetDataFormNetWork {

    final String Url = "http://vip.stock.finance.sina.com.cn/quotes_service/view/vMS_tradehistory.php";
    List<StockInfo> mData = new ArrayList<StockInfo>();
    int mPage;
    public void get(final String date , final int page)
    {
        mPage = page;
        new Thread(new Runnable() {
            //開一個子執行緒來進行網路請求，用的是OKHttp
            @Override
            public void run() {
                RequestBody body = new FormEncodingBuilder()
                        .add("symbol","sh601988")
                        .add("date",date)
                        .add("page",String.valueOf(page))
                        .build();

                OkHttpClient mOkHttpClient = new OkHttpClient();
                final Request request = new Request.Builder()
                        .url(Url)
                        .post(body)
                        .build();
                try {
                    Response response = mOkHttpClient.newCall(request).execute();
                    if (response.isSuccessful()) {
                        String data = new String(response.body().bytes(),"GBK");
                        Message msg = Message.obtain();
                        msg.obj = data;
                        handler.sendMessage(msg);

                    } else {

                    }
                } catch (IOException e) {
                    e.printStackTrace();
                }

            }
        }).start();
    }
    public class StockInfo
    {
        String price;//成交價
        String time;//成交時間
        String increase;//漲跌幅

        public StockInfo(String time, String price,String increase) {
            this.price = price;
            this.time = time;
            this.increase = increase;
        }
    }

    Handler handler = new Handler(){
        @Override
        public void handleMessage(Message msg) {
            super.handleMessage(msg);
            String data = (String) msg.obj;
            Document doc = Jsoup.parse(data);
            Element table = doc.select("table.datatbl").first();//獲取名稱為datatb1的表格
            Elements elements = table.getElementsByTag("tbody");
            for (int i=0;i<elements.size();i++)//遍歷容器
            {
                Element tr = elements.get(i);
                Elements ths = tr.getElementsByTag("th");//獲取th標籤
                Elements tds = tr.getElementsByTag("td");//獲取td標籤
                for(int j=0;j<ths.size()/2;j++)
                {
                    mData.add(new StockInfo(ths.get(2*j).text(),tds.get(5*j).text(),tds.get(5*j+1).text()));
                }
            }
            mParse.onParse(mData,mPage);

        }
    };

    private Parse mParse;

    public interface Parse
    {
        abstract public void onParse(List<StockInfo> datas , int page);
    }
    public void setParse(Parse parse)
    {
        mParse  = parse;
    }
}

這樣子，mData這個容器就存有這一頁的表格資料了。注意的是，這裡用到的是OkHttp進行網路請求，有興趣的朋友可以到我的這篇部落格來簡單瞭解一下：http://blog.csdn.net/u014686721/article/details/52053304

當然了，這還只是Jsoup的簡單實用，具體的其他使用還要去檢視API文件。

——————————

總結：

1.自己遇到網路請求獲取回來的html是有亂碼的，那是因為編碼的問題，可以用GBK編碼方式。

2.Jsoup用select獲取表格時，要在名字前面加上"table."

3.Element物件同過getElementByTag返回的時候Elements的容器。Element物件通過text方法可以去掉標籤返回字串。

通過html解析網頁資料

最近遇到一個工作需要從新浪財經網頁拉取某支股票的當天成交明細，於是乎發現了一個好用的第三方包，在這裡跟大家分享一下。這個包叫Jsoup包，jsoup是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。 jar包（點選下載）中文api文件（點選檢

抓取並解析網頁資料（xml解析、html解析）

網頁有兩種格式，一種是xml另一種是html,目前似乎好像大部分都是html格式的，檢視網頁格式的方法是在瀏覽器中右鍵–>檢視原始碼或者直接F12即可。一、XML解析 1）DOM解析 DOM(Document Object Mode)是

使用java開源工具httpClient及jsoup抓取解析網頁資料

　　今天做專案的時候遇到這樣一個需求，需要在網頁上展示今日黃曆資訊，資料格式如下　　公曆時間：2016年04月11日星期一　　農曆時間：猴年三月初五　　天干地支：丙申年壬辰月癸亥日　　宜：求子祈福開光祭祀安床　　忌：玉堂（黃道）危日，忌出行　　主要包括公曆/農曆日期，以及忌宜資訊的等。但是手

dom4j通過URL解析xml資料

public static Document getXml(String keyword,String pagenum,String pagesize) throws DocumentException{ Document document=null; SAXRead

【iOS】通過NSURLProtocol實現網頁載入本地快取資料

一.專案需求專案中有個海報生成功能，使用UIWebView載入一些網頁，因為海報使用率比較高，有時載入網頁比較慢會影響使用者體驗，因此我們在APP啟動後，將一些固定資源，如css、圖片等，先快取到本地。載入網頁時，通過NSURLProtocol，優先使用本地的檔案，以加快網頁載入速

手機顯示資料的原理：手機通過WebView控制元件顯示網頁資料

WebView控制元件是用於顯示網頁的，手機根據網頁建立一個WebView，之後顯示出來，所以顯示WebView網頁是通過WebView控制元件顯示的。 <script type="text/javascript" charset="utf-8

ant design 如何將後臺傳送的帶特殊字元的資料轉義為html解析

目錄問題場景解決拓展問題場景 ant design 是基於React實現的元件庫，會將\n這樣的特殊字元轉成空格，但是我們想讓資料顯示在前端介面上，怎麼做呢？解決首先，將data中的\n替換為<br > 因為ant design 直

通過GSON解析複雜json資料(二)

這裡我們依舊用上文中的 json 字串 , 由於轉換為 map 依舊需要 javaBean , 所有我們的實體物件也不發生改變這裡我們需要活用 java 反射和型別對比實現需求先看程式碼 package com.jacx.test.test01.

html網頁獲取php網頁資料等知識記錄

所有跟php有關的網頁都必須在Apache伺服器下開啟。需要配置好confg.ini的檔案路徑。 AJAX：通過事件不斷的向伺服器傳送請求，然後伺服器會時時返回最新的資料，這就是AJAX的功能 PS：IE瀏覽器第一次會向伺服器傳送請求，獲取最新資料，而第二次它就預

Delphi通過MSHTML實現一個HTML解析類

(******************************************************)(* 得閒工作室 *)(* 網頁元素操作類庫 *)

獲取伺服器資料通過Gson解析顯示Listview上

之前寫了一篇博文是獲取伺服器資料並解析顯示到listview上，上次使用的解析是通過jsonarray和jsonobject完成，解析json的資料還是可以，但是發現解析複雜點的資料真的很麻煩，然後查了一下Gson的解析方式寫了一個demo，發現省事了許多.上程式碼：效果

微信小程式通過WxParse解析HTML

目錄檔案在需要用到的WXML頁面中先引入 <import src="/wxParse/wxParse.wxml"/> <import src="/wxParse/wxParse.wxml"/> 在需要用到的JS頁面中先引入 var W

使用Python中的HTMLParser、cookielib抓取和解析網頁、從HTML文件中提取連結、影象、文字、Cookies .

對搜尋引擎、檔案索引、文件轉換、資料檢索、站點備份或遷移等應用程式來說，經常用到對網頁(即HTML檔案)的解析處理。事實上，通過 Python語言提供的各種模組，我們無需藉助Web伺服器或者Web瀏覽器就能夠解析和處理HTML文件。本文上篇中，我們介紹了一個可以幫助簡化開啟

如何通過jsoup網路爬蟲工具爬取網頁資料,並通過jxl工具匯出到excel

1：閒話少說,直接看需求: 抓取的url:http://www.shparking.cn/index.php/welcome/municipal_parking?key=&per_page=. 參考的資料:http://blog.csdn.net/lmj6235

html頁面索引資料（網頁爬蟲）

博主第三篇文章博主自己喜歡倒騰，比較喜歡搞事情，所以這次分享點兒福利給大家哦多餘的不說，還是看程式碼實際package com.test.reptile; import java.util.ArrayList; import java.util.List; import

HTML/Ajax/XML資料互動：HTML通過Ajax讀取XML的儲存資訊

介紹：上一篇Ajax文章中對Ajax的XHR物件作出了介紹，這篇部落格介紹下如果使用Ajax從服務端獲取資料。之前分析過，Ajax是向服務端請求服務的，說白了就是想資料庫中進行資訊驗證或取存。本篇部落格沒有使用資料庫而是採用了 XML儲存資料，這

HTML-通過點選網頁上的文字彈出QQ新增好友頁面

在網上參考了部分方法，綜合了一下。發現有2中方式：第一種是不能直接彈出新增介面的，只能彈出網頁，再通過網頁中的新增好友才能新增：彈出的網頁是這樣的（我是寫成在新的網頁中開啟）現在看實現的程式碼： <html> <

通過Html網頁呼叫本地安卓app程式程式碼

前段時間寫一些移動端的專案，正好專案中遇到與native互動的需求，特此將其整理下來：一. 通過html頁面開啟Android本地的app 首先在編寫一個簡單的html頁面 <html> <head>

爬蟲學習4-HTML和XML資料的分析與解析

目前在 Java 中，解析 HTML 工具主要包含以下幾種： 1，jsoup：強大的 HTML 解析工具，支援以 jQuery 中 CSS Selector 的方式提取 HTML 中的元素，學習成本較低。, 2，HtmlCleaner：另外一款開源的 Java 語言的 HTM

Android通過Jsoup解析Html原始碼

WebViewClient的作用就是幫助WebView處理各種通知、請求事件的，onPageFinished顧名思義在頁面載入完成後進行的操作，通過javascript語法獲取的內容，通過local_obj呼叫InJavaScriptLocalObj中的showSource()方法

通過html解析網頁資料

相關推薦