Java獲取網頁下超連結並儲存

阿新 • • 發佈：2018-11-02

 把本程式改造為一個輸入一個起始URL及其引數之後就可以下載此URL及其引數所指定的WEB頁面以及此WEB頁面中HTML語言超級連結所指向的所有WEB頁面（只下載一級即可）。
主要需要利用Pattern類方法和正則表示式來獲取超連結

import java.io.*;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

class HtmlParser1 
 {
    String htmlUrl;
    ArrayList<String> hrefList = new ArrayList();
    String charSet;

    public HtmlParser1(String htmlUrl) {
        // TODO 自動生成的建構函式存根
        this.htmlUrl = htmlUrl;
    }

    public ArrayList<String> parser() throws IOException {  //獲得該網頁下的超連結
        URL url = 
 new URL(htmlUrl);           //建立URL物件，建立連線
        HttpURLConnection connection = (HttpURLConnection) url.openConnection();
        connection.setDoOutput(true);
        String contenttype = connection.getContentType();
        charSet = getCharset(contenttype);
        InputStreamReader isr = new InputStreamReader 
(connection.getInputStream(), "gb2312");   //建立輸入流
        BufferedReader br = new BufferedReader(isr);
        String str = null, rs = null;
        while ((str = br.readLine()) != null) {
            Pattern pattern = Pattern.compile("<a href=(.*?)>");    //識別這一行是否符合網頁的格式
            Matcher matcher = pattern.matcher(str);

            while (matcher.find()) {
                Pattern pattern1 = Pattern.compile("\"(.*?)\"");
                Matcher matcher1 = pattern1.matcher(matcher.group(1));
                if (matcher1.find()) {
                    rs = matcher1.group(1);      //將本行引號中的內容截取出來
                }
                if (rs.indexOf("http") != -1) {  //帶http的為URL
                    if (rs != null)
                        hrefList.add(rs);
                }
            }
        }
        return hrefList;
    }

    public void getURL() throws IOException {       //獲得每個超連結對應的web網頁
        ArrayList<String> URLList = parser();
        for (int i = 0; i < URLList.size(); i++) {
            URL url = new URL(URLList.get(i));      //讀取每個擷取的URL
            HttpURLConnection connection = (HttpURLConnection) url.openConnection();
            connection.setDoOutput(true);
            InputStreamReader isr = new InputStreamReader(connection.getInputStream(),"gb2312");
            BufferedReader br = new BufferedReader(isr);
            String str = null;
            File dest = new File("wangye/"+i+".html");   //按數字順序命名儲存
            dest.createNewFile();
            FileOutputStream fileOutputStream = new FileOutputStream(dest);
            OutputStreamWriter outputStreamWriter = new OutputStreamWriter(fileOutputStream, "gb2312");
            while ((str = br.readLine()) != null) {
                outputStreamWriter.write(str);          //輸出流寫入
            }
        }
    }
    
    private String getCharset(String str) {  //獲取網頁編碼方式，有些網頁沒有提供，所以暫時不使用
        Pattern pattern = Pattern.compile("charset=.*");
        Matcher matcher = pattern.matcher(str);
        if (matcher.find())
            return matcher.group(0).split("charset=")[1];
        return null;
    }
}

public class sp312{
    public static void main(String[] arg) throws IOException {   //主方法
        HtmlParser1 HP = new HtmlParser1("https://news.163.com/");
        ArrayList<String> hrefList = HP.parser();
        for (int i = 0; i < hrefList.size(); i++)
            System.out.println(hrefList.get(i));
        HP.getURL();
    }
}

結果：
擷取的超連結
在這裡插入圖片描述

獲取的超連結的HTML網頁：

Java獲取網頁下超連結並儲存

 把本程式改造為一個輸入一個起始URL及其引數之後就可以下載此URL及其引數所指定的WEB頁面以及此WEB頁面中HTML語言超級連結所指向的所有WEB頁面（只下載一級即可）。主要需要利用Pattern類方法和正則表示式來獲取超連結 import java.io.*; import j

如何使用Java獲取系統當前時間格式化並設定有效期

今天我們來看看如何實現獲取系統時間並自己設定有效期 @MethodParameter(desc = "synUserList", input = "user", postType = {}, postName = "", queryString = "", userParam = "user

selenium+java 獲取所有關於關鍵字元素並列印元素的個數 or 迴圈列印搜尋結果的標題

public class ElementsDemo { public static void main(String[] args) throws InterruptedException { //驅動配置 System.setProperty("webd

Java 從指定URL下載檔案並儲存到指定目錄

從指定的URL下載檔案，並儲存到本地，近期開發過程中用的這個功能比較多，特此記錄！ 1.基本流程當我們想要下載網站上的某個資源時，我們會獲取一個url，它是伺服器定位資源的一個描述，下載的過程有如下幾步：（1）客戶端發起一個url請求，獲取連線物件。（2）伺服器解析url，並且

關於java獲取網頁內容

最近專案需求，做一些新聞站點的爬取工作。1.簡單的jsoup爬取，靜態頁面形式； String url="a.atimo.cn";//靜態頁面連結地址Document doc = Jsoup.connect(url).userAgent("Mozilla").timeout(4000).get();

JAVA獲取系統當前時間格式化並設定有效期

今天我們來看看如何實現獲取系統時間並自己設定有效期 @MethodParameter(desc = "synUserList", input = "user", postType = {}, post

利用canvas將網頁元素生成圖片並儲存在本地

利用canvas將網頁元素生成圖片並儲存在本地首先引入三個檔案： 1、<script type="text/javascript" src="js/html2canvas.js"></script> 2、&a

批量讀取資料夾下的圖片並儲存在一個四維陣列中

在深度學習開發中，我們在網上找的現成的資料集，都是已經處理好了的，我們直接使用即可。但是如果我們想用自己的圖片訓練網路，會發現編譯器總是報讀入圖片的shape大小不一致的情況。在用來訓練的圖片陣列中，一般都是四維的，比如(600,299,299,3)，600表示在這個陣列中一共有600張圖

java獲取鍵盤輸入的數字,並進行排序

需求：由鍵盤輸入三個整數分別存入變數num1、num2、num3，對它們進行排序, 並且從小到大輸出要求使用2種方法實現：一、使用if-else分支結構；二、使用java內建模組Arrays的排序方

Java獲取當前的系統時間並格式化輸出

一. 獲取當前系統時間和日期並格式化輸出: import java.util.Date; import java.text.SimpleDateFormat; public class NowString { public static void main(String[

獲取上傳的圖片並儲存為縮圖，解決gif背景變黑問題

{ //所有格式的圖片都可用，不是GIF格式的可以認為是隻有一幀GIF圖片 image.SelectActiveFrame( ImgFrmDim, i );//選擇圖片第幾幀 System.IO.

UIWebview獲取網頁中所有圖片並加入點選事件，實現瀏覽圖片的效果

- (void)webViewDidFinishLoad:(UIWebView *)aWebView { //調整字號 NSString *str = @"document.getElementsByTagName('body')[0].style.webkitTe

java 獲取檔案返回 pdf檔案並列印

<%@ page language="java" import="java.util.*,java.io.*" pageEncoding="UTF-8"%> <% String pa

java 獲取路徑下所有檔案

思路：通過遞迴遍歷資料夾 public static void getFiles(List<File>fileList, String path){ try { File file = new File(path); if(file.isDirec

java獲取證書私鑰，並加密簽名

/*** 簽名演算法* @author zhoujia* @date 2017-9-8* @todo TODO* @param data 需要簽名的內容* @param keyStoreFileName 含私鑰的檔案* @param keyStorePassword

使用Java下載網頁的下載連結的內容

專案需要大量的excel檔案作為資料來源，然後寫了一個java小程式用來直接下載網頁下載連結的內容。這樣使用Java程式設計可以進行指定任務的下載匯入相應的包 import java.io.Fil

使用QML製作超連結並開啟超連結

使用QML中的Text來實現超連結並開啟程式碼如下： import QtQuick 2.3 import QtQuick.Window 2.2 Window { visible: tru

Java 從指定URL下載檔案並儲存到指定目錄

從指定的URL下載檔案，並儲存到本地，近期開發過程中用的這個功能比較多，特此記錄！1.基本流程當我們想要下載網站上的某個資源時，我們會獲取一個url，它是伺服器定位資源的一個描述，下載的過程有如下幾步：（1）客戶端發起一個url請求，獲取連線物件。（2）伺服器解析url，並且

java獲取excel中資料，並轉化為JSON格式

java通過poi讀取execl檔案，並且將其中的map格式和陣列格式的字串，轉化為相應的資料型別。引入poi庫讀取execl資料，轉化為json字串將其中的map格式和陣列格式的字串，轉化為相應的資料型別引入poi庫： <depen

latex 參考文獻 natbib, biblatex 引用網頁，超連結

在使用 natbib 工具包管理參考文獻時，引用網頁比較麻煩，因為格式不好調整。經過了不少摸索，自己總結一些技巧心得。 1. 網址中的下劃線要注意寫成 \_，而不是直接複製 _，否則會提示 m

Java獲取網頁下超連結並儲存

相關推薦