使用HttpComponents抓取網頁內容

阿新 • • 發佈：2019-01-04

匯入HttpComponents的包

下載之後解壓，找到bin目錄，匯入這三個包就行

這裡寫圖片描述

或者是使用maven

<dependency>
  <groupId>org.apache.httpcomponents</groupId>
    <artifactId>httpclient</artifactId>
    <version>4.5.3</version>
</dependency>

抓取程式碼

新建一個實體類，儲存抓取的資料

public class WebEntity 
 implements Serializable{
    public String id;
    public String url;
    public String content;


    /**
     * 獲取網頁內容
     *
     * @param path
     * @return
     */
    public static List<WebEntity> catchWebContent(String path) {
        List<WebEntity> list = new ArrayList<>();
        //建立httpclient物件 

        CloseableHttpClient httpClient = HttpClients.createDefault();
        HttpGet httpGet = new HttpGet(path);
        CloseableHttpResponse response = null;
        try {
            //使用httpclient傳送請求
            response = httpClient.execute(httpGet);
            //響應碼為200是表示成功
            if (response.getStatusLine().getStatusCode() == 200 
) {
                //需要設定編碼，這裡主要看抓取的頁面的編碼，編碼不一致會使結果亂碼
                String content = EntityUtils.toString(response.getEntity(), "UTF-8");
                regxContent(content,list);
            }
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            if (response != null) {
                try {
                    response.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
        return list;
    }

    /**
     * 使用正則表示式匹配抓取的內，這裡關於正則的使用就不講解了
     * @param content
     * @param list
     */
    public static void regxContent(String content, List<WebEntity> list) {
        //匹配所有a標籤
        String regex_str="<a[^>]+>[^<]*</a>";
        Pattern pattern = Pattern.compile(regex_str);
        Matcher matcher = pattern.matcher(content);
        while (matcher.find()){
            WebEntity webEntity = new WebEntity();
            webEntity.setId(genUUID());
            String href = matcher.group();
            webEntity.setContent(href);
            list.add(webEntity);
        }
    }

    /**
     * 得到UUID值
     *
     * @return
     */
    public static String genUUID() {
        return UUID.randomUUID().toString().replace("-", "");
    }

測試

//這裡抓取的新浪新聞首頁的資訊
String url = "http://news.sina.com.cn/";
        HttpUtil httpUtil = new HttpUtil();
        List<WebEntity> webEntities = httpUtil.catchWebContent(url);
        for(WebEntity webEntity:webEntities){
            System.out.println(webEntity.getContent());
            System.out.println(webEntity.getUrl());
            System.out.println("===================================================");


        }

這裡寫圖片描述

使用HttpComponents抓取網頁內容

匯入HttpComponents的包下載地址下載之後解壓，找到bin目錄，匯入這三個包就行或者是使用maven <dependency> <groupId

curl抓取網頁內容php

dem windows grep 網頁資源網頁爬蟲 url 工具 () 動態獲取 1.cURL curl是客戶端向服務器請求資源的工具 2.cURL使用場景網頁資源：網頁爬蟲 webservice數據接口資源：動態獲取接口數據天氣號碼歸屬地 ftp資源：下載ftp

JAVA使用Gecco爬蟲抓取網頁內容

log pro 指定 get www. error 一個 log4j java類 JAVA 爬蟲工具有挺多的，但是Gecco是一個挺輕量方便的工具。先上項目結構圖。這是一個 JAVASE的 MAVEN 項目，要添加包依賴，其他就四個文件。log4j.propertie

php抓取網頁內容，獲取網頁資料

php通過simple_html_dom實現抓取網頁內容，獲取核心網頁資料，將網頁資料寫入本地 xxx.json 檔案其程式碼實現邏輯： 1. 引入simple_html_dom.php檔案 require_once 'simple_ht

python 爬蟲如何用selenium抓取網頁內容

使用selenium爬取動態網頁資訊 Python selenium自動控制瀏覽器對網頁的資料進行抓取，其中包含按鈕點選、跳轉頁面、搜尋框的輸入、頁面的價值資料儲存、mongodb自動id標識等等等。首先介紹一下 Python selenium —自動化測試工

[Python]網路爬蟲（二）：利用urllib2通過指定的URL抓取網頁內容

版本號：Python2.7.5，Python3改動較大，各位另尋教程。所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。類似於使用程式模擬IE瀏覽器的功能，把URL作為HTTP請求的內容傳送到伺服器端，然後讀取伺服器端的響應資源。在

【PHP-網頁內容抓取】抓取網頁內容的兩種常用方法

說到網頁內容的抓取，最常用的兩種方式： 1.利用file_get_contents()函式，簡簡單單； 2.CURL抓取工具。CURL是一個非常強大的開源庫，支援很多協議，包括HTTP、FTP、TEL

python多執行緒抓取網頁內容並寫入MYSQL

自己的第一個多執行緒練習，中間踩了不少坑，程式寫的很渣，但是勉強能實現功能需求了，實際上抓取網頁是多執行緒在MYSQL寫入的時候是加了執行緒鎖的，實際上感覺就不是在多執行緒寫入了，不過作為第一個練習程式就這樣吧，後續部落格還會繼續更新優化版本。## htm

PHP抓取網頁內容獲得網頁原始碼

1、 file_get_contents獲取 <span style="white-space:pre"> </span>$url="http://www.baidu.com/"; <span style="white-space:pre"&g

php抓取網頁內容彙總

①、使用php獲取網頁內容 http://hi.baidu.com/quqiufeng/blog/item/7e86fb3f40b598c67d1e7150.html header("Content-type: text/html; charset=utf-8")

[Python]網路爬蟲（二）：利用urllib通過指定的URL抓取網頁內容

1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=F

java爬蟲（使用jsoup設定代理，抓取網頁內容）

jsoup 簡介 jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來

php抓取網頁內容

function curl_file_get_contents($durl){ $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $durl); curl_setopt($ch, CURLOPT_TIMEOUT,

使用HttpClient遠端抓取網頁內容

準備工作需要下載兩個jar包：commons-httpclient和commons-codes Demo: import java.io.FileOutputStream; import java.io.OutputStream; import java.io.PrintStream; i

C#抓取網頁內容的函數的代碼

toarray get toa pri ring 過程 [] () url 將寫代碼過程比較好的代碼段備份一次，如下代碼是關於C#抓取網頁內容的函數的代碼，應該能對大夥有較大用途。 private byte[] GetURLContents(string url){

python爬蟲爬取非同步載入網頁資訊（python抓取網頁中無法通過網頁標籤屬性抓取的內容）

1.問題描述最近由於學習內容的要求，需要從網頁上抓取一些資料來做分析報告，在看了python爬蟲的一些基礎知識之後就直接上手去網站上爬資料了。作為新手踩坑是無法避免，最近就遇到了一個比較難的問題：一般情況下，要抓去網頁上某個標籤上的內容，在通過urllib下

(PHP)用cURL抓取網頁資訊並替換部分內容

<?php /** * 用cURL抓取網頁資訊並替換部分內容 * User: Ollydebug * Date: 2015/11/11 * Time: 19:13 */ $curlo

python beautifulsoup 抓取網頁正文內容

最近要跟著同學做一個小專案，需要自己找語料庫，於是我用python 的 beautifulsoup 和urllib 來抓取一些網頁內容來做訓練語料。現在寫下來備忘，雖然還有些不足。這裡，我抓取的是鳳凰軍事的滾動新聞，點開後可以發現是一系列的新聞連結，所以接下來就分兩個方面

android 開發--抓取網頁解析網頁內容的若干方法(網路爬蟲)（正則表示式）

網頁有兩種格式，一種是xml另一種是html,目前似乎好像大部分都是html格式的，檢視網頁格式的方法是在瀏覽器中右鍵-->檢視原始碼一，XML解析的三大方法 (1) SAX: Simple API for XML SAX是一個解析速度快並且佔用記憶體少的XML解析

C# 正則表示式抓取網頁上某個標籤的內容，並替換連結地址和圖片地址

#region 獲取第三方網站內容 //獲取其他網站網頁內容的關鍵程式碼 WebRequest request = WebRequest.Create(第三方的網站地址); WebResponse response = requ

使用HttpComponents抓取網頁內容

匯入HttpComponents的包

抓取程式碼

測試

相關推薦