Java傳送Http請求，解析html返回

阿新 • • 發佈：2018-12-31

宣告：本文系JavaEye網站釋出的原創部落格文章，未經作者書面許可，嚴禁任何網站轉載本文，否則必將追究法律責任！

今天是2008年7月7日星期一，下午一直在學校做個人開始頁面。因為離不開google的翻譯，所以想把google的翻譯整合到我的開始頁面中來，於是乎就遇到了一個問題，怎樣使用java程式傳送http請求然後截獲遠端伺服器返回的資料進行適當處理之後再輸出？另外，google的翻譯頁面是使用post的方法提交資料的，無法直接通過網址進行處理，於是乎，這又涉及到了一個怎樣使用java去post資料的問題。
經過拜讀百度知道的提問（花了我20分），找到了一個htmlparser的jar包元件，據說是可以很高效率的進行html的解析。於是乎，立馬下載了一個過來。（文後附件中有）試了一下果然不錯。同時，在這個過程中也學會了怎樣利用java來和其它網站互動，這可是一個非常不錯的功能，配合htmlparser，可以隨心所欲的擷取別人網站的資訊了！
廢話不多說了，下面是具體的使用步驟。

首先，向一個Web站點發送POST請求只需要簡單的幾步:
注意，這裡不需要匯入任何第三方包

package com.test;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.URL;
import java.net.URLConnection;

public class TestPost {

	public static void testPost() throws IOException {

		/**
		 * 首先要和URL下的URLConnection對話。 URLConnection可以很容易的從URL得到。比如： // Using
		 *  java.net.URL and //java.net.URLConnection
		 */
		URL url = new URL("http://www.faircanton.com/message/check.asp");
		URLConnection connection = url.openConnection();
		/**
		 * 然後把連線設為輸出模式。URLConnection通常作為輸入來使用，比如下載一個Web頁。
		 * 通過把URLConnection設為輸出，你可以把資料向你個Web頁傳送。下面是如何做：
		 */
		connection.setDoOutput(true);
		/**
		 * 最後，為了得到OutputStream，簡單起見，把它約束在Writer並且放入POST資訊中，例如： ...
		 */
		OutputStreamWriter out = new OutputStreamWriter(connection
				.getOutputStream(), "8859_1");
		out.write("username=kevin&password=*********"); //post的關鍵所在！
		// remember to clean up
		out.flush();
		out.close();
		/**
		 * 這樣就可以傳送一個看起來象這樣的POST： 
		 * POST /jobsearch/jobsearch.cgi HTTP 1.0 ACCEPT:
		 * text/plain Content-type: application/x-www-form-urlencoded
		 * Content-length: 99 username=bob password=someword
		 */
		// 一旦傳送成功，用以下方法就可以得到伺服器的迴應：
		String sCurrentLine;
		String sTotalString;
		sCurrentLine = "";
		sTotalString = "";
		InputStream l_urlStream;
		l_urlStream = connection.getInputStream();
		// 傳說中的三層包裝阿！
		BufferedReader l_reader = new BufferedReader(new InputStreamReader(
				l_urlStream));
		while ((sCurrentLine = l_reader.readLine()) != null) {
			sTotalString += sCurrentLine + "/r/n";

		}
		System.out.println(sTotalString);
	}

	public static void main(String[] args) throws IOException {

		testPost();

	}

}

執行的結果：（果真是返回了驗證後的html阿！神奇！）

<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<title>賬戶已經凍結</title>
<style type="text/css">
<!--
.temp {
	font-family: Arial, Helvetica, sans-serif;
	font-size: 14px;
	font-weight: bold;
	color: #666666;
	margin: 10px;
	padding: 10px;
	border: 1px solid #999999;
}
.STYLE1 {color: #FF0000}
-->
</style>
</head>

<body>
<p> </p>
<p> </p>
<p> </p>
<table width="700" border="0" align="center" cellpadding="0" cellspacing="0" class="temp">
  <tr>
    <td width="135" height="192"><div align="center"><img src="images/err.jpg" width="54" height="58"></div></td>
    <td width="563"><p><span class="STYLE1">登入失敗</span><br>
        <br>
    您的帳戶活躍指數低於系統限制，您的帳戶已經被暫時凍結。<br>
    請您聯絡網路主管或者人事主管重新啟用您的帳戶。</p>
    </td>
  </tr>
</table>
<p> </p>
</body>
</html>

一些Web站點用POST形式而不是GET，這是因為POST能夠攜帶更多的資料，而且不用URL，這使得它看起來不那麼龐大。使用上面列出的大致的程式碼，Java程式碼可以和這些站點輕鬆的實現對話。

得到html以後，分析內容就顯得相對輕鬆了。現在就可以使用htmlparser了，下面是一個簡單的示例程式，過多的解釋我就不說了，相信程式碼能夠說明一切的！

package com.test;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeList;

/**
* 標題:利用htmlparser提取網頁純文字的例子
*/
public class TestHTMLParser {
  public static void testHtml() {
    try {
        String sCurrentLine;
        String sTotalString;
        sCurrentLine = "";
        sTotalString = "";
        java.io.InputStream l_urlStream;
        java.net.URL l_url = new java.net.URL("http://www.ideagrace.com/html/doc/2006/07/04/00929.html");
        java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();
        l_connection.connect();
        l_urlStream = l_connection.getInputStream();
        java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));
        while ((sCurrentLine = l_reader.readLine()) != null) {
          sTotalString += sCurrentLine+"/r/n";
        //  System.out.println(sTotalString);
        }
        String testText = extractText(sTotalString);
        System.out.println( testText );

    } catch (Exception e) {
        e.printStackTrace();
    }

  }
 
  public static String extractText(String inputHtml) throws Exception {
    StringBuffer text = new StringBuffer();
    Parser parser = Parser.createParser(new String(inputHtml.getBytes(),"GBK"), "GBK");
    // 遍歷所有的節點
    NodeList nodes = parser.extractAllNodesThatMatch(new NodeFilter() {
        public boolean accept(Node node) {
          return true;
        }
    });

    System.out.println(nodes.size()); //列印節點的數量
    for (int i=0;i<nodes.size();i++){
         Node nodet = nodes.elementAt(i);
         //System.out.println(nodet.getText()); 
        text.append(new String(nodet.toPlainTextString().getBytes("GBK"))+"/r/n");          
    }
    return text.toString();
  }
 
  public static void test5(String resource) throws Exception {
    Parser myParser = new Parser(resource);
    myParser.setEncoding("GBK");
    String filterStr = "table";
    NodeFilter filter = new TagNameFilter(filterStr);
    NodeList nodeList = myParser.extractAllNodesThatMatch(filter);
    TableTag tabletag = (TableTag) nodeList.elementAt(11);
     
  }

  public static void main(String[] args) throws Exception {
    // test5("http://www.ggdig.com");
    testHtml();
  }
}

Java傳送Http請求，解析html返回

Java傳送Http請求，解析html返回

JAVA傳送HTTP請求，並接受返回內容

java中使用Apache HttpClient傳送Http請求，並獲取返回結果

JAVA傳送http請求，呼叫http介面與方法

Java 傳送http請求，上傳檔案

java 傳送http請求返回字串再進行解析（略）

使用HttpClient傳送http請求，並解析從伺服器端返回的資料

Java後臺傳送post請求，並接收返回資訊

爬蟲記(一) - 傳送網路請求，解析JSON與靜態HTML

java 傳送http請求獲得json 以及解析json

Java傳送POST請求，引數為JSON格式，並接收返回JSON資料

java模擬HTTP請求，傳送JSON資料

JAVA傳送HTTP請求（post、get），讀取HTTP響應內容，例項及應用

傳送http請求，獲取返回的zip包並讀取包內的檔案

java 實現ajax傳送http請求，直接訪問伺服器

程式碼中傳送http請求， java.lang.IllegalArgumentException: Illegal character in query at index...，非法字元錯誤解決辦法

Java 傳送http請求

[python]socket傳送http請求，非阻塞io的一個例子

Java傳送http請求（HttpClient）

java發http請求，原地址：https://blog.csdn.net/ludonglue/article/details/78038643

Java傳送Http請求，解析html返回

相關推薦