Java傳送Http請求,解析html返回
阿新 • • 發佈:2018-12-31
宣告:本文系JavaEye網站釋出的原創部落格文章,未經作者書面許可,嚴禁任何網站轉載本文,否則必將追究法律責任!
今天是2008年7月7日星期一,下午一直在學校做個人開始頁面。因為離不開google的翻譯,所以想把google的翻譯整合到我的開始頁面中來,於是乎就遇到了一個問題,怎樣使用java程式傳送http請求然後截獲遠端伺服器返回的資料進行適當處理之後再輸出?另外,google的翻譯頁面是使用post的方法提交資料的,無法直接通過網址進行處理,於是乎,這又涉及到了一個怎樣使用java去post資料的問題。
經過拜讀百度知道的提問(花了我20分),找到了一個htmlparser的jar包元件,據說是可以很高效率的進行html的解析。於是乎,立馬下載了一個過來。(文後附件中有)試了一下果然不錯。同時,在這個過程中也學會了怎樣利用java來和其它網站互動,這可是一個非常不錯的功能,配合htmlparser,可以隨心所欲的擷取別人網站的資訊了!
廢話不多說了,下面是具體的使用步驟。
首先,向一個Web站點發送POST請求只需要簡單的幾步:
注意,這裡不需要匯入任何第三方包
package com.test; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.io.OutputStreamWriter; import java.net.URL; import java.net.URLConnection; public class TestPost { public static void testPost() throws IOException { /** * 首先要和URL下的URLConnection對話。 URLConnection可以很容易的從URL得到。比如: // Using * java.net.URL and //java.net.URLConnection */ URL url = new URL("http://www.faircanton.com/message/check.asp"); URLConnection connection = url.openConnection(); /** * 然後把連線設為輸出模式。URLConnection通常作為輸入來使用,比如下載一個Web頁。 * 通過把URLConnection設為輸出,你可以把資料向你個Web頁傳送。下面是如何做: */ connection.setDoOutput(true); /** * 最後,為了得到OutputStream,簡單起見,把它約束在Writer並且放入POST資訊中,例如: ... */ OutputStreamWriter out = new OutputStreamWriter(connection .getOutputStream(), "8859_1"); out.write("username=kevin&password=*********"); //post的關鍵所在! // remember to clean up out.flush(); out.close(); /** * 這樣就可以傳送一個看起來象這樣的POST: * POST /jobsearch/jobsearch.cgi HTTP 1.0 ACCEPT: * text/plain Content-type: application/x-www-form-urlencoded * Content-length: 99 username=bob password=someword */ // 一旦傳送成功,用以下方法就可以得到伺服器的迴應: String sCurrentLine; String sTotalString; sCurrentLine = ""; sTotalString = ""; InputStream l_urlStream; l_urlStream = connection.getInputStream(); // 傳說中的三層包裝阿! BufferedReader l_reader = new BufferedReader(new InputStreamReader( l_urlStream)); while ((sCurrentLine = l_reader.readLine()) != null) { sTotalString += sCurrentLine + "/r/n"; } System.out.println(sTotalString); } public static void main(String[] args) throws IOException { testPost(); } }
執行的結果:(果真是返回了驗證後的html阿!神奇!)
<html> <head> <meta http-equiv="Content-Type" content="text/html; charset=gb2312" /> <title>賬戶已經凍結</title> <style type="text/css"> <!-- .temp { font-family: Arial, Helvetica, sans-serif; font-size: 14px; font-weight: bold; color: #666666; margin: 10px; padding: 10px; border: 1px solid #999999; } .STYLE1 {color: #FF0000} --> </style> </head> <body> <p> </p> <p> </p> <p> </p> <table width="700" border="0" align="center" cellpadding="0" cellspacing="0" class="temp"> <tr> <td width="135" height="192"><div align="center"><img src="images/err.jpg" width="54" height="58"></div></td> <td width="563"><p><span class="STYLE1">登入失敗</span><br> <br> 您的帳戶活躍指數低於系統限制,您的帳戶已經被暫時凍結。<br> 請您聯絡網路主管或者人事主管重新啟用您的帳戶。</p> </td> </tr> </table> <p> </p> </body> </html>
一些Web站點用POST形式而不是GET,這是因為POST能夠攜帶更多的資料,而且不用URL,這使得它看起來不那麼龐大。使用上面列出的大致的程式碼,Java程式碼可以和這些站點輕鬆的實現對話。
得到html以後,分析內容就顯得相對輕鬆了。現在就可以使用htmlparser了,下面是一個簡單的示例程式,過多的解釋我就不說了,相信程式碼能夠說明一切的!
package com.test;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeList;
/**
* 標題:利用htmlparser提取網頁純文字的例子
*/
public class TestHTMLParser {
public static void testHtml() {
try {
String sCurrentLine;
String sTotalString;
sCurrentLine = "";
sTotalString = "";
java.io.InputStream l_urlStream;
java.net.URL l_url = new java.net.URL("http://www.ideagrace.com/html/doc/2006/07/04/00929.html");
java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();
l_connection.connect();
l_urlStream = l_connection.getInputStream();
java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));
while ((sCurrentLine = l_reader.readLine()) != null) {
sTotalString += sCurrentLine+"/r/n";
// System.out.println(sTotalString);
}
String testText = extractText(sTotalString);
System.out.println( testText );
} catch (Exception e) {
e.printStackTrace();
}
}
public static String extractText(String inputHtml) throws Exception {
StringBuffer text = new StringBuffer();
Parser parser = Parser.createParser(new String(inputHtml.getBytes(),"GBK"), "GBK");
// 遍歷所有的節點
NodeList nodes = parser.extractAllNodesThatMatch(new NodeFilter() {
public boolean accept(Node node) {
return true;
}
});
System.out.println(nodes.size()); //列印節點的數量
for (int i=0;i<nodes.size();i++){
Node nodet = nodes.elementAt(i);
//System.out.println(nodet.getText());
text.append(new String(nodet.toPlainTextString().getBytes("GBK"))+"/r/n");
}
return text.toString();
}
public static void test5(String resource) throws Exception {
Parser myParser = new Parser(resource);
myParser.setEncoding("GBK");
String filterStr = "table";
NodeFilter filter = new TagNameFilter(filterStr);
NodeList nodeList = myParser.extractAllNodesThatMatch(filter);
TableTag tabletag = (TableTag) nodeList.elementAt(11);
}
public static void main(String[] args) throws Exception {
// test5("http://www.ggdig.com");
testHtml();
}
}