黑馬程式設計師_網路爬蟲

阿新 • • 發佈：2019-02-08

發現一個好玩的東西，利用HtmlUnit開源專案寫簡單爬蟲

HtmlUnit其實就是一個後臺執行的JAVA瀏覽器，便捷，高效。
HtmlUnit請自行GOOGLE下載
參考程式碼

public class test{
    WebClient webClient=new WebClient();
    webClient.getOptions().setCssEnabled(false);//關閉css
    webClient.getOptions().setJavaScriptEnabled(false);//關閉JavaScript 如需執行指令碼可設定為true
    final HtmlPage page=webClient.getPage("http://www.163.com" 
);//設定需抓取的網站地址
    System.out.println(page.asText());//輸入列印
    webClient.closeAllWindows();
}

模擬特定瀏覽器，也可以指定瀏覽器的相應版本(HtmlUnit最新版2.13現在可以模擬的瀏覽器有Chrome/FireFox/IE)

//模擬chorme瀏覽器，其他瀏覽器請修改BrowserVersion.後面
WebClient  webClient=new WebClient(BrowserVersion.CHROME);

查詢特定元素，通過get或者XPath可以從HtmlPage中獲得特定的Html元素，如下例子

方法一，通過get方法獲取
HtmlPage page=webClient.getPage("http://www.163.com");
HtmlDivision div=(HtmlDivision)page.getElementById("hed");


方法二，通過XPath獲取，XPath通常用於無法通過Id搜尋，或者需要更為複雜的搜尋時，XPath的相關教程自行GOOGLE
//同樣可以打印出hed的內容,//div中//表示搜尋整個文件中的div,並將這些div
//放入list中，然後獲取第一個div
final HtmlDivision div = (HtmlDivision) page.getByXPath 
("//div").get(0);
System.out.println(div.asXml());

黑馬程式設計師_網路爬蟲

發現一個好玩的東西，利用HtmlUnit開源專案寫簡單爬蟲 HtmlUnit其實就是一個後臺執行的JAVA瀏覽器，便捷，高效。 HtmlUnit請自行GOOGLE下載參考程式碼 public class test{ WebClient

黑馬程式設計師_網路程式設計TCP之學習筆記

------- android培訓、java培訓、期待與您交流！ ---------- TCP網路傳輸。客戶端和服務端,分別對應著兩個物件。 Scoket（客戶端）和ServerSocket（服務端）。 Socket(String address, int po

黑馬程式設計師——Java 網路程式設計

-----------android培訓、java培訓、java學習型技術部落格、期待與您交流！------------ 一、概述 1.網路模型網路模型常見的有ISO參考模型和TCP/IP參考模型，兩者的對應關係如下圖：　　ISO參考模型分為七個層次：應用層、表示層、

黑馬程式設計師_學習日記六_集合一

---------------------- android培訓、java培訓、期待與您交流！ ---------------------- 集合框架（集合類）體系概述集合類：面嚮物件語言對事物的體現都是以物件的形式，所以為了方便對多個類物件進行操作，就對

黑馬程式設計師_列舉小結

----------android培訓、java培訓、期待與您的交流---------- 簡單列舉： enum Grade { A("100-90"), B("89-80"), C("79-70"), D("69-60"), E("59-0");// Object p

黑馬程式設計師_ 利用oc的協議實現代理模式

先說下代理模式是什麼吧定義：為其他物件提供一種代理以控制對這個物件的訪問。在某些情況下，一個物件不適合或者不能直接引用另一個物件而代理物件可以在客戶端和目標物件之間起到中介的作用。在看過李明傑老師的課程後，我對代理模式有了最初步的理解，雖然還很淺顯但是也明白了

黑馬程式設計師_面向物件（思維導圖）

----------------------<ahref="http://edu.csdn.net"target="blank">ASP.Net+Android+IOS開發</a>、<ahref="http://edu.csdn.net"target="blank">.

黑馬程式設計師_基於老畢視訊和瘋狂java第4節的思維導圖

----------------------<ahref="http://edu.csdn.net"target="blank">ASP.Net+Android+IOS開發</a>、<ahref="http://edu.csdn.net"t

黑馬程式設計師_學習筆記JAVA基礎總結

1、方法過載方法覆蓋過載：一個類中一種功能的多種實現方式，呼叫哪種實現方式，根據呼叫者給出的引數。有兩個或多個方法方法名相同，但是引數型別或者引數個數或者引數順序不同。覆蓋：子類重寫父類的一個函式，函式名，引數，返回型別都相同。覆蓋的應用：當子類需要父

黑馬程式設計師之 --- 網路程式設計

　------- <a href="http://www.itheima.com" target="blank">android培訓</a>、<a href="http://www.itheima.com" target="blank">

黑馬程式設計師_基礎測試

-------、java培訓、期待與您交流！ ---------- 黑馬程式設計師訓練營基礎測試題及個人程式碼（包含思路、步驟和基本註釋） 1、編寫程式計算12+22+32

黑馬程式設計師---計算機網路分層結構及原則

------- android培訓、java培訓、期待與您交流！ ---------- 大學期間計算機網路課上，老師說常用的分層結構是5層結構，培訓視訊上一般說的是7層，計算機網路是如何劃分層次和分層的原則？計算機網路分層結構：所謂網路的體系

黑馬程式設計師_黎活明_Spring2.5視訊教程-02_搭建與測試Spring的開發環境

黑馬程式設計師_黎活明_Spring2.5視訊教程01_全面闡釋Spring及其各項功能02_搭建與測試Spring的開發環境1.

黑馬程式設計師_終於找全了，Eclipse使用技巧！！！

1. ctrl+shift+r：開啟資源這可能是所有快捷鍵組合中最省時間的了。這組快捷鍵可以讓你開啟你的工作區中任何一個檔案，而你只需要按下檔名或mask名中的前幾個字母，比如applic*.xml。美中不足的是這組快捷鍵並非在所有檢視下都能用。 2.

【備忘】黑馬程式設計師_黎活明_Android核心基礎視訊教程下載

01_黑馬程式設計師_Android核心基礎視訊教程_前言.avi 02_黑馬程式設計師_Android核心基礎視訊教程_搭建Android開發環境.avi 03_黑馬程式設計師_Android核心基礎視訊教程_建立與啟動手機模擬器和學習使用ANDROID作業系統.a

黑馬程式設計師_我的Linux基礎整理筆記

------- android培訓、java培訓、期待與您交流！ ---------- Linux的原創整理和積累 Linux Linux檔案目錄和分割槽檔案目錄： /：根目錄 /root：存放root使用者的相關檔案 /home：存放普通使用者的相關檔案 /b

黑馬程式設計師_集合和IO學習

學習了集合和IO之後，有些知識很容易忘記，為了加強記憶，我用課程中ppt的相關圖片幫助理解集合學習 Set是沒有順序且不可以重複 List中的資料有順序且可以重複 Iterator物件的remove方法是迭代過程中唯一刪除元素安全的方法 Array讀取快改慢 Lin

黑馬程式設計師_銀行排程業務

---------------------- <a href="http://edu.csdn.net/heima"target="blank">android培訓</a>、<a href="http://edu.csdn.net/heima

黑馬程式設計師_基礎加強（註解）

---------------------- ASP.Net+Android+IO開發S、.Net培訓、期待與您交流！ ---------------------- 註解（annotation）是jdk1.5的新特性瞭解註解及java提供的幾個基本註解 1）先通過@S

黑馬程式設計師_面試題1(交通燈管理系統)

一.專案需求：模擬實現十字路口的交通燈管理系統邏輯：非同步隨機生成按照各個路線行駛的車輛。例如：由南向而來去往北向的車輛 ---- 直行車輛由西向而來去往南向的車輛 ---- 右

黑馬程式設計師_網路爬蟲

發現一個好玩的東西，利用HtmlUnit開源專案寫簡單爬蟲

相關推薦