爬蟲任務二：爬取(用到htmlunit和jsoup)通過百度搜索引擎關鍵字搜取到的新聞標題和url，並保存在本地文件中（主體借鑒了網上的資料）

阿新 • • 發佈：2018-05-09

標題 code rgs aps snap one reader url 預處理

采用maven工程，免著到處找依賴jar包

<project xmlns="http://maven.apache.org/POM/4.0.0"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.zhaowu</groupId>
    <artifactId>pachong01</artifactId>
    <version>0.0.1-SNAPSHOT</version>
    <dependencies>
        <!-- https:// 
mvnrepository.com/artifact/org.apache.httpcomponents/httpclient -->
        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpclient</artifactId>
            <version>4.5.3</version>
        </dependency>

        <!-- https:// 
mvnrepository.com/artifact/org.jsoup/jsoup -->
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.11.2</version>
        </dependency>

        <!-- https://mvnrepository.com/artifact/commons-io/commons-io --> 

        <dependency>
            <groupId>commons-io</groupId>
            <artifactId>commons-io</artifactId>
            <version>2.6</version>
        </dependency>

        <!-- https://mvnrepository.com/artifact/org.quartz-scheduler/quartz -->
        <dependency>
            <groupId>org.quartz-scheduler</groupId>
            <artifactId>quartz</artifactId>
            <version>2.3.0</version>
        </dependency>

        <!-- https://mvnrepository.com/artifact/cn.edu.hfut.dmic.webcollector/WebCollector -->
        <dependency>
            <groupId>cn.edu.hfut.dmic.webcollector</groupId>
            <artifactId>WebCollector</artifactId>
            <version>2.71</version>
        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.poi/poi -->
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi</artifactId>
            <version>3.17</version>
        </dependency>

        <!-- https://mvnrepository.com/artifact/net.sourceforge.htmlunit/htmlunit -->
        <dependency>
            <groupId>net.sourceforge.htmlunit</groupId>
            <artifactId>htmlunit</artifactId>
            <version>2.29</version>
        </dependency>



    </dependencies>
</project>

直接上代碼RenWu.class：

package com.zhaowu.renwu2;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlInput;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

public class RenWu {
    // 搜索頁數
    private static int N = 6;
    // 搜索關鍵詞
    private static String keyWord = "爬蟲";
    // 第一頁搜索結果
    private static HtmlPage firstBaiduPage;
    // Baidu對應每個搜索結果的第一頁第二頁第三頁等等其中包含“&pn=1”,“&pn=2”,“&pn=3”等等，
    // 提取該鏈接並處理可以獲取到一個模板，用於定位某頁搜索結果
    private static String template = "";

    public static void main(String[] args) {
        goSearch(N, keyWord);
    }

    private static void goSearch(final int n, final String keyWord) {
        Thread thread = new Thread(new Runnable() {
            public void run() {
                // 頁數
                int x = n;
                System.out.println("爬取百度關於關鍵字“" + keyWord + "”搜索結果的前" + x + "頁");
                FileUtil.toFile("爬取百度關於關鍵字“" + keyWord + "”搜索結果的前" + x + "頁\n");
                
                //1.獲取並輸出第一頁百度查詢內容
                Elements firstElementsLink = null;
                try {
                    firstElementsLink = getFirstPage(keyWord);
                } catch (Exception e) {
                    e.printStackTrace();
                } 
                for (Element link : firstElementsLink) {
                    // 鏈接url
                    String linkHref = link.attr("href");
                    // 鏈接標題
                    String linkText = link.text();
                    if(linkHref.length() > 13 & linkText.length() > 4) {
                        String content = "鏈接url: " + linkHref + "\n\t鏈接標題: " + linkText + "\n";
                        System.out.println(content);
                        FileUtil.toFile(content);
                    }
                }
                
                //2.讀取第二頁及之後頁面預處理
                // 以firstBaiduPage作為參數，定義template，即網頁格式。
                nextHref(firstBaiduPage);
                
                //3.獲取百度第一頁之後的搜索結果
                for(int i = 1; i< x; i++) {
                    System.out.println("\n---------百度搜索關鍵字“" + keyWord + "”第" + (i + 1) + "頁結果------");
                    FileUtil.toFile("\n---------百度搜索關鍵字“" + keyWord + "”第" + (i + 1) + "頁結果------" + "\n");
                    // 根據已知格式修改生成新的一頁的鏈接
                    String tempURL = template.replaceAll("&pn=1", "&pn=" + i + "");
                    // 顯示該搜索模板
                    System.out.println("\t該頁地址為：" + tempURL);
                    RenWu renWu = new RenWu();
                    // 實現摘取網頁源碼
                    String htmls = renWu.getPageSource(tempURL, "utf-8");
                    // 網頁信息轉換為jsoup可識別的doc模式
                    Document doc = Jsoup.parse(htmls);
                    // 摘取該頁搜索鏈接
                    Elements links = doc.select("a[data-click]");
                    // 該處同上getFirstPage的相關實現
                    for (Element link : links) {
                        // 鏈接url
                        String linkHref = link.attr("href");
                        // 鏈接標題
                        String linkText = link.text();
                        if(linkHref.length() > 13 & linkText.length() > 4) {
                            String content = "鏈接url: " + linkHref + "\n\t鏈接標題: " + linkText + "\n";
                            System.out.println(content);    
                            FileUtil.toFile(content);
                        }
                    }
                }
            }
        });
        thread.start();
    }
    
    public String getPageSource(String pageURL, String encoding) {
        // 輸入：url鏈接&編碼格式
        // 輸出：該網頁內容
        StringBuffer sb = new StringBuffer();
        try {
            // 構建一URL對象
            URL url = new URL(pageURL);
            // 使用openStream得到一輸入流並由此構造一個BufferedReader對象
            InputStream in = url.openStream();
            InputStreamReader ir = new InputStreamReader(in);
            BufferedReader br = new BufferedReader(ir);
            String line;
            while((line = br.readLine()) != null) {
                sb.append(line);
                sb.append("\n");
            }
            br.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
        return sb.toString();
    }

    /*
     * 獲取百度搜索第一頁內容
     */
    public static Elements getFirstPage(String keyWord) throws FailingHttpStatusCodeException, MalformedURLException, IOException {
        //設置瀏覽器的User-Agent
        WebClient webClient = new WebClient(BrowserVersion.FIREFOX_52);
        // HtmlUnit對JavaScript的支持不好，關閉之
        webClient.getOptions().setJavaScriptEnabled(false);
        // HtmlUnit對CSS的支持不好，關閉之
        webClient.getOptions().setCssEnabled(false);
        // 百度搜索首頁頁面
        HtmlPage htmlPage = webClient.getPage("http://www.baidu.com/");
        // 獲取搜索輸入框並提交搜索內容（查看源碼獲取元素名稱）
        HtmlInput input = htmlPage.getHtmlElementById("kw");
        // 將搜索詞模擬填進百度輸入框（元素ID如上）
        input.setValueAttribute(keyWord);
        // 獲取搜索按鈕並點擊
        HtmlInput btn = htmlPage.getHtmlElementById("su");
        // 模擬搜索按鈕事件,獲取第一頁的html內容
        firstBaiduPage = btn.click();
        // 將獲取到的百度搜索的第一頁信息輸出
        // 通過page.asXml()來獲取百度首頁的源代碼，
        // 通過page.asTest()來獲取頁面的文字
        String content = firstBaiduPage.asXml().toString();
        // 轉換為Jsoup識別的doc格式
        Document doc = Jsoup.parse(content);
        System.out.println("---------百度搜索關鍵字“" + keyWord + "”第1頁結果--------");
        FileUtil.toFile("---------百度搜索關鍵字“" + keyWord + "”第1頁結果--------" + "\n");
        // 返回包含類似<a......data-click=" "......>等的元素
        Elements firstElementsLink = doc.select("a[data-click]");
        // 返回此類鏈接，即第一頁的百度搜素鏈接
        return firstElementsLink;
    }
    
    /*
     * 獲取下一頁地址
     */
    public static void nextHref(HtmlPage firstBaiduPage) {
        
        WebClient webClient = new WebClient(BrowserVersion.FIREFOX_52);
        webClient.getOptions().setJavaScriptEnabled(false);
        webClient.getOptions().setCssEnabled(false);
        // 獲取到百度第一頁搜索的底端的頁碼的html代碼
        String morelinks = firstBaiduPage.getElementById("page").asXml();
        // 轉換為Jsoup識別的doc格式
        Document doc = Jsoup.parse(morelinks);
        // 提取這個html中的包含<a href=""....>的部分
        Elements links = doc.select("a[href]");
        // 設置只取一次每頁鏈接的模板格式
        boolean getTemplate = true;
        for (Element e : links) {
            // 將提取出來的<a>標簽中的鏈接取出
            String linkHref = e.attr("href");
            if(getTemplate) {
                // 補全模板格式
                template = "http://www.baidu.com" + linkHref;
                getTemplate = false;
            }
        }
    }
}

導出到本地文件（末尾追加）的封裝方發類FileUtil.class：

package com.zhaowu.renwu2;

import java.io.File;
import java.io.FileWriter;
import java.io.IOException;

public class FileUtil {
    public static void toFile (String content) {
        File file = null;
        FileWriter fw = null;
        file = new File("/home/acer/桌面/aaa");
        try {
            if (!file.exists()) {
                file.createNewFile();
            }
            fw = new FileWriter(file,true);
            fw.write(content);//向文件中復制內容
            fw.flush();
        } catch (IOException e) {
            e.printStackTrace();
        }finally{
            if(fw != null){
                try {
                    fw.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
    }
}

爬蟲任務二：爬取(用到htmlunit和jsoup)通過百度搜索引擎關鍵字搜取到的新聞標題和url，並保存在本地文件中（主體借鑒了網上的資料）

標題 code rgs aps snap one reader url 預處理采用maven工程，免著到處找依賴jar包 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:

自動生成不同難度的數學試卷系統，並輸出到txt文件中，命名為當前時間（java）

註意點文件中技術 alt 賬號希望 http 遞歸重要前言：花了一整天時間修修補補寫完代碼，現在寫篇博客，一是希望後來的人有個參考，二是記錄下自己的所獲方便以後查閱，三是趁眾大佬還沒做，混點訪問量以前做項目都是自己做，這次是真切的體會到了為別人做事多麽麻煩，這

python爬蟲十二：爬取快速ip代理，攻破503

轉：https://zhuanlan.zhihu.com/p/26701898 1.自定爬蟲方法 # -*- coding: utf-8 -*- import scrapy import requests from proxy.items import ProxyItem

用numpy計算成交量加權平均價格（VWAP），並實現讀寫文件

算法 txt log ack etx png del pack pan VWAP（Volume-Weighted Average Price，成交量加權平均價格）是一個非常重要的經濟學量，它代表著金融資產的“平均”價格。某個價格的成交量越高，該價格所

磁盤當前目錄下存在文件 c1.txt，其中存放了一段英文文字。請編程實現將c1.txt中英文文字全部轉換為答謝字母，並保存到c2.txt中。要求：c2.txt文件前面保存的是c1.txt文案中的原始文字，後面緊跟著的是轉換後的文字

txt urn getc () str void fread 文件寫入 || #include"stdio.h"#include"string.h" void main(){ 　　FILE *fp1,*fp2; 　　char ch[1000]=" ",c; 　　int i=

python3爬取指定百度貼吧頁面並儲存成本地文件（批量爬取貼吧頁面資料）

首先我們建立一個python檔案, tieba.py，我們要完成的是，輸入指定百度貼吧名字與指定頁面範圍之後爬取頁面html程式碼，我們首先觀察貼吧url的規律，比如：發現規律了吧，貼吧中每個頁面不同之處，就是url最後的pn的值，其餘的都是一樣的，我們

C# 不重啟程序修改並保存配置文件（appSettings節點）

fresh manager pre reac eve res 並保存 string mov private static void UpdateAppConfig(string newKey, string newValue) { bool isModified

BZOJ 3289 Mato的文件管理（莫隊+樹狀數組）

light limit .com print long long blank cmp tar getch 【題目鏈接】 http://www.lydsy.com/JudgeOnline/problem.php?id=3289 【題目大意】　　求靜態區間逆序

搜索引擎蜘蛛抓取配額是什麽?

搜索引擎蜘蛛抓取配額是什麽? 一月份時，Google新的SEO代言人Gary Illyes在Google官方博客上發了一篇帖子：What Crawl Budget Means for Googlebot，討論了搜索引擎蜘蛛抓取份額相關問題。對大中型網站來說，這是個頗為重要的SEO問題，有

Java導出List集合到txt文件中——（四）

cde cos ajp d+ wap ogr alt jns kvo 有時候，需要將數據以一定格式導出到txt文件中。利用Java的IO可以輕松的導出數據到txt中。 1 package Action.txt; 2 3 import java.io.Buffere

操作系統-文件目錄（又發現一個數據結構）

spa 文件目錄 height 數據結構 png 操作系統 src title 技術分享另外一種回答 ——————————————————- 操作系統-文件目錄（又發現一個數據結構）

第三百五十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—將bloomfilter(布隆過濾器)集成到scrapy-redis中

分布式爬蟲 times 操作加載 ger 目錄需要 ini space 第三百五十八節，Python分布式爬蟲打造搜索引擎Scrapy精講—將bloomfilter(布隆過濾器)集成到scrapy-redis中，判斷URL是否重復布隆過濾器(Bloom Filte

spingmvc的外置properties文件讀取（java循環利用properties內容）

bank return nco ping throw ssp per exce oid 既然已經有了applicationContext.xml的properties路徑，java不必再設定properties路徑。 applicationContext.xml 改前:

編寫一個程序,將 a.txt 文件中的單詞與 b.txt 文件中的單詞交替合並到 c.txt 文件中,a.txt 文件中的單詞用回車符分隔,b.txt 文件中用回車或空格進行分隔。

程序 AD res exception oid lin spl 一個 path import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader;

判斷今天屬於這月的第幾周，並展示這一週的日期（含自定義日期拼接顯示）

這個可以用於簽到打卡本週資訊的展示思路很簡單：首先獲取這個月的1號是星期幾，如果就是星期一就很簡單這就是第一週的第一天然後向後面推算就可以計算出剩下的資訊如果是星期二需要向上一個月推算一天，就必須獲取這個月分知道上一個月有多少天，如果這個月是一月上一個月就是1

爬蟲二：爬取智聯招聘職位資訊

1. 簡介因為想要找到一個數據分析的工作，能夠了解到市面上現有的職位招聘資訊也會對找工作有所幫助。今天就來爬取一下智聯招聘上資料分析師的招聘資訊，並存入本地的MySQL。 2. 頁面分析 2.1 找到資料來源開啟智聯招聘首頁，選擇資料分析師職位，跳轉進入資料分析師的詳情頁面。我

網路爬蟲之Scrapy實戰二：爬取多個網頁

前面介紹的scrapy爬蟲只能爬取單個網頁。如果我們想爬取多個網頁。比如網上的小說該如何如何操作呢。比如下面的這樣的結構。是小說的第一篇。可以點選返回目錄還是下一頁對應的網頁程式碼：我們再看進入後面章節的網頁，可以看到增加了上一頁對應的網頁程式碼通過

Python爬蟲新手教程：爬取了6574篇文章，告訴你產品經理在看什麼！

作為網際網路界的兩個對立的物種，產品汪與程式猿似乎就像一對天生的死對頭；但是在產品開發鏈條上緊密合作的雙方，只有通力合作，才能更好

爬蟲+詞雲：爬取豆瓣電影top100的導演制作圖雲

ray 爬取 open tex 下載頁面 down app zhong form 前段時間做了一個關於豆瓣電影的爬蟲，之後又寫了一個陳奕迅歌詞的詞雲制作，於是我想不如做一個關於豆瓣高分電影導演的詞雲試試，於是有了接下來這篇隨筆。首先，我需要知道豆瓣top100電影詳情頁面

Python爬蟲小實踐：尋找失蹤人口，爬取失蹤兒童信息並寫成csv文件，方便存入數據庫

python tor enc mini 執行 gem view 獲取但是前兩天有人私信我，讓我爬這個網站，http://bbs.baobeihuijia.com/forum-191-1.html上的失蹤兒童信息，準備根據失蹤兒童的失蹤時的地理位置來更好的尋找失蹤兒童，這

爬蟲任務二：爬取(用到htmlunit和jsoup)通過百度搜索引擎關鍵字搜取到的新聞標題和url，並保存在本地文件中（主體借鑒了網上的資料）

相關推薦