Java爬蟲框架 | 爬小說

阿新 • • 發佈：2018-06-20

java爬蟲 bytes 關於 pub util ati document crawl IE

Jsoup，Java爬蟲解決方案，中文文檔：jsoup

不得不說Java的生態真的好，原來我以為爬蟲是只能用Pyhton來寫的，結果發現Java的爬蟲框架不要太多…… 一分鐘你就可以寫一個簡單爬蟲
WebMagic in Action

不過個人覺得Jsoup最好用，最直接也很簡單

　寫了一個Demo,爬取筆趣網的小說，格式已過濾。

public class CrawlText {

    /***
     * 獲取文本
     * 
     * @param autoDownloadFile
     *            自動下載文件
     *  
@param Multithreading
     *            多線程 默認false
     * @param Url
     *            網站鏈接
     * @throws IOException
     */
    public static void getText(boolean autoDownloadFile, boolean Multithreading, String Url) throws IOException {

        
        String rule = "abs:href";
        
        

        
        List 
<String> urlList = new ArrayList<String>();

            
        Document document = Jsoup.connect(Url)
                .timeout(4000)
                .ignoreContentType(true)
                .userAgent("Mozilla\" to \"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0)")
                .get();
        
        System.out.println(document.toString());
        Elements urlNode  
= document.select("a[href$=.html]");
        
        for (Element element : urlNode) {
            urlList.add(element.attr(rule));
        }
        
        CrawTextThread crawTextThread = new CrawTextThread(urlList);
        crawTextThread.start();

        
    }

}

package xyz.yangchaojie.JSOUP.service;

import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.RandomAccessFile;
import java.util.List;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

public class CrawTextThread extends Thread {

    List<String> UrlList;

    public CrawTextThread(List<String> urlList) {
        this.UrlList = urlList;
    }

    String rule = "";
    String rule_title = "h1";
    String rule_content = "content";
    
    public static String PATH = "D:\\JSOUP\\";

    /**
     * 創建文件
     * 
     * @param fileName
     * @return
     */
    public static void createFile(File fileName) throws Exception {
        try {
            if (!fileName.exists()) {
                fileName.createNewFile();
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    
    }

    public static void writeTxtFile(String content, File fileName) throws Exception {
        RandomAccessFile mm = null;
        FileOutputStream o = null;
        try {
            o = new FileOutputStream(fileName);
            o.write(content.getBytes("UTF-8"));
            o.close();
        } catch (Exception e) {

            e.printStackTrace();
        } finally {
            if (mm != null) {
                mm.close();
            }
        }
    }

    @Override
    public void run() {
        currentThread().setName("一個都別跑:");
        
        String title;
        
        String content;
        
        for (String url : UrlList) {
                try {
                    
                    Document document = Jsoup.connect(url).timeout(6000).get();
                    title = document.select("h1").toString();
                    content = document.select("#content").html();
                    
                    System.out.println("線程:"+currentThread().getName()+"爬取URL—>"+url);
                    File file = new File(PATH+title.replaceAll("<h1>", "").replaceAll("</h1>", "")+".txt");
                    createFile(file);
                    System.out.println("創建文件:"+file.getPath());
                    writeTxtFile(FileterHtml(content), file);
                    
                } catch (IOException e) {
                    e.printStackTrace();
                } catch (Exception e) {
                    e.printStackTrace();
                }
        }

    }
    
    public static String FileterHtml(String str) {
        return str.replaceAll(" ", "").replaceAll("<br>", "\r\n");
        
    }
}

public static void main( String[] args )
    {
        try {
            CrawlText.getText(true, true, "http://www.biquge.com.tw/0_66/");
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }

RUN：

創建文件:D:\JSOUP\ 關於新書的種種，在此一並交代.txt
線程:一個都別跑:爬取URL—>http://www.biquge.com.tw/0_66/83312.html
創建文件:D:\JSOUP\ 第一章 失意相公.txt
線程:一個都別跑:爬取URL—>http://www.biquge.com.tw/0_66/83313.html
創建文件:D:\JSOUP\ 第二章 吊頸秀才.txt
線程:一個都別跑:爬取URL—>http://www.biquge.com.tw/0_66/83314.html
創建文件:D:\JSOUP\ 第三章 秦氏族叔.txt
線程:一個都別跑:爬取URL—>http://www.biquge.com.tw/0_66/83315.html
創建文件:D:\JSOUP\ 第四章 無妄之災.txt
線程:一個都別跑:爬取URL—>http://www.biquge.com.tw/0_66/83316.html
創建文件:D:\JSOUP\ 第五章 遊衙驚夢.txt
線程:一個都別跑:爬取URL—>http://www.biquge.com.tw/0_66/83317.html
創建文件:D:\JSOUP\ 第六章 運蹇時乖.txt
線程:一個都別跑:爬取URL—>http://www.biquge.com.tw/0_66/83318.html
創建文件:D:\JSOUP\ 第七章 白手起家（上）.txt
線程:一個都別跑:爬取URL—>http://www.biquge.com.tw/0_66/83319.html
創建文件:D:\JSOUP\ 第八章 白手起家（下）.txt
線程:一個都別跑:爬取URL—>http://www.biquge.com.tw/0_66/83320.html
創建文件:D:\JSOUP\ 第九章 江南才子.txt
線程:一個都別跑:爬取URL—>http://www.biquge.com.tw/0_66/83321.html
創建文件:D:\JSOUP\ 第十章 才子招財.txt
線程:一個都別跑:爬取URL—>http://www.biquge.com.tw/0_66/83322.html
創建文件:D:\JSOUP\ 第十一章 風靡江南.txt
線程:一個都別跑:爬取URL—>http://www.biquge.com.tw/0_66/83323.html
創建文件:D:\JSOUP\ 第十二章 原形畢露.txt
線程:一個都別跑:爬取URL—>http://www.biquge.com.tw/0_66/83324.html
創建文件:D:\JSOUP\ 第十三章 杜家危局.txt
線程:一個都別跑:爬取URL—>http://www.biquge.com.tw/0_66/83325.html
創建文件:D:\JSOUP\ 第十四章 流年不利.txt
線程:一個都別跑:爬取URL—>http://www.biquge.com.tw/0_66/83326.html
創建文件:D:\JSOUP\ 第十五章 化解危局（上）.txt
線程:一個都別跑:爬取URL—>http://www.biquge.com.tw/0_66/83327.html
創建文件:D:\JSOUP\ 第十六章 化解危局（中）.txt

Java爬蟲框架 | 爬小說

java爬蟲 bytes 關於 pub util ati document crawl IE Jsoup，Java爬蟲解決方案，中文文檔：jsoup 不得不說Java的生態真的好，原來我以為爬蟲是只能用Pyhton來寫的，結果發現Java的爬蟲框架不要太多……

JAVA爬蟲框架WebMagic爬取ajax請求的頁面資料

檢視WebMagic文件：http://webmagic.io/docs/zh/posts/ch1-overview/ 爬取網址需要翻牆： https://www.reddit.com/r/funny/ &

java集合框架+應用小技巧

log 排序分享圖片 width 方法 empty val nbsp 是否為空一、大體介紹 1.接口集體接口在collections: 提供了對集合進行排序，遍歷等多種算法的實現 List是不唯一，有序的 Set是唯一，有序的 1.ArrayList 不唯一

將scrapy爬蟲框架爬取到的資料存入mysql資料庫

使用scrapy爬取網站資料，是一個目前來說比較主流的一個爬蟲框架，也非常簡單。 1、建立好專案之後現在settings.py裡面把ROBOTSTXT_OBEY的值改為False，不然的話會預設遵循robots協議，你將爬取不到任何資料。 2、在爬蟲檔案裡開始寫

（11）Java爬蟲框架webmagic實戰

Java爬蟲框架webmagic實戰本文是我關於webmagic爬蟲框架的實戰——爬取古詩詞網站的詩詞資料。此程式碼只用於爬蟲學習，勿用於商業用途。安裝webmagic webmagic使用maven管理依賴，在專案中新增對應的依賴即可使用webmagic： <

（10）Java爬蟲框架webmagic學習筆記

Java爬蟲框架webmagic學習筆記參考自：webmagic文件 webmagic簡介 webmagic的github網址：https://github.com/code4craft/webmagic 使用webmagic的原因： webmagic是一個

一套簡單的java爬蟲框架VW-Crawler釋出啦！！！

VW-Crawler 背景自己一直對爬蟲比較感興趣，大學的畢業論文也是一個爬蟲專案(爬教務處資訊，然後做了個Android版教務管理系統，還獲得了優秀畢業設計的稱號)，自那以後遇到自己感興趣的網站就會去抓一下。前段時間工作上需要一些JD資訊，我就從網上

Java爬蟲框架SeimiCrawler V2.0升級來襲

主要變動完美支援SpringBoot，可以盡情的整合SpringBoot現有生態，demo參考回撥函式支援方法引用，設定起來更自然 push(Request.build(s.toSt

【爬蟲】簡單的Java爬蟲，爬取Sogou微信的首頁熱門文章

工作中遇到了一個場景，需要使用Sogou微信的熱門文章做展示，調研了一段時間，沒有發現有比較好用的免費介面，所以自己寫了一個，非常簡單。儲存Sogou熱門文章需要的類： /** * @author TangLei */ public class A

java爬蟲(Jsoup)爬取某新聞站點標題

import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import or

Python使用Scrapy爬蟲框架爬取天涯社群小說“大宗師”全文

大宗師是著名網路小說作家蛇從革的系列作品“宜昌鬼事”之一，在天涯論壇具有超級高的訪問量。這個長篇小說於2015年3月17日開篇，並於2016年12月29日大結局，期間每天有7萬多讀者閱讀。如果在天涯社群直接閱讀的話，會被很多讀者留言干擾，如圖於是，我寫了下面的程式碼，從

java爬蟲爬取資源，小白必須會的入門程式碼塊

java作為目前最火的語言之一，他的實用性也在被無數的java語言愛好者逐漸的開發，目前比較流行的爬取資源，用java來做也更簡單一些,下面是爬取網頁上所有手機型號，引數等極為簡便的資料 package day1805; import java.io.IOException; im

【Java爬蟲學習】WebMagic框架爬蟲學習實戰一：爬取網易雲歌單資訊，並存入mysql中

最近，需要使用Java進行爬蟲編寫，就去學了Java的爬蟲。因為之前學習了Scrapy框架，所以學Java的爬蟲使用了WebMagic框架，這個框架是基於Scrapy框架開發的。大家有興趣可以去看看操作文件：這個框架是國人開發的，所以說明文件都是中文，簡單易懂。

java爬蟲WebMagic框架爬取圖片

一.該爬蟲用了WebMagic爬蟲框架實現 2.在使用之前，您需要了解正則表示式和XPath，大神請忽略二.下面是實現程式碼和分析 2.1新增maven依賴 <dependency> <groupId>juni

java爬蟲一（分析要爬取數據的網站）

java爬蟲一、獲取你想要抓取的網站地址：http://www.zhaopin.com/然後打開控制臺，F12，打開。我用的是Chrome瀏覽器，跟個人更喜歡Chrome的控制臺字體。找到搜索欄對應的html標簽：http://sou.zhaopin.com/jobs/searchresult.ashx?jl

java後臺框架 springmvc整合mybatis框架源碼 java圖片爬蟲 bootstra

java 官網 http://www.fhadmin.org/A代碼編輯器，在線模版編輯，仿開發工具編輯器，pdf在線預覽，文件轉換編碼B 集成代碼生成器 [正反雙向](單表、主表、明細表、樹形表，快速開發利器)+快速表單構建器freemaker模版技術，0個代碼不用寫，生成完整的一個模塊，帶頁面、建表sq

java後臺框架 springmvc整合mybatis框架源碼 java圖片爬蟲 bootstrap

支持 java圖片 pie ext eem 異步操作分配自動擴展 A代碼編輯器，在線模版編輯，仿開發工具編輯器，pdf在線預覽，文件轉換編碼B 集成代碼生成器 [正反雙向](單表、主表、明細表、樹形表，快速開發利器)+快速表單構建器freemaker模版技術，0個代

java爬蟲問題二: 使用jsoup爬取數據class選擇器中空格多選擇怎麽解決

凱哥Java問題描述：在使用jsoup爬取其他網站數據的時候，發現class是帶空格的多選擇，如果直接使用doc.getElementsByClass(“class的值”),這種方法獲取不到想要的數據。爬取網站頁面結構如下：其中文章列表的div為：<div class="am-cf in

教你分分鐘學會用python爬蟲框架Scrapy爬取你想要的內容

python 爬蟲 Scrapy python爬蟲教你分分鐘學會用python爬蟲框架Scrapy爬取心目中的女神 python爬蟲學習課程，下載地址：https://pan.baidu.com/s/1v6ik6YKhmqrqTCICmuceug 課程代碼原件：課程視頻：教你分分鐘學會用py

Java爬蟲爬取京東商品信息

1.2 image 商品 void code 更改 size pri name 以下內容轉載於《https://www.cnblogs.com/zhuangbiing/p/9194994.html》，在此僅供學習借鑒只用。 Maven地址 <dependency>

Java爬蟲框架 | 爬小說

Jsoup，Java爬蟲解決方案，中文文檔：jsoup

相關推薦