我是如何將部落格轉成PDF的

阿新 • • 發佈：2018-12-12

前言

只有光頭才能變強

之前有讀者問過我：“3y你的部落格有沒有電子版的呀？我想要份電子版的”。我說：“沒有啊，我沒有弄過電子版的，我這邊有個文章導航頁面，你可以去文章導航去找來看呀”..然後就沒有然後了。

最近也有個讀者提過這個問題，然後這兩天也沒什麼事做，所以打算折騰折騰，看看怎麼把部落格轉成PDF。

一、準備工作

要將部落格轉成PDF，我首先想到的是能不能將markdown檔案轉成PDF(因為平時我就是用markdown來寫部落格的)。

想了一下，原生markdown顯示的話，程式碼是沒有高亮的，格式也不會太好看。
所以就放棄了這個想法。

於是就去想一下，可不可以將HTML轉成PDF呢。就去GitHub搜了有沒有相關的輪子，也搜到了一些關於Python的爬蟲啥的，感覺還是蠻複雜的。

後來，終於搜到了個不錯的：

https://github.com/petterobam/my-html2file

**介紹：**收集一系列html轉文件的開源外掛，做成html頁面轉檔案的微服務整合Web應用，目前包含 html轉PDF、html轉圖片、html轉markdown等等。

功能：

網頁轉PDF（參用wkhtml2pdf外掛）
網頁轉圖片（參用wkhtml2pdf外掛）
網頁轉Markdown（參用jHTML2Md）
網頁轉WORD（參用Apache POI）

這裡我主要用到的網頁轉PDF這麼一個功能，對應的外掛是wkhtml2pdf。

1.1踩坑

發現了一個不錯的輪子了，感覺可行，於是就去下載來跑一下看看怎麼樣。啟動的時候倒沒有出錯，但在調介面的時候，老是丟擲異常。

於是就開始查一下路徑，url有沒有問題啦，查來查去發現都沒問題啊。

後來才發現我的wkhtml2pdf.exe檔案打不開，說我缺少幾個dll檔案。於是，我首先想到的是去wkhtml2pdf官網看看有沒有相關的問題，想重新下載一個，但官網都進不去...(不是牆的問題)

https://wkhtmltopdf.org/
(ps：一個週末過去了，發現又能打開了。)

好吧，於是就去找‘dll檔案缺失怎麼辦’。後面發現，安裝一下Visual C++ Redistributable for Visual Studio 2015就好了(沒有網上說得那麼複雜)

https://www.microsoft.com/zh-cn/download/confirmation.aspx?id=48145

完了之後，發現可以將一個HTML轉成PDF了，效果還不錯：

有目錄
可複製貼上
可跳轉到連結
清晰度好評

HTML轉成PDF

缺點：

頁面載入速度慢的HTML，圖片還沒加載出來就已經生成PDF了
- 所以我選用了部落格園(速度快)
在PDF的末尾有好幾頁不相關的(評論，廣告啥的)

本來想著能不能只擷取HTML博文的部分啊(評論，廣告和其他不相關的不擷取)。於是就去搜了一下，感覺是挺麻煩的，自己做了幾次試驗都沒弄出來，最後放棄了。

後來又想了一下，我不是有一個沒有廣告的部落格平臺嗎，剛好可以拿來用了。但是，我自己寫完的markdown是沒有全部儲存在硬碟上的，後來發現簡書可以下載已釋出文章的所有markdown。

簡書可以下載所有的文章

下載下來的文章，我想全部匯入到之前那個無廣告的部落格平臺上。但發現匯出來的markdown沒有高亮語法..

下載下來的markdown沒有高亮語法

// 沒有語法高亮咋看啊，所以到這裡我就放棄了，將就用一下部落格園生成的PDF吧

1.2爬蟲學習

上面GitHub提供的介面是一個URL生成一個PDF檔案，我是不可能一個一個將連結和標題放上去生成的(因為部落格園上發的也將近200篇了)。

而我是一點也不會爬蟲的，於是也去搜了一下Java的爬蟲輪子，發現一個很出名(WebMagic)

https://github.com/code4craft/webmagic

於是就跟著文件學習，也遇到了坑...文件給出的版本是0.7.3，我使用的JDK版本是8，用它的例子跑的時候丟擲了SSLException異常(然而網上的0.6.x版本是沒有問題的)

折騰完折騰去，也找到了0.7.3版本在JDK8上如何解決SSLException異常的辦法了：

http://www.cnblogs.com/vcmq/p/9484418.html

修改HttpClientDownloader和HttpClientGenerator這兩個類的部分程式碼就好了。

但是，我還是死活寫不出能用的程式碼出來(真的菜!)..後來去問了一下同事(公眾號：Rude3Knife)咋搞，他用Python幾分鐘就寫好了。


def get_blog_yuan(blog_name, header):
    for i in range(1, 6):
        url = 'https://www.cnblogs.com/' + blog_name + '/default.html?page=' + str(i)
        r = requests.get(url, headers=header, timeout=6)
        selector = etree.HTML(r.text)
        names = selector.xpath("//*[@class='postTitle']/a/text()")
        links = selector.xpath("//*[@class='postTitle']/a/@href")
        for num in range(len(names)):
            print(names[num], links[num])
        time.sleep(5)

我也不糾結了..直接用他爬下來的資料吧(:

WebMagic中文文件：

http://webmagic.io/docs/zh/

最後

最後我就生成了好多PDF檔案了：

PDF檔案

// 這篇文章簡單記錄下我這個過程吧，還有很多要改善的[//假裝TODO]。如果你遇到過這種需求，有更好的辦法的話不妨在評論區下告訴我~~

WebMagic我的Demo還沒寫好！！！如果有興趣或者用過WebMagic的同學，有空的話不妨也去爬爬我的部落格園的文章，給我一份程式碼(hhhhh)

分析可能的原因：部落格園反爬蟲or爬取規則沒寫好

部門的前輩建議我去了解一下機器學習，我也想擴充套件一下眼界，所以這陣子會去學一下簡單的機器學習知識。(當然啦，我後面也會補筆記的)

樂於分享和輸出乾貨的Java技術公眾號：Java3y。關注即可領取海量的視訊資源！

帥的人都關注了

文章的目錄導航：

https://github.com/ZhongFuCheng3y/3y

我是如何將部落格轉成PDF的

前言只有光頭才能變強之前有讀者問過我：“3y你的部落格有沒有電子版的呀？我想要份電子版的”。我說：“沒有啊，我沒有弄過電子版的，我這邊有個文章導航頁面，你可以去文章導航去找來看呀”..然後就沒有然後了。最近也有個讀者提過這個問題，然後這兩天也沒什麼事做，所以打算折騰折騰，看看怎麼把部落格轉成PDF。

利用itext將html頁面轉成pdf(不模糊)

relative long ble wid ems map entity repl oat 1.maven項目進入依賴 <dependency> <groupId>org.xhtmlrenderer</groupId>

迅捷CAD轉換器怎麽將CAD批量轉成PDF？

快捷一個 cad轉pdf 瀏覽器保存 ext log 進行微信迅捷CAD轉換器怎麽將CAD批量轉成PDF？在將CAD圖紙文件轉換成其他格式文件的批量轉換的過程中，CAD轉PDF格式的次數應該是非常之多的，這個時候我們就需要找到一個非常方便快捷的辦法來進行此項操作，下

java 編碼填充 word 模板生成 word合同，並將word合同轉成pdf 文件

&nbs

java基於maven專案將word模板轉成pdf下載

1、在poi.xml檔案下配置依賴 <dependency> <groupId>com.aspose</groupId> <artifactId&

java中如何將office檔案轉成pdf或者圖片（親測有效）

前段時間做專案時，需要將word文件在瀏覽器中開啟，一般的在瀏覽器中開啟word都是直接提示下載的，找了好久都是些pageoffice等的收費外掛，小專案成本要儘量壓縮，所以就放棄了這種收費的外掛了。突然想到有些瀏覽器能直接開啟pdf或者圖片，手機端也需要顯示圖片，所以可以

利用Java將word檔案轉成pdf檔案

說明：使用本方法計算機中必須含有office 一.準備工作 1.準備如圖三個檔案： 2.將第二個檔案複製到C:\Windows\System32，將第三個檔案複製到C:\Windows\SysWOW64，然後將這兩個檔案複製到jdk，jre裡面的bin資料夾二.開始編譯

將PDF格式檔案轉成二進位制並生成Base64編碼，將Base64編碼轉成PDF檔案

// 為工程新增 sun.misc.BASE64Encoder和sun.misc.BASE64Decoder包： //右鍵專案》屬性》Java Build Path》jre System Library 》access rules》resolution選擇accessi

java 編碼填充 word 模板生成 word合同，並將word合同轉成pdf 文件

java 編碼填充 word 模板生成 word合同，並將word合同轉成pdf 文件一、

C# 用wps（api v9）將word轉成pdf

argument documents 不知道 bbs rom gen als on() try 我們不產生代碼只是代碼的搬運工我們先來看一段跑不起來的代碼 ..各種未將對象應用到實例.. using System; using System.Collections.Ge

什麽是et文件？如何將et文件轉成PDF格式

跳過文件夾 follow mage ron 需要 href 原因 png et文件什麽格式呢？可能對於大部分工作的人來說，都遇見過它，但是很少人註意到這一點。在處理到et文件的時候，介於某種原因需要你將et格式的文件轉成PDF格式，那我們該如何解決呢？不會的夥伴可以看看下

怎樣將PNG格式的圖片轉成PDF格式

都知道我們經常在網上看到的圖片雖然有的看起來是一樣，但是右擊檢視圖片的屬性都是不一樣的。在這裡小編問大家一個問題，你們知道如何將一般圖片的格式轉換=成PDF格式嗎？就拿PNG轉PDF格式來說，可能大部分人都不知道如何進行解決的。那下面不妨看看小編是如何操作的！1：在電腦桌面新建一個資料夾取名為PNG圖片，然後

將html文件轉成pdf

（1）使用場景：在專案中使用到了合同，只有在合同的頭部，是不相同的。在合同的主體部分都是相同的，因此就把他放到了模板（html檔案）裡面。　　在使用者線上簽約完成之後，可以將pdf版的合同下載。（2）需求：憂傷可以看出，首先需要把html檔案轉成pdf。其次需要將pdf下載。（3）code：　

瀏覽器外掛形式將html轉成pdf，將html轉成圖片

javascript: (function () { var head = document.getElementsByTagName('head')[0]; var script = document.createElement('script'); var scrip

itext7將pdf模板轉成pdf檔案

使用adobe Acrobat Pro DC製作pdf模板這裡就略了，大家可以上網搜下，有很多方法擼程式碼在itext7第一節的基礎上在pom檔案新增junit依賴方便測試 <dependency> <groupId>juni

用html2canvas和jspdf實現將html轉成pdf下載到本地

解決了下載的圖片會模糊和偏移的問題 <script src="${basePath!}/js/bluebird.js"></script> <script src="${basePath!}/js/jspdf.debug.js"></script>

pandoc將含有中文的markdown檔案轉成pdf時的問題及思考

1 問題我寫了一個markdown檔案，裡面含有中文字元，我想利用pandoc將其轉換為pdf格式，採用下面命令： pandoc -f markdown_github my.md -o test.pdf --latex-engine=xelatex

將網頁轉成pdf的方法

Web pages are displayed with the help of browsers, most popular ones being Google Chrome, Internet Explorer and Mozilla FireFox (on Windows based systems

JAVA-Aspose將WORD和Excel轉成PDF

JAVA將Word轉成PDF 有通過dll擴充套件庫，Jacob的方式，這種方式必須本地安裝了Word，不能跨平臺通過Aspose的方式，該功能是付費版，需要破解，我本地測試Excel有水印，無法

一步快速將Smartform output轉成生成PDF檔案

世間竟有如此蓋世神功！最簡單的smart form output轉化成 PDF檔案的方式。 Form列印預覽介面在事務欄輸入T-code：PDF!，注意!為半形英文狀態下的感嘆號。輸入T-cod

我是如何將部落格轉成PDF的

前言

一、準備工作

1.1踩坑

1.2爬蟲學習

最後

相關推薦