1. 程式人生 > 其它 >【工具推薦】下載你在部落格園的文章原稿

【工具推薦】下載你在部落格園的文章原稿



推薦一下博主自己寫的python程式,以md格式下載自己在部落格園的隨筆原稿,保留分類,標記草稿和非公開的稿件。支援離線圖片

區別於其它的爬蟲是以訪客身份爬取文章閱讀頁面的html,這個下載器程式是以作者的身份獲取原稿內容的

希望能幫助大家拿回自己的資料

這是GitHub專案地址:

Cnblogs Blogger Downloader

以下是readme



Usage

Configuration

執行前需要進行配置:

  1. 開啟瀏覽器登入部落格園,登入時勾選"記住我"

  2. 登入後瀏覽器按F12,找到Cookie,拷貝.Cnblogs.AspNetCore.Cookies的值到main.py

    COOKIE

  3. main.pydl.CnblogsDownloader的第二個引數為下載路徑

可選的配置:

將隨筆中引用的圖片一併離線到隨筆的資料夾,需要更改main.py

# 將此行
downloader = dl.CnblogsDownloader(COOKIE, "D:\cnblogs")
# 改為
downloader = dl.CnblogsDownloader(COOKIE, "D:\cnblogs", download_img=True)

md中的連結會自動替換



Dependencies

pip install httpx



Start

配置好程式並安裝好httpx依賴後,命令列執行:

python main.py

會看到列印的輸出:



Features

下載的檔名為隨筆標題,分類和標題中的特殊字元\/:*?"<>|會被空格代替,檔案編碼為UTF-8

程式會區分你的隨筆是否是公開的,是否是草稿狀態,並在檔名後追加[非公開][草稿]

程式只能在Windows下執行,未做其他系統適配

如果你在部落格園中刪除了一篇文章,程式不會刪除相應的本地文章

.CnblogsDownloaderFlag.json中儲存著上次執行程式的時間,如果部落格園中的文章未更新,那麼不會反覆下載

一旦程式決定要下載某篇隨筆,那麼它會覆蓋此隨筆及其引用的圖片



For Developer

部落格園公開的api文件:

https://api.cnblogs.com/help

但顯然不夠用,而且要申請api許可權,於是自己根據網路通訊總結了幾個重要的api的文件:cnblogs-apiDoc