【工具推薦】下載你在部落格園的文章原稿
阿新 • • 發佈:2022-03-23
序
推薦一下博主自己寫的python程式,以md格式下載自己在部落格園的隨筆原稿,保留分類,標記草稿和非公開的稿件。支援離線圖片
區別於其它的爬蟲是以訪客身份爬取文章閱讀頁面的html,這個下載器程式是以作者的身份獲取原稿內容的
希望能幫助大家拿回自己的資料
這是GitHub專案地址:
以下是readme
Usage
Configuration
執行前需要進行配置:
-
開啟瀏覽器登入部落格園,登入時勾選"記住我"
-
登入後瀏覽器按F12,找到Cookie,拷貝
.Cnblogs.AspNetCore.Cookies
的值到main.py
COOKIE
中 -
main.py
中dl.CnblogsDownloader
的第二個引數為下載路徑
可選的配置:
將隨筆中引用的圖片一併離線到隨筆的資料夾,需要更改main.py
# 將此行
downloader = dl.CnblogsDownloader(COOKIE, "D:\cnblogs")
# 改為
downloader = dl.CnblogsDownloader(COOKIE, "D:\cnblogs", download_img=True)
md中的連結會自動替換
Dependencies
pip install httpx
Start
配置好程式並安裝好httpx依賴後,命令列執行:
python main.py
會看到列印的輸出:
Features
下載的檔名為隨筆標題,分類和標題中的特殊字元\/:*?"<>|
會被空格代替,檔案編碼為UTF-8
程式會區分你的隨筆是否是公開的,是否是草稿狀態,並在檔名後追加[非公開]
或[草稿]
程式只能在Windows下執行,未做其他系統適配
如果你在部落格園中刪除了一篇文章,程式不會刪除相應的本地文章
.CnblogsDownloaderFlag.json
中儲存著上次執行程式的時間,如果部落格園中的文章未更新,那麼不會反覆下載
一旦程式決定要下載某篇隨筆,那麼它會覆蓋此隨筆及其引用的圖片
For Developer
部落格園公開的api文件: https://api.cnblogs.com/help
但顯然不夠用,而且要申請api許可權,於是自己根據網路通訊總結了幾個重要的api的文件:cnblogs-apiDoc