利用Python批量保存51CTO博客

阿新 • • 發佈：2018-10-17

文件 pro 模擬 sele req passwd http send 全部

一、背景

最近在整理博客，近在51CTO官網存在文章，想將之前寫的全部保存到本地，發現用markdown寫的可以導出，富文本的則不行，就想利用Python批量保存自己的博客到本地。

二、代碼

git地址

#!/bin/env python
# -*- coding:utf-8 -*-
# _auth:kaliarch

import requests
import time
from bs4 import BeautifulSoup
from selenium import webdriver

class BlogSave():
    # 定義headers字段
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.89 Safari/537.36"
    }

    def __init__(self,blog_name,page_number,login_user_name,login_passwd):
        self.login_url = ‘http://home.51cto.com/index‘
        # 博客用戶名
        self.blog_name = blog_name
        # 需要保存的博客多少頁
        self.page_number = page_number
        # 登陸的用戶
        self.login_user_name = login_user_name
        # 登陸的密碼
        self.login_passwd = login_passwd
        # 本地的chreomedriver驅動
        self.chromedirve = ‘D:\chromedriver.exe‘
        # blog 導入url
        self.blog_save_url = ‘http://blog.51cto.com/blogger/publish/‘

    def get_urldict(self):
        """
        爬去用戶文章的url
        :param pagenumber:
        :return: urllist
        """
        content_dict = {}
        scrapy_urllist = ["http://blog.51cto.com/" + str(self.blog_name) + "/p" + str(page) for page in
                          range(1, int(self.page_number) + 1)]
        for scrapy_url in scrapy_urllist:
            response = requests.get(scrapy_url, headers=BlogSave.headers)
            soup = BeautifulSoup(response.content, ‘lxml‘, from_encoding=‘utf-8‘)
            title_list = soup.find_all(‘a‘, class_=‘tit‘)

            for content in title_list:
                # 獲取url
                url = content[‘href‘]
                title_soup = BeautifulSoup(requests.get(url, headers=BlogSave.headers).content, ‘lxml‘, from_encoding=‘utf-8‘)
                title = title_soup.find_all(‘h1‘, class_=‘artical-title‘)
                # 獲取標題
                # print(title[0].get_text())
                content_dict[title[0].get_text()] = url
                print(title[0].get_text(),url)

        return content_dict

    def save_blog(self,url_list):
        """
        通過模擬登陸保存博客文件
        :return:
        """
        browser = webdriver.Chrome(self.chromedirve)
        # 打開url
        browser.get(self.login_url)
        time.sleep(2)
        # 登陸
        browser.find_element_by_id(‘loginform-username‘).send_keys(self.login_user_name)
        browser.find_element_by_id(‘loginform-password‘).send_keys(self.login_passwd)
        browser.find_element_by_name(‘login-button‘).click()
        time.sleep(1)
        for url in url_list:
            browser.get(url)
            time.sleep(1)
            try:
                browser.find_element_by_xpath(‘//*[@id="blogEditor-box"]/div[1]/a[14]‘).click()
                time.sleep(2)
            except Exception as e:
                with open(‘fail.log‘,‘a‘) as f:
                    f.write(url + str(e))

    def run(self):
        # 獲取標題和url字典
        content_dict = self.get_urldict()
        # 獲取url列表
        id_list = []
        for value in content_dict.values():
            id_list.append(str(value).split(‘/‘)[-1])
        result_list = [ self.blog_save_url + str(id) for id in id_list ]
        print("result_list:",result_list)
        self.save_blog(result_list)

if __name__ == ‘__main__‘:
    # blogOper = BlogSave(‘kaliarch‘,1)
    # dict = blogOper.get_urldict()
    # value_list = [ value for value in dict.values()]
    # print(value_list)
    blogOper = BlogSave(blog_name=‘kaliarch‘,page_number=5,login_user_name=‘[email protected]‘,login_passwd=‘xxxxxxxxxxxxx‘)
    blogOper.run()

三、測試

程序是用戶指定博客的用戶名和需要抓取的頁碼數字，之後爬去所有與的文章標題和對應的url
後期通過selenium模擬登錄，直接請求http://blog.51cto.com/blogger/publish/文章id可以直接導出markdown寫的文件，這個直接導出沒辦法命名文件很尷尬，但是導出了總歸好的，後期可以讀文件來給文件命名
查看導出的markdown文件

利用Python批量保存51CTO博客

文件 pro 模擬 sele req passwd http send 全部一、背景最近在整理博客，近在51CTO官網存在文章，想將之前寫的全部保存到本地，發現用markdown寫的可以導出，富文本的則不行，就想利用Python批量保存自己的博客到本地。二、代碼 gi

利用Python批量儲存51CTO部落格

一、背景最近在整理部落格，近在51CTO官網存在文章，想將之前寫的全部儲存到本地，發現用markdown寫的可以匯出，富文字的則不行，就想利用Python批量儲存自己的部落格到本地。二、程式碼 git地址 #!/bin/env python # -*- coding:utf-8 -*- # _au

【java】itoo項目實戰之hibernate 批量保存優化

新的 hibernate 缺點 try 實戰 lis 插入 entity man 在itoo中。基本上每一個系統都有一個導入功能，大量的數據填寫進入excel模板中。然後使用導入功能導入的數據庫中，這樣能夠大大的提高工作效率。那麽導入就涉及到了批量保存數據庫的

使用windows Live Writer發布51CTO博客

windows 客戶端軟件 blank target 壓縮包總結一下在使用windows Live中發布博客文章遇到的問題： 1、先下載此客戶端軟件 http://down.51cto.com/data/2287041 下載完後，解壓此壓縮包，點擊open live選擇安裝：

出事了！出大事了！51CTO博客有新動作啦！

博客文章排行榜我的朋友我在博文中分享了那麽多的幹貨，要怎麽分享給我的朋友呢？我都升級到專家博主了，我怎麽才能在廣而告之呢？現在移動端都做的這麽牛掰，為啥文章卻只能屈居於PC端？圖樣圖森破！現在我們的51CTO博客全都可以適配哦！活動內容：1.申請推薦博文凡在2017年5月17日-20

51CTO博客發布H5移動版（適配手機）2017.5.17

51cto博客移動站各位，51CTO博客於5月17日發布H5移動版，可以適配手機和平板，分享文章到手機，閱讀體驗更佳，掃碼可以進入（進入後，可以收藏到瀏覽器或展示在手機桌面，以後可以打開進入博客）：後續我們還會繼續優化移動站的首頁，也歡迎廣大博友的建議和意見。51CTO博客發布H5移

51CTO博客移動化意味著什麽？

技術博客互聯網移動化我紅著臉寫下了這個標題。就好比在21世紀的今天，我煞有介事地說：“手機能上網意味著什麽？”好在，很多看起來不可思議的事情，在特定的環境下，就沒那麽匪夷所思了。如果對山區孩子說這句話，你們會理解的。51CTO匯聚著中國最精英的互聯網IT人，然而，社區卻還沒有移動化。這

51CTO博客首頁移動版將於7月內完成上線

51cto博客首頁移動版親愛的博主們，在51CTO博客首頁PC版本完成後，我們開啟了首頁移動端適配的開發，移動版首頁將於7月內完成，希望可以給大家在手機端更好的閱讀體驗~本文出自 “51CTO社區官方博客” 博客，請務必保留此出處http://51ctoblog.blog.51cto.co

51CTO博客舊版首頁截圖紀念

51cto博客首頁改版 2017年7月11日，51CTO博客PC端首頁進行改版，這個曾經陪伴了多年的舊版首頁已經超期服役，將告別歷史舞臺，但它也承載了我們很多作者的光榮與夢想、承載了我們很多閱讀的時光。特將舊版首頁截圖保存，以作留念。51CTO博客舊版首頁截圖紀念

【1分鐘教程】如何在手機桌面上直接打開51CTO博客？

51cto博客移動端博客首頁 51CTO博客移動端新版首頁上線，就是想讓好文章，隨時隨地隨你“移動”那麽你猜，在手機上打開博客需要多久呢？只需 1 秒！！！第一步：用手機自帶瀏覽器打開博客，地址：http://blog.51cto.com/，點擊下面紅框中的按鈕~第二步：選擇“添加到主屏幕”第三步：

使用 windows live writer 上傳51cto博客

地址 tro form 軟件下載裝包 setup clas spl lan 使用 windows live writer 上傳51cto博客前情摘要不習慣使用在線網頁編寫博客，幸好 51cto 提供了 live writer 上傳功能。

第一個python爬蟲——保存淘寶mm圖片

gen with open 代號 [] 文件夾暫時觀察 python基礎意義第一次算是成功的爬蟲小代碼，花了挺長時間的。目的：　　獲取淘寶mm圖片現存問題：　　無法獲取動態加載的圖片，只能得到打開網頁後存在的圖片　　雖然更換代理仍禁止訪問收獲：　　　對爬蟲的思路

51CTO博客2.0 - 關註功能上線啦

關註評論 ges 服務號首頁上線 sha -o images 2018年2月1日，下午 19:00，博客關註功能上線啦！關註功能有什麽用？擁有自己的粉絲自己更新文章後，粉絲會收到通知因為關註功能綁定了51CTO服務號，所以粉絲如果綁定了微信，那麽你更新文章

51CTO博客2.0——移動版關註功能正式上線

關註功能博客2.0 移動關註關註喜大普奔，2018年3月5日下午8點30分移動版關註功能正式上線了>>> 不知道關註功能是幹嘛的？(敲黑板，敲黑板，看這裏) 對於作者>>> 1、擁有屬於自己的粉絲2、增加自身品牌影響力3、將文章以最快的速度推送

51CTO博客2.0活躍之星評選大賽：獲獎圖書收到了！！！

其它 51cto活動我參加由51CTO組織的“51CTO博客2.0---活躍之星評選大賽“http://blog.51cto.com/51ctoblog/2097470” 獲得二等獎（自選圖書一本+學院金幣10個）。感謝大家的支持，希望以後有活動大家也踴躍參加，下面是收到的獲獎圖書，給大家分享一下

《51CTO博客2.0——活躍之星評選大賽》送的獲獎書籍及個人感言

活躍之星獲獎上個月參加的《51CTO博客2.0——活躍之星評選大賽》http://blog.51cto.com/51ctoblog/2097470非常榮幸地獲得了第一名，非常感謝主辦方51CTO博客這本書質量非常好，所以真的非常感謝51CTO博客！在51CTO網站的課程學習到很多的知識,裏面的課程和老師都

【重大好消息】51CTO博客滲透攻擊專欄的陳小兵老師開直播啦~

博客專欄專欄直播直播課【重大好消息】51CTO博客滲透攻擊專欄的陳小兵老師開直播啦~ 直播主題：SQLmap數據庫脫褲攻擊與防範直播時間：2018年5月28日20:30-10:30 直播形式：（QQ群：430231379）群直播點擊鏈接加入群聊【51CTO博客滲透專欄直播】

利用hexo+github創建個人博客

根據路徑 com 分鐘 deploy commit 打開 rate 喜歡因為想擁有一個獨屬於自己的個人博客啊。安裝部署hexo 進入一個安全的目錄，cd ~/Desktop 在 GitHub 上新建一個空 repo，repo 名稱是「你的GitHub用戶名.gith

利用Python批量抓取京東評論數據

() 開始 book for return SQ 數據返回 python js對象京東圖書評論有非常豐富的信息，這裏面就包含了購買日期、書名、作者、好評、中評、差評等等。以購買日期為例，使用Python + Mysql的搭配進行實現，程序不大，才100行。相關的解釋我都在

51CTO博客2.0新功能上線，快來跟我一起用一句話介紹自己

博客 proc HR BE cdc TP image pro 功能在今天這個萬眾矚目世界杯，人人等待端午節的日子裏，我們51CTO博客2.0終於又迎來了一次版本更新。現在大家跟我一起使用本次更新的新功能，用一句話介紹自己吧！！ Q:一句話簡介可以在那兒被看到？

利用Python批量保存51CTO博客

二、代碼

三、測試

相關推薦