利用Python批量儲存51CTO部落格

阿新 • • 發佈：2018-11-11

一、背景

最近在整理部落格，近在51CTO官網存在文章，想將之前寫的全部儲存到本地，發現用markdown寫的可以匯出，富文字的則不行，就想利用Python批量儲存自己的部落格到本地。

二、程式碼

#!/bin/env python
# -*- coding:utf-8 -*-
# _auth:kaliarch

import requests
import time
from bs4 import BeautifulSoup
from selenium import webdriver

class BlogSave():
    # 定義headers欄位
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.89 Safari/537.36"
    }

    def __init__(self,blog_name,page_number,login_user_name,login_passwd):
        self.login_url = 'http://home.51cto.com/index'
        # 部落格使用者名稱
        self.blog_name = blog_name
        # 需要儲存的部落格多少頁
        self.page_number = page_number
        # 登陸的使用者
        self.login_user_name = login_user_name
        # 登陸的密碼
        self.login_passwd = login_passwd
        # 本地的chreomedriver驅動
        self.chromedirve = 'D:\chromedriver.exe'
        # blog 匯入url
        self.blog_save_url = 'http://blog.51cto.com/blogger/publish/'

    def get_urldict(self):
        """
        爬去使用者文章的url
        :param pagenumber:
        :return: urllist
        """
        content_dict = {}
        scrapy_urllist = ["http://blog.51cto.com/" + str(self.blog_name) + "/p" + str(page) for page in
                          range(1, int(self.page_number) + 1)]
        for scrapy_url in scrapy_urllist:
            response = requests.get(scrapy_url, headers=BlogSave.headers)
            soup = BeautifulSoup(response.content, 'lxml', from_encoding='utf-8')
            title_list = soup.find_all('a', class_='tit')

            for content in title_list:
                # 獲取url
                url = content['href']
                title_soup = BeautifulSoup(requests.get(url, headers=BlogSave.headers).content, 'lxml', from_encoding='utf-8')
                title = title_soup.find_all('h1', class_='artical-title')
                # 獲取標題
                # print(title[0].get_text())
                content_dict[title[0].get_text()] = url
                print(title[0].get_text(),url)

        return content_dict

    def save_blog(self,url_list):
        """
        通過模擬登陸儲存部落格檔案
        :return:
        """
        browser = webdriver.Chrome(self.chromedirve)
        # 開啟url
        browser.get(self.login_url)
        time.sleep(2)
        # 登陸
        browser.find_element_by_id('loginform-username').send_keys(self.login_user_name)
        browser.find_element_by_id('loginform-password').send_keys(self.login_passwd)
        browser.find_element_by_name('login-button').click()
        time.sleep(1)
        for url in url_list:
            browser.get(url)
            time.sleep(1)
            try:
                browser.find_element_by_xpath('//*[@id="blogEditor-box"]/div[1]/a[14]').click()
                time.sleep(2)
            except Exception as e:
                with open('fail.log','a') as f:
                    f.write(url + str(e))

    def run(self):
        # 獲取標題和url字典
        content_dict = self.get_urldict()
        # 獲取url列表
        id_list = []
        for value in content_dict.values():
            id_list.append(str(value).split('/')[-1])
        result_list = [ self.blog_save_url + str(id) for id in id_list ]
        print("result_list:",result_list)
        self.save_blog(result_list)

if __name__ == '__main__':
    # blogOper = BlogSave('kaliarch',1)
    # dict = blogOper.get_urldict()
    # value_list = [ value for value in dict.values()]
    # print(value_list)
    blogOper = BlogSave(blog_name='kaliarch',page_number=5,login_user_name=' 
[email protected]',login_passwd='xxxxxxxxxxxxx')
    blogOper.run()

三、測試

程式是使用者指定部落格的使用者名稱和需要抓取的頁碼數字，之後爬去所有與的文章標題和對應的url
後期通過selenium模擬登入，直接請求http://blog.51cto.com/blogger/publish/文章id可以直接匯出markdown寫的檔案，這個直接匯出沒辦法命名檔案很尷尬，但是匯出了總歸好的，後期可以讀檔案來給檔案命名
檢視匯出的markdown檔案

利用Python批量儲存51CTO部落格

一、背景最近在整理部落格，近在51CTO官網存在文章，想將之前寫的全部儲存到本地，發現用markdown寫的可以匯出，富文字的則不行，就想利用Python批量儲存自己的部落格到本地。二、程式碼 git地址 #!/bin/env python # -*- coding:utf-8 -*- # _au

利用python-flask搭建個人部落格

書籍：flask web開發（基於Python的web應用開發實戰）學習地址：點選開啟連結（大型專案的建立展示）在這個地址下又發現了某個作者的GitHub程式碼。搭建後可行。Python 2.7下執行同時發現了GitHub上基於該教程搭建的個人部落格：點選開啟連結 f

python 批量爬取部落格資料(僅供學習)

#coding:utf-8 import urllib import time import os page=1 while page<=7: url=['']*50

利用Python批量保存51CTO博客

文件 pro 模擬 sele req passwd http send 全部一、背景最近在整理博客，近在51CTO官網存在文章，想將之前寫的全部保存到本地，發現用markdown寫的可以導出，富文本的則不行，就想利用Python批量保存自己的博客到本地。二、代碼 gi

利用Python批量爬取XKCD動漫圖片，並批量儲存

import requests, os, bs4 url = 'https://xkcd.com' os.makedirs('xkcd',exist_ok = True) while not url.endswith('#'): # download the page

利用Python搜索51CTO推薦博客並保存至Excel

html_ 名稱 pri bin def text 網頁 .com contex 一、背景近期在學習爬蟲，利用Requests模塊獲取頁面，BeautifulSoup來獲取需要的內容，最後利用xlsxwriter模塊講內容保存至excel，在此記錄一下，後續可舉一反三，利

利用Python批量抓取京東評論數據

() 開始 book for return SQ 數據返回 python js對象京東圖書評論有非常豐富的信息，這裏面就包含了購買日期、書名、作者、好評、中評、差評等等。以購買日期為例，使用Python + Mysql的搭配進行實現，程序不大，才100行。相關的解釋我都在

python爬蟲設計刷部落格訪問量（刷訪問量，贊，爬取圖片）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

關於利用word釋出文章到部落格

目前大部分的部落格作者在寫部落格這件事情上都會遇到以下3個痛點：1.所有部落格平臺關閉了文件釋出介面，使用者無法使用Word，Windows Live Writer等工具來發布部落格。2.釋出到部落格或公眾號平臺的圖片無法轉載。由於所有部落格平臺，公眾號平臺（如微信）開啟了圖片防盜鏈功能，作

利用Word來發布部落格到部落格園(onenote類似）

目前大部分的部落格作者在用Word寫部落格這件事情上都會遇到以下3個痛點： 1.所有部落格平臺關閉了文件釋出介面，使用者無法使用Word，Windows Live Writer等工具來發布部落格。使用Word寫部落格需要在第三方部落格平臺註冊帳號，且需要第三方部落格平臺提供API介面。目前的有的部落格平臺均已

Python爬蟲實戰--CSDN部落格爬蟲（附贈瀏覽量小工具）

前言：哈哈，繼續高興一下，通過自己的小手段，讓部落格訪問量過萬啦~怎麼做到的呢？大家想一想我們近來所學的爬蟲知識，養兵千日用兵一時，在前面的學習，我們已經可以很輕鬆的爬去一些中小型和大型網站了，現在我們一起來思考一下，我們該怎麼去爬蟲CSDN網站，並順便提高一下我們部落格的瀏覽量呢？問

Python爬蟲爬取部落格園作業

要求第一部分：請分析作業頁面，爬取已提交作業資訊，並生成已提交作業名單，儲存為英文逗號分隔的csv檔案。檔名為：hwlist.csv 。檔案內容範例如下形式：學號,姓名,作業標題,作業提交時間,作業URL 20194010101,張三,羊車門作業,2018-1

利用python批量下載ERA的資料

終於開始用python了，只學了兩天的python小白上線下載資料（被逼的）。其實這個有一些很好的教程，我直接貼上好了。批量下載的教程其中的一些引數官網的解釋很清楚的，可以先試著下載一個月的資料，再獲取它的request提供參考最後是我的一些程式碼，以及註釋這

Python課程設計搭建部落格

設定環境變數 Path(兩個路徑) C:\Python27\Scripts C:\Python27 快速生成requirements.txt的安裝檔案 pip freeze > requirements.txt 安裝所需要的檔案 pip install -r req

感謝51CTO部落格，今天已經收到了中的獎品咯

第一次來51CTO是什麼時候已經不知道了，應該是在網上查資料的時候蹦出來的吧。那是好像是在實習，學到的知識只是僅限於書面上的一些東西。碰見感覺好多東西都不一樣。只好自己在網上來找資料。就在這時候看到了部落格。當時想我看個資料還要花錢網上百度的不有都是麼就因為這個心態我們會錯過了很多東西。慢慢的我懂了

利用Python批量修改資料夾下所有資料夾的檔名

話說需求產生動力。昨天下了一個小圖包。作者把所有的檔名都加上了他們自己的網站名....看得我吐血了0.1個壓縮包裡面還有好多個壓縮包。看得我心很累。所以希望按照檔名，批量修改我個人小相簿裡面的所有檔案的檔名./邪惡的笑用到的模組只有OS os.path.basena

使用python爬取csdn部落格訪問量

最近學習了python和爬蟲，想寫一個程式練練手，所以我就想到了大家都比較關心的自己的部落格訪問量，使用python來獲取自己部落格的訪問量，這也是後邊我將要進行的專案的一部分，後邊我會對部落格的訪問量進行分析，以折線圖和餅圖等視覺化的方式展示自己部落格被訪問的

利用Python來發高逼格的朋友圈！幾行程式碼帶你把一張圖分為九張！

除了可以處理規整的正方形圖片還可以處理非規則的圖片比如下面這張寬度遠大於高度的圖片作者是怎麼處理的呢？當然，想把一張圖片做成這樣子也很容易啦，現在很多手機上的圖片處理軟體都能實現。作者舉這個例子只是為了給大家介紹介紹PIL庫，感興趣的童鞋也可以練習練習程式設計嘛~好了，現在就來看看這個PIL庫到底是個什麼吧~

Django+python+eclipse 快速搭建部落格blog

1.新建Django專案選擇sqlite資料庫 2.建立部落格模組app 3.測試新建的模組是否正常 4.編輯程式碼 4.1修改 blog.models.py from django.db import model

利用Python批量儲存51CTO部落格

一、背景

二、程式碼

三、測試

相關推薦