python處理轉載部落格html

阿新 • • 發佈：2018-11-19

前景

在轉載別人部落格的時候通常我們會通過複製html然後放到編輯器裡面，但是通常html裡有很多雜七雜八的東西，比如script， svg這些標籤導致排版出現問題

例如由lu標籤引起的

在這裡插入圖片描述

由svg標籤引起的
在這裡插入圖片描述
當然要說你直接把不要的東西刪除也可以，但是作為一個程式設計師，能用電腦做的事當然是不用自己做啦，於是就有了下面一步

程式碼實現

程式碼採用Python，因為Python有BeautifulSoup，能很好的處理html檔案，例如指定標籤刪除等，所以就採用Python3來寫這些程式碼。

分析出現排版問題的原因

程式碼行下方出現數字是因為有
開頭顯示不正常是因為註釋和

<svg>

在這裡插入圖片描述

如何去除指定標籤和註釋

#去除屬性ul
[s.extract() for s in soup("ul")]
# 去除屬性svg
[s.extract() for s in soup("svg")]
# 去除屬性script
[s.extract() for s in soup("script")]

Python程式碼

# 輸入網址把 html變成md
import requests
import time

from bs4 import BeautifulSoup, 
 Comment
def get_page_source(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "failed"

if __name__ == '__main__':

    blogUrl = "https://blog.csdn.net/qq_36124194/article/details/83686823" 


    #blogUrl = input("請輸入轉載地址\n")


    blogText = get_page_source(blogUrl)

    soup = BeautifulSoup(blogText, 'html.parser')

    #去除屬性ul
    [s.extract() for s in soup("ul")]
    # 去除屬性svg
    [s.extract() for s in soup("svg")]
    # 去除屬性script
    [s.extract() for s in soup("script")]
    #去除註釋
    comments = soup.findAll(text=lambda text: isinstance(text, Comment))
    [comment.extract() for comment in comments]
    #得到正文
    articleText = soup.find('div', attrs={'class': 'markdown_views prism-atom-one-dark'})
    # 加入 轉載地址說明
    finalStr = "## 轉載地址   \n" + "## " +blogUrl + "  \n" + str(articleText)

    print(finalStr)

python處理轉載部落格html

前景在轉載別人部落格的時候通常我們會通過複製html然後放到編輯器裡面，但是通常html裡有很多雜七雜八的東西，比如script， svg這些標籤導致排版出現問題例如由lu標籤引起的由svg標籤引起的當然要說你直接把不要的東西刪除也可以，但是作為一個程式設計

Python 自動刷部落格瀏覽量（轉載，請尊重原創）

哈哈，今天的話題有點那什麼了哈。咱們應該秉承學習技術的角度來看，那麼就開始今天的話題吧。思路來源今天很偶然的一個機會，聽到別人在談論現在的“刷量”行為，於是就激發了我的好奇心。然後看了下requests模組正好對我有用，就寫了一個簡單的測試用例。神奇的發現這一招竟然是管用的。那還等什麼，開刷咯。

從0開始使用python flask編寫部落格網站(2)

好了上一篇文章中搭建好了完整的框架，以及可以訪問一個“hello world”頁面了。現在繼續完善我們的部落格程式。 1.如法炮製，繼續完善error和admin的路由。首先寫把404和500的網頁寫好放到templates/errors中。然後在error的資料夾中新建handlers.py 檔案，在

從0開始使用python flask編寫部落格網站(1)

在學完flask教程時候，總是會遇到難以自己寫專案的問題。在第一次看狗書的時候，作者從單檔案馬上就到了多檔案的專案組織，當時也是仔細看，慢慢打程式碼才漸漸的明白了flask的專案組織方法，當明白了又感覺很簡單。。使用中多思考多打程式碼才能日有所得，願你我共同成長、 1. 編寫專案骨架一個部落格網站需

記錄自己用python搭建個人部落格系統的完整過程（一）

零、前言本博文記錄搭建個人部落格系統的完整過程，網上有許多相關的教程，但是沒找到一個（適合自己能力的）快速搭建的完整教程。藉此篇博文梳理一下前不久學習到的有關整個過程前前後後的各種知識點。一、搭建環境採用架構：python3.6 + django1.10 + ngi

CSDN轉載部落格（最好用chrome瀏覽器）

可能有人會說直接收藏不就可以了嗎，何必轉載呢。但最近遇到了一個問題：我收藏了一篇不錯的文章，然後想再看的時候，突然打不開了。。。這讓我情何以堪！作者刪除或轉為私密狀態，人家就是不讓你看了，你能咋地！機智的我當時還收藏了同一篇文章作者在兩個網站（簡書與其個人部落格網站）發表的

快速開發：用Python快速編寫部落格平臺

10個優秀的程式設計師裡，9個都有寫部落格的習慣。學習Python中有不明白推薦加入交流裙號：735934841

如何轉載部落格（轉）

1 在參考“如何快速轉載CSDN中的部落格”後，由於自己不懂html以及markdown相關知識，所以花了一些時間來弄明白怎麼轉載部落格，以下為轉載CSDN部落格步驟和一些知識小筆記。參考部落格原址：http://blog.csdn.net/bolu1234/article/deta

怎麼轉載部落格

實現因為我自己當初想轉載的時候卻不知道該怎麼轉載，所以學會了之後就把方法寫出來，幫助那些想轉載卻不知道該怎麼轉載的人（大神勿笑）。我們首先開啟要轉載的部落格，然後滑鼠右鍵就會出現下面的選單：我們點選【審查元素】，就會出現當前HTML頁面的程式碼

python Django搭建部落格

部署環境系統CentOS Linux release 7.4.1708 python為Python 3.5 Django為Django-2.1.4 升級python2.7到python3.5 參考文章下載python3.5 wget -S https://

【轉載】如何轉載部落格

前言對於喜歡逛CSDN的人來說，看別人的部落格確實能夠對自己有不小的提高，有時候看到特別好的部落格想轉載下載，但是不能一個字一個字的敲了，這時候我們就想快速轉載別人的部落格，把別人的部落格移到

CSDN如何轉載部落格

一、Why？為何寫這篇文章呢？可能有人會說直接收藏不就可以了嗎，何必轉載呢。但最近遇到了一個問題：我收藏了一篇不錯的文章，然後想再看的時候，突然打不開了。。。這讓我情何以堪！作者刪除或轉為私密狀態，人家就是不讓你看了，你能咋地！機智的我當時還收藏

如何在CSDN上轉載部落格

在參考“如何快速轉載CSDN中的部落格”後，由於自己不懂html以及markdown相關知識，所以花了一些時間來弄明白怎麼轉載部落格，以下為轉載CSDN部落格步驟和一些知識小筆記。參考部落格原址：http://blog.csdn.net/bolu1234/article/

如何在CSDN轉載部落格

前言對於喜歡逛CSDN的人來說，看別人的部落格確實能夠對自己有不小的提高，有時候看到特別好的部落格想轉載下載，但是不能一個字一個字的敲了，這時候我們就想快速轉載別人的部落格，把別人的部落格移到自己的空間裡面，當然有人會說我們可以收藏部落格啊，就不需要轉載，(⊙o⊙)… 也對。。實現因為

csdn的部落格如何轉載部落格

轉載至：http://blog.csdn.net/jiangping_zhu/article/details/18044109 1、找到要轉載的文章，用chrome瀏覽器開啟，右鍵選擇審查元素 2、在chrome中下方的框裡找到對應的內容，html指令碼中找到對應的節點，選中節點，網頁上被選中內容會被高亮

python 搭建簡易部落格詳細教程

最近想搞個個人主頁所以來學習下django，過程還是非常簡單的，耐心操作，其中的原理也大概能猜出來 1.下載django sudo pip install django 用的是1.10.1，大於1.7都行 2.建立工程在當前目錄下輸入 dja

jquery學習入門到高階（轉載部落格園）

什麼是jQuery jQuery是一套Javascript指令碼庫. 在我的部落格中可以找到"Javascript輕量級指令碼庫"系列文章. Javascript指令碼庫類似於.NET的類庫, 我們將一些工具方法或物件方法封裝在類庫中, 方便使用

字串中Emoji表情處理（部落格園遷移）

吃了經驗的虧，因為Emoji表情引起的專案bug被擼主遇到兩次了，總有一些調皮的小朋友愛用表情來搞點事。第一次把當時那個表改為utf8mb4解決了，第二次說啥都不好使。網上找了半天，發現好多人不去實驗一下就複製別人的程式碼網上發，然後導致我拿來用直接不行。最後一遍遍嘗試終

使用python在wordpress部落格網站新增新文章示例

Wodrepress是最近很火的一個部落格平臺，利用它可以快速搭建各種網站。下面我是利用xmlrpc程式設計介面在wordpress新增文章的示例程式碼： import datetime, xmlrpclib wp_url = "http://www.example.co

python抓取部落格正文

import requests from bs4 import BeautifulSoup link = "http://www.santostang.com/2017/10/22/%E5%9B%BD%E5%86%85%E4%B8%8B%E8%BD%BDanac

python處理轉載部落格html

前景

程式碼實現

分析出現排版問題的原因

如何去除指定標籤和註釋

Python程式碼

相關推薦