簡單程式碼爬取部落格超連結的文字，並且去除字元“原”和空格

阿新 • • 發佈：2018-12-31

這裡給大家分享一個怎麼用Python爬取超連結的文字，並且能夠去除字元“原“和前後空格、空行等等。這個程式碼不多，而且非常簡單。我這裡用的是Python3，版本不和的可以調整一下，這個程式碼還是很好理解的。

接下來我給大家分享爬取我的部落格超連結文字的例子，先給大家逐步分析一下，這樣有助於幫助大家的理解和學習。後面將會附上完整的程式碼。

首先，一如既往的，開始就是簡單的爬取網頁的三個基本步驟，不過這裡用到了解析器，不過也很容易理解的；程式碼如下：

url = "http://blog.csdn.net/zjy18886018024?t=1"
content = urllib.request.urlopen(url).read()
soup=BeautifulSoup(content,"html.parser")
top=soup.find_all(attrs={"class":"text-truncate"}

接下來就是對字元“原”的處理，其實這裡就是用到了一個函式replace：

nu.append(num[i].replace("原",""))

緊接著就是對空格和空行的處理，這裡我採用了strip函式，直接利用這個函式既可輕而易舉解決：

print(nu[j].strip())

這裡就是完整的程式碼：

# coding:utf-8

import urllib.request
from bs4 import BeautifulSoup
import requests

num=[]
url = "http://blog.csdn.net/zjy18886018024?t=1"
content = urllib.request.urlopen(url).read()
soup=BeautifulSoup(content,"html.parser")
top=soup.find_all(attrs={"class":"text-truncate"})
i=0
nu=[]
while i<len(top):
    num.append(top[i].get_text())
    nu.append(num[i].replace("原",""))
    i=i+1
j=0
while j<len(nu):
    print(nu[j].strip())
    j=j+1

下面是結果截圖：

好了，這次就到這裡了，望大家學習愉快！！

簡單程式碼爬取部落格超連結的文字，並且去除字元“原”和空格

這裡給大家分享一個怎麼用Python爬取超連結的文字，並且能夠去除字元“原“和前後空格、空行等等。這個程式碼不多，而且非常簡單。我這裡用的是Python3，版本不和的可以調整一下，這個程式碼還是很好理解的。接下來我給大家分享爬取我的部落格超連結

爬取部落格資訊的簡單爬蟲

呼叫 getOneBlogDetails( ) 函式可以獲取目標網頁的博主姓名，個人主頁網址，原創文章、粉絲、喜歡、評論數量，等級、訪問量、積分、排名。 #!/usr/lib/py

部落格搬家系列（三）-爬取部落格園部落格

部落格搬家系列（三）-爬取部落格園部落格一.前情回顧部落格搬家系列（一）-簡介：https://blog.csdn.net/rico_zhou/article/details/83619152 部落格搬家系列（二）-爬取CSDN部落格：https://bl

編寫windows服務定時爬取部落格園文章郵件提醒以及入庫

這段時間工作比較忙，每天也沒那麼多的時間逛部落格園看文章，於是就想寫一個工具每天早上9點爬取文章給自己發郵件作為每天的技術早餐。相對而言，爬取部落格園的文章還是比較簡單的，主要思路就是分析部落格園文章列表的分頁，請求方式，頁面渲染方式等，寫篇隨筆簡單share一下。這個小工具主要用到的由nl

使用Tornado和協程爬取部落格園文章

Python3.5後 Tornado官方建議使用async和await的方式實現非同步程式，嘗試了下使用Tornado和協程爬取部落格園的文章並使用peewee_async非同步寫入MySQL資料庫。一. 部落格園文章抓取測試：這裡我以我自己的一篇文章詳情作為測試url，https://www.cnb

Python爬蟲爬取部落格園作業

要求第一部分：請分析作業頁面，爬取已提交作業資訊，並生成已提交作業名單，儲存為英文逗號分隔的csv檔案。檔名為：hwlist.csv 。檔案內容範例如下形式：學號,姓名,作業標題,作業提交時間,作業URL 20194010101,張三,羊車門作業,2018-1

python3爬取部落格瀏覽量

爬取結果程式碼很簡單： # encoding=utf8 import requests import re import time from bs4 import BeautifulSoup firstUrl = 'http://blog.csdn.

Scrapy爬取部落格園精華區內容

程式爬取目標獲取部落格園精華區文章的標題、標題連結、作者、作者部落格主頁連結、摘要、釋出時間、評論數、閱讀數和推薦數，並存儲到MongoDB中。程式環境已安裝scrapy 已安裝MongoDB 建立工程 scrapy startproject cnblogs 在命令提示符中執行

Java爬蟲--利用HttpClient和Jsoup爬取部落格資料並存入資料庫

由於今日頭條等頭條類產品的出現，以今日頭條為代表所使用的爬蟲技術正在逐漸火熱，在爬蟲領域具有良好效能和較好效果的Python在最近一年的時間裡逐漸火熱起來，同時因為Python良好的資料分析和機器學習的能力，Python的應用越來越廣泛。不過，今天我們要提到

python實現kindle每天推送部落格2----python實現爬取部落格內容

python 批量爬取部落格資料(僅供學習)

#coding:utf-8 import urllib import time import os page=1 while page<=7: url=['']*50

python_爬取部落格文章下載到本地

學習python一段時間了，爬兩個網頁練練手，該原始碼是爬取韓寒部落格的所有文章，並將文章連結下載到本地，關於將部落格純文字下載到本地見博主另外一篇文章： # -*- coding: utf-8 -*

Python基礎程式碼爬取超連結文字及連結

今天給大家分享一個Python基本程式碼爬取超連結文字及超連結，及一一對應存放到本地資料夾TXT檔案中，這裡因為我是一個Python初學者，所以所寫的程式碼非常簡單，對大家而言也是非常容易理解的。這裡我以我的部落格為例寫了一個，前面還是逐步解釋

爬蟲簡易入門程式碼-爬取簡單網頁圖片

# -*- coding: utf-8 -*- """ Created on Mon Jul 9 22:12:07 2018 @author: name """ #!/usr/bin/env Python3 # -*- encodin

漫客們的福利啦，爬取整站動漫圖片，小白都能學，超簡單

正文目標網站divinl 首先看看這網站是怎樣載入資料的; 開啟網站後發現底部有下一頁的按鈕，ok，爬這個網站就很簡單了; 學習Python中有不明白推薦加入交流裙 &nbs

htmlparse的簡單使用--------爬取電影網頁的全部下載連結

1前期準備，下載htmlparse壓縮包並配置到eclipse上，到下面網址可以下載 1、這裡先分析與獲取一個電影介紹頁面的內容現在我們來檢視網頁原始碼好、我們現在先來獲取一個頁面的下載連結 /** * 獲取一個頁面的下

python爬蟲【例項】爬取豆瓣電影評分連結並圖示（）-問題如何爬取電影圖片（解決有程式碼）

這裡只有尾巴，來分析一下確定範圍：如何爬取圖片並下載？參考：http://blog.csdn.net/chaoren666/article/details/53488083----------------------------------------------------

簡單的爬取網頁圖片

baidu alt idt ima 修改利用表達輸入 html import reimport urllib.request# ------ 獲取網頁源代碼的方法 ---def getHtml(url): page = urllib.request.urlope

簡單團隊-爬取豆瓣電影T250-項目進度

部分色彩核心 body pan log png 服務器功能本次主要講解一下我們的頁面設計及展示最終效果：頁面設計主要用到的軟件是：html，css，js，主要用的編譯器是：sublime，dreamweaver，eclipse，由於每個人使用習慣不一樣，所以有的

簡單團隊-爬取豆瓣電影top250-設計文檔

分享圖片 top 文檔功能需求 class cnblogs 項目介紹面向設計文檔項目介紹：功能需求：面向用戶：未來規劃：以上內容源自於在課上做的ppt內容，絕對本組ppt，並且真實有效。簡單團隊-爬取豆瓣電影top

簡單程式碼爬取部落格超連結的文字，並且去除字元“原”和空格

相關推薦