1. 程式人生 > >簡單程式碼爬取部落格超連結的文字,並且去除字元“原”和空格

簡單程式碼爬取部落格超連結的文字,並且去除字元“原”和空格

        這裡給大家分享一個怎麼用Python爬取超連結的文字,並且能夠去除字元“原“和前後空格、空行等等。這個程式碼不多,而且非常簡單。我這裡用的是Python3,版本不和的可以調整一下,這個程式碼還是很好理解的。

        接下來我給大家分享爬取我的部落格超連結文字的例子,先給大家逐步分析一下,這樣有助於幫助大家的理解和學習。後面將會附上完整的程式碼。

首先,一如既往的,開始就是簡單的爬取網頁的三個基本步驟,不過這裡用到了解析器,不過也很容易理解的;程式碼如下:

url = "http://blog.csdn.net/zjy18886018024?t=1"
content = urllib.request.urlopen(url).read()
soup=BeautifulSoup(content,"html.parser")
top=soup.find_all(attrs={"class":"text-truncate"}

接下來就是對字元“原”的處理,其實這裡就是用到了一個函式replace:

nu.append(num[i].replace("原",""))

緊接著就是對空格和空行的處理,這裡我採用了strip函式,直接利用這個函式既可輕而易舉解決:

print(nu[j].strip())

這裡就是完整的程式碼:

# coding:utf-8

import urllib.request
from bs4 import BeautifulSoup
import requests

num=[]
url = "http://blog.csdn.net/zjy18886018024?t=1"
content = urllib.request.urlopen(url).read()
soup=BeautifulSoup(content,"html.parser")
top=soup.find_all(attrs={"class":"text-truncate"})
i=0
nu=[]
while i<len(top):
    num.append(top[i].get_text())
    nu.append(num[i].replace("原",""))
    i=i+1
j=0
while j<len(nu):
    print(nu[j].strip())
    j=j+1
下面是結果截圖:

好了,這次就到這裡了,望大家學習愉快!!