簡單程式碼爬取部落格超連結的文字,並且去除字元“原”和空格
阿新 • • 發佈:2018-12-31
這裡給大家分享一個怎麼用Python爬取超連結的文字,並且能夠去除字元“原“和前後空格、空行等等。這個程式碼不多,而且非常簡單。我這裡用的是Python3,版本不和的可以調整一下,這個程式碼還是很好理解的。
接下來我給大家分享爬取我的部落格超連結文字的例子,先給大家逐步分析一下,這樣有助於幫助大家的理解和學習。後面將會附上完整的程式碼。
首先,一如既往的,開始就是簡單的爬取網頁的三個基本步驟,不過這裡用到了解析器,不過也很容易理解的;程式碼如下:
url = "http://blog.csdn.net/zjy18886018024?t=1" content = urllib.request.urlopen(url).read() soup=BeautifulSoup(content,"html.parser") top=soup.find_all(attrs={"class":"text-truncate"}
接下來就是對字元“原”的處理,其實這裡就是用到了一個函式replace:
nu.append(num[i].replace("原",""))
緊接著就是對空格和空行的處理,這裡我採用了strip函式,直接利用這個函式既可輕而易舉解決:
print(nu[j].strip())
這裡就是完整的程式碼:
下面是結果截圖:# coding:utf-8 import urllib.request from bs4 import BeautifulSoup import requests num=[] url = "http://blog.csdn.net/zjy18886018024?t=1" content = urllib.request.urlopen(url).read() soup=BeautifulSoup(content,"html.parser") top=soup.find_all(attrs={"class":"text-truncate"}) i=0 nu=[] while i<len(top): num.append(top[i].get_text()) nu.append(num[i].replace("原","")) i=i+1 j=0 while j<len(nu): print(nu[j].strip()) j=j+1
好了,這次就到這裡了,望大家學習愉快!!