1. 程式人生 > 實用技巧 >Python爬蟲:第一次初體驗

Python爬蟲:第一次初體驗

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

以下文章來源於騰訊雲 作者:Python進擊者

( 想要學習Python?Python學習交流群:1039649593,滿足你的需求,資料都已經上傳群檔案流,可以自行下載!還有海量最新2020python學習資料。 )


Python爬蟲,一般用於抓取特定的內容,最近想學學,通過網路抓取自己想要的內容,於是乎學習了一下Python,用一個小案例來紀念一下學習的成果。

案例程式主要功能:抓取我們學校校園網新聞中的圖片

#coding=utf-8
import urllib
import re # 定義個函式 抓取網頁內容 def getHtml(url): webPage = urllib.urlopen(url) html = webPage.read() return html # 定義一個函式 抓取網頁中的圖片 def getNewsImgs(html): # 正則表示式 reg = r'src="(.+?\.jpg)"' img = re.compile(reg) # 獲取網頁中所有符合條件的圖片url imglist = re.findall(img,html) x = 0
# 根據圖片地址下載圖片並重命名 for imgUrl in imglist: urllib.urlretrieve("http://www.abc.edu.cn/news/"+imgUrl,'news-%s.jpg' % x) x += 1 # 獲取網頁 html = getHtml("http://www.abc.edu.cn/news/show.aspx?id=21413&cid=5") # 抓取圖片 print getNewsImgs(html)

效果:成功抓取了新聞中的兩張圖片O(∩_∩)O~