python3 編寫原生爬蟲 --爬蟲入門
阿新 • • 發佈:2019-01-07
使用 python3 抓取,csdn 謀篇文章 的標題,註釋寫的很全就不多廢話了
#coding=utf-8 from urllib import request import re class Spider(): #我要爬取的連結 start_url = "https://blog.csdn.net/weixin_42144379/article/details/85332330" # 目標內容的正則 regex = '<h1 class="title-article">([\s\S]*?)</h1>' #抓取內容,預設 url 引數為 start_url def getContent(self,url = start_url): #傳送請求,獲取請求資料 source = request.urlopen(self.start_url) #讀取請求資料,直接讀取的是 byte html = source.read() #把讀取的資料轉為 utf-8 字串 html = str(html, encoding="utf-8") #列印抓取的網頁 print(html) return html def parse(self,url=start_url): #呼叫上的方法,抓取網頁 html = self.getContent(url) #使用正則,抓取標題 title = re.findall(self.regex,html) #列印標題,re.findall 獲取的是一個 list print(title) #例項化爬蟲,執行程式 Spider().parse()
如果報錯,少了 urllib 網路庫 re 正則庫,請使用 pip 安裝
python 爬蟲 最主要的是 對 urllib 裡面 request 和 regex (正則) 的運用