1. 程式人生 > >python3 編寫原生爬蟲 --爬蟲入門

python3 編寫原生爬蟲 --爬蟲入門

使用 python3 抓取,csdn 謀篇文章 的標題,註釋寫的很全就不多廢話了

#coding=utf-8
from urllib import request
import re

class Spider():
    #我要爬取的連結
    start_url = "https://blog.csdn.net/weixin_42144379/article/details/85332330"
    # 目標內容的正則
    regex = '<h1 class="title-article">([\s\S]*?)</h1>'

    #抓取內容,預設 url 引數為 start_url
    def getContent(self,url = start_url):
        #傳送請求,獲取請求資料
        source = request.urlopen(self.start_url)
        #讀取請求資料,直接讀取的是 byte
        html = source.read()
        #把讀取的資料轉為 utf-8 字串
        html = str(html, encoding="utf-8")
        #列印抓取的網頁
        print(html)
        return html

    def parse(self,url=start_url):
        #呼叫上的方法,抓取網頁
        html = self.getContent(url)
        #使用正則,抓取標題
        title = re.findall(self.regex,html)
        #列印標題,re.findall 獲取的是一個 list
        print(title)
#例項化爬蟲,執行程式
Spider().parse()

如果報錯,少了 urllib  網路庫 re 正則庫,請使用 pip 安裝 

python 爬蟲 最主要的是 對 urllib 裡面 request 和 regex (正則) 的運用