1. 程式人生 > >Python:黑板課爬蟲闖關第一關

Python:黑板課爬蟲闖關第一關

nbsp .com lesson sso ext imp arch awl style

近日發現了【黑板課爬蟲闖關】這個神奇的網頁,練手爬蟲非常的合適

第一關非常的簡單

技術分享圖片

get 請求網址,在響應的 html 中用正則獲取需要在網址後面輸入的數字,生成新的 url,繼續請求,直到通關。

代碼如下:

import re
import requests
import time


def main():
    url = http://www.heibanke.com/lesson/crawler_ex00/
    get_next(url)


def get_next(url):
    print(url)
    html = requests.get(url).text
    m 
= re.search((你需要在網址後輸入數字|下一個你需要輸入的數字是)(\d+), html) if m: num = m.group(2) next_url = http://www.heibanke.com/lesson/crawler_ex00/ + num time.sleep(1) get_next(next_url) else: m = re.search((?<=\<h3\>).*?(?=\</h3\>), html) print(m.group()) m
= re.search((\<).*?href="([^"]*?)".*?(\>下一關\</a\>), html) print(f下一關 http://www.heibanke.com{m.group(2)}) if __name__ == __main__: main()

Python:黑板課爬蟲闖關第一關