Python 爬蟲闖關（第一關）

阿新 • • 發佈：2018-12-12

在學習爬蟲時，遇到了一個有意思的網站，這個網站設定了幾個關卡，需要經過爬蟲進行闖關，隨著關卡的網後，難度不斷增加，在闖關的過程中需要學習不同的知識，你的爬蟲水平也自然隨之提高。

第一關

按照提示，我們把數字放到位址列的後面，再次進行訪問：

再次訪問

發現，還要再用新的數字放在位址列進行訪問，我們可以猜測了，第一關是將頁面出現的數字填寫到當前 url 的尾部進行訪問，然後會得到一個新的數字，再用它替換 url 中的尾部數字，這樣不斷迴圈往復，直到頁面出現成功標識：

中間環節頁面

那麼思路也有了：

解析頁面中的數字；
將數字拼接成新的 URL；
訪問新的 URL，重複第 1 步；
直至頁面沒有數字可以解析到！

邏輯比較簡單，這裡我們直接上程式碼了：

BeautifulSoup 實現

# coding=utf-8

import requests, bs4, re

url = 'http://www.heibanke.com/lesson/crawler_ex00/'

while True:
    # download the page
    print("forward to page %s ..." % url)
    response = requests.get(url)
    print("the return code : " + str(response.status_code))

    soup = bs4.BeautifulSoup(response.text, "html.parser")

    # 獲取頁面數字
    comic = soup.select('h3')
    print(comic[0].getText())
    number = re.findall("\d+", comic[0].getText())
    if number == []:
        print('The end.')
        break;
    else:
        url = 'http://www.heibanke.com/lesson/crawler_ex00/' + number[0] # 拼接新地址

程式執行結果

selenium 實現

# coding=utf-8

import requests, re
from selenium import webdriver

url = 'http://www.heibanke.com/lesson/crawler_ex00/'

browser = webdriver.Firefox()

while True:
    # download the page
    print("Forward to page %s ..." % url)
    browser.get(url)
    elem = browser.find_element_by_tag_name('h3')

    # get the url of the for the next page
    print(elem.text)
    number = re.findall("\d+", elem.text)
    if number == []:
        print('The end.')
        browser.quit()
        break;
    else:
        url = 'http://www.heibanke.com/lesson/crawler_ex00/' + number[0] # 拼接新地址

到這裡我們才能看到最終成功的頁面長這樣：

最終頁面

好了，第一關相對來說比較容易，下次我們來搞一下第二關，又興趣的可以自己先上手攻取下了~

如果覺得有用，歡迎關注我的微信，一起學習，共同進步，不定期推出贈書活動~

你的關注是對我最大的鼓勵！

最近蒐集到慕課網視訊，視訊內容涵蓋 Python、Java、PHP、前端、小程式、演算法、架構、資料庫等等！關注本公眾號，後臺回覆「慕課網」即可獲取下載地址。

Python 爬蟲闖關（第一關）

在學習爬蟲時，遇到了一個有意思的網站，這個網站設定了幾個關卡，需要經過爬蟲進行闖關，隨著關卡的網後，難度不斷增加，在闖關的過程中需要學習不同的知識，你的爬蟲水平也自然隨之提高。按照提示，我們把數字放到位址列的後面，再次進行訪問：發現，還要再用新的數字放在位址列進行訪問，我們可以猜測了，第一關是將頁面

python爬蟲項目（新手教程）之知乎（requests方式）

ror eas 點擊 elif 原因 ffffff 文章重點 F12 -前言之前一直用scrapy與urllib姿勢爬取數據，最近使用requests感覺還不錯，這次希望通過對知乎數據的爬取為各位爬蟲愛好者和初學者更好的了解爬蟲制作的準備過程以及requests請求方

小白福利貼：18個Python爬蟲實戰案例（已開源）

加qq群813622576或vx:tanzhouyiwan免費獲取Python視訊教程以及各類PDF！爬蟲小工具 downloader.py:檔案下載小助手一個可以用於下載圖片、視訊、檔案的小工具，有下載進度顯示功能。稍加修改即可新增到自己的爬蟲中。動

18個Python爬蟲實戰案例（已開源）

目錄爬蟲小工具檔案下載小助手爬蟲實戰筆趣看小說下載VIP視訊下載百度文庫文章下載_rev1百度文庫文章下載_rev2《帥啊》網帥哥圖片下載構建代理IP池《火影忍者》漫畫下載財務報表下載小助手一小時入門網路爬蟲抖音App視訊下載_rev1抖音App視訊下載_

python爬蟲獲取文字（小說等）基礎教程

一個簡單的爬取文字的程式，結合前述3篇部落格，基本包括一些爬蟲基礎，希望可以互相學習 import requests from lxml import etree def get_url(): url='https://share.html5.qq.com/fx/

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

Python學習系列（第一章）：Python 的簡介

python 學習一： Python 的簡介： python的創始人為吉多·範羅蘇姆（Guido van Rossum）。1989年的聖誕節期間，吉多·範羅蘇姆為了在阿姆斯特丹打發時間，決心開發一個新的腳本解釋程序，作為ABC語言的一種繼承。二：Python的應用領域： web 開發： Djang

Python學習（第一篇）

logs 完全 python3 兩個 ges tex pytho 格式代碼說明：筆者所用的版本是python3.6 首先，說一下python的三種格式輸出。第一種用到了格式化操作符%，格式化字符串時，Python使用一個字符串作為模板。模板中有格式符，這些格式符為真實值

Python爬蟲小白---（二）爬蟲基礎--Selenium PhantomJS

decode bject windows beautiful 結構由於 target header 速度一、前言　　前段時間嘗試爬取了網易雲音樂的歌曲，這次打算爬取QQ音樂的歌曲信息。網易雲音樂歌曲列表是通過iframe展示的，可以借助Selenium獲

【python】（第一章）1.4 數字和表達式

python以下內容是我學習《Python基礎教程》第2版這本書所寫的筆記轉載請註明出處1.>>> 2.75%.50.25【不同】C語言中取余運算必須為整數，不能是浮點型2.>>>（-3)**29【不同】C語言中pow (double x,double n);(將返回

python 第一周（第一天）我的python成長記一個月搞定python數據挖掘！

__name__ -c pass class port .py contact 成長 class a python代碼的組織方式： .py 文件模塊文件樣式： #!/usr/bin/python#-*-coding:utf8-*- """@author: yugengde

初學Python（第一課）

規範輸入密碼 can 賦值輸出 idt glob let python 今天整理一下關於Python初學者的基礎知識部分的第一課，因為之前學習過C，所以過於基礎的知識就不詳細記錄了。 Python相對於C\C++來說，在語法方面已經很簡單了；甚至對於JavaScript

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

Python爬蟲實例（二）使用selenium抓取鬥魚直播平臺數據

def 獲取平臺 es2017 抓取設置 log ips driver 程序說明：抓取鬥魚直播平臺的直播房間號及其觀眾人數，最後統計出某一時刻的總直播人數和總觀眾人數。過程分析：一、進入鬥魚首頁http://www.douyu.com/directory/all 進

Python爬蟲實例（三）代理的使用

pen .sh strong list blank 寫入禁止 bsp open() 一些網站會有相應的反爬蟲措施，例如很多網站會檢測某一段時間某個IP的訪問次數，如果訪問頻率太快以至於看起來不像正常訪客，它可能就會會禁止這個IP的訪問。所以我們需要設置一些代理服務器，每隔

Python爬蟲實例（四）網站模擬登陸

opener 運行 webkit zh-cn head window targe Coding 破解一、獲取一個有登錄信息的Cookie模擬登陸下面以人人網為例，首先使用自己的賬號和密碼在瀏覽器登錄，然後通過抓包拿到cookie，再將cookie放到請求之中發送請求即可

Python 爬蟲實例（7）—— 爬取新浪軍事新聞

secure host agen cat hand .com cati ica sts 我們打開新浪新聞，看到頁面如下，首先去爬取一級 url，圖片中藍色圓圈部分第二zh張圖片，顯示需要分頁，

Python練習（第一周）: 編寫登陸認證程序

用戶鎖定用戶輸入文件提示 print 基礎 else 再次分享圖片基礎需求：讓用戶輸入用戶名密碼認證成功後顯示歡迎信息輸錯三次後退出程序升級需求：可以支持多個用戶登錄 (提示，通過列表存多個賬戶信息) 用戶3次認證失敗後，退出程序，再次啟動程序嘗試登錄

Python 爬蟲實例（10）—— 四行代碼實現刷博客園閱讀數量

體會博客 http log 實例代碼 port 代碼實現 ive 代碼很少，自己去體會 from selenium import webdrever driver = webdrever.Chrome() url = "http://www.cnblo

Python 爬蟲實例（12）—— python selenium 爬蟲

bsp ide doc wid environ att fig exc title # coding:utf-8 from common.contest import * def spider():　　url = "http://www.salamoyua.

Python 爬蟲闖關（第一關）

BeautifulSoup 實現

selenium 實現

相關推薦