我的第一次"爬蟲"

阿新 • • 發佈：2020-08-20

爬蟲是一種快速獲取伺服器中資料的簡便方法.它可以模擬客戶端向伺服器發出請求,獲取伺服器響應.

近期在看了部落格園的一篇部落格後,我自己嘗試著寫了一個粗略的的爬蟲程式,可以實現爬取網頁中的部分圖片.

程式程式碼如下:

class SpaDer(object):
    def __init__(self):
        self.address = input('請輸入網址:')

    def operation(self):
        import re
        import requests
        from bs4 import BeautifulSoup
        import urllib.request
 

        try:
            file = urllib.request.urlopen(self.address)
            html_code = file.read().decode('utf-8')
            soup = BeautifulSoup(html_code, features="html.parser")
            lst = soup.find_all('img')
            lst1 = re.findall(r'http.{10,100}jpg', str(lst))
            num = 0
            for i in lst1:
 
                with open(f'./imgs/{num}.jpg', 'wb')as f:
                    f.write(requests.get(i).content)
                    num += 1
                    print(f"已經下載了{num}張圖片,還有{len(lst1) - num}張正在下載")
        except:
            pass
        其業務邏輯為:
用網頁下載包ullib將網頁全部程式碼下載到本地,然後用網頁解析包bs4對網頁進行解析,獲取網頁中的所有圖片標籤,再用python的正則表示式包re匹配圖片地址,最後用伺服器請求包requests包的get方法獲取
 
圖片的二進位制流資料並將其寫入本地的.jpg檔案中即可.

我的第一次"爬蟲"

爬蟲是一種快速獲取伺服器中資料的簡便方法.它可以模擬客戶端向伺服器發出請求,獲取伺服器響應.

Python "爬蟲"出發前的裝備之一正則表示式

1. 正則表示式正則表示式是一種模板表示式語言通過定義規則去匹配、查詢、替換、分割一個長字串中特定的子字元資訊。

記我第一次做線下技術分享的那些事記我第一次做培訓講師的那些事

前言　　在完成這篇文章的時候，突如其來有個想法，想自己成立一個平等交流的技術交流群。如果有興趣的同行們，可以通過下面二維碼加入我們。

第一次使用 mobx 感覺一臉懵逼( 以下為我抄襲別人的寫法照葫蘆畫瓢 )

import { observable, action, computed, runInAction } from \"mobx\"; import { GET_USERINFO_URL } from \"../api/index\";

我的第一次除錯經歷

前言時間是2016年6月4日,到xx去做一個普通的vlan間通訊的除錯,交換機是TG-NET的牌子,對於我這個HCNP(去了被教做人.....)來說,雖然裝置是陌生的,但是提前準備了這個交換機的配置手冊,所以也沒有過多的擔心

Python爬蟲：第一次初體驗

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

我的第一次WebService介面開發教程

一、前言：工作中，接觸到很多系統要互相對接，因為大多數公司（專案）所用的平臺不同，要想一方提供資料資訊供對方提取，首先想到的就是開放出一個WebService介面呼叫文件和WebService地址，這樣對方就能根據文件

JDBC----關於JDBC的配置以及我的第一次CRUD操作

JDBC簡單來說就是Java與資料庫的一個介面，而介面本身是一種規範，我們可以通過JDBC來實現對資料庫的增刪改查。

記一次Exception in thread "main" javax.net.ssl.SSLHandshakeException: Received fatal alert: handshake_failure報錯

專案中需要用java呼叫第三方的https的介面，除錯了好多次總是報javax.net.ssl.SSLHandshakeException: Received fatal alert: handshake_failure錯誤，皇天不負苦心人最後終於除錯成功，廢話不多說直接上程式碼（我

Java多執行緒詳解（一）我與多執行緒的第一次接觸

Java多執行緒詳解執行緒簡介執行緒實現（重點）執行緒狀態執行緒同步（重點）

今天我自己第一次寫了一個Windows批處理bat指令碼，一起學習一下吧。

今天我自己第一次寫了一個Windows批處理bat指令碼，備註一下事情原由：自己使用Java開發了一個加解密的工具。但是當把工具給別人使用的時候，別人還需要把程式碼編譯打包，

我的世界紅石比較器和紅石火把的簡介與用法！{本人第一次寫專欄，希望有更多點贊謝謝

紅石比較器：這個就是所謂的紅石比較器。兩個柱一側為輸入端，側面為比較端，一個柱一側為輸出端。

Go小課02：第一次Say Hello

一、Say Hello請求 1、環境配置安裝Go的包依賴管理命令列工具govendor go get -u github.com/kardianos/govendor

面試官，不要再問我三次握手和四次揮手

三次握手和四次揮手是各個公司常見的考點，也具有一定的水平區分度，也被一些面試官作為熱身題。很多小夥伴說這個問題剛開始回答的挺好，但是後面越回答越冒冷汗，最後就歇菜了。

mysql第一次安裝成功後初始化密碼操作步驟

把檔案解壓到一個目錄下這是解壓後的目錄將my.ini檔案考進去雙擊開啟my.ini 找到這兩行更改成自己的解壓路徑儲存

解決MySQL8.0安裝第一次登陸修改密碼時出現的問題

下面給大家介紹下mysql 8.0.16 初次登入修改密碼 mysql資料庫初始化後初次登入需要修改密碼

mysql5.7.20第一次登入失敗的快速解決方法

一，將介紹如何 (1)mysql5.7是有預設密碼的查詢預設密碼 grep \'temporary password\' /var/log/mysqld.log

PyCharm第一次安裝及使用教程

pycharm簡介 PyCharm是一種Python IDE，帶有一整套可以幫助使用者在使用Python語言開發時提高其效率的工具，比如除錯、語法高亮、Project管理、程式碼跳轉、智慧提示、自動完成、單元測試、版本控制。此外，該IDE提供

so easy!10行程式碼寫個"狗屁不通"文章生成器功能

前幾天，GitHub 有個開源專案特別火，只要輸入標題就可以生成一篇長長的文章。

解決maven第一次建立專案太慢的問題

Maven是 Apache 下的一個純 Java 開發的開源專案，是一個專案構建和管理的工具；它提供了幫助管理構建、文件、報告、依賴、scms、釋出、分發的方法。可以方便的編譯程式碼、進行依賴管理、管理二進位制庫等等。

我的第一次"爬蟲"

相關推薦