Python爬蟲！單爬，批量爬，這都不是事！

阿新 • • 發佈：2019-02-14

昨天做了一個煎蛋網妹子圖的爬蟲，個人感覺效果不錯。但是每次都得重複的敲辣麼多的程式碼（相比於Java或者其他語言的爬蟲實現，Python的程式碼量可謂是相當的少了），就封裝了一下！可以實現對批量網址以及單個網址的爬蟲！

核心程式碼

# coding:UTF-8

# 匯入我們需要的網路模組，正則表示式模組，以及產生隨機數的模組
import urllib2,urllib,re,random

# 根據傳入的URL網址，獲得該網址對應的全部的html頁面（純網頁，並沒有做任何的解析）
def getHtml(url,headers) :
    request = urllib2.Request(url,headers=headers)
    response = urllib2.urlopen(request)
    page = response.read()
    return 
 page

# 根據之前獲得那個url對應的網頁資訊，將這張網頁裡面包含的所有的含有<img src=".+\.jpg"/>的url儲存到一個列表中
def getImageUrls(page):
    reg = r'src="(.+?\.jpg)"'
    imageReg = re.compile(reg)
    img_urls = re.findall(imageReg,page)
    return img_urls

# 這是個測試的方法，並沒有實際的價值。列出來的目的只是為了紀念一下，最終功能實現的這個過程，僅此！
# def getTotalImageUrls(original_url,headers): 

#     totalImageUrls = []
#     for item in range(1980, 1990):
#         original_url += original_url + str(item)
#         page = getHtml(original_url,headers)
#         images_url = getImageUrls(page)
#         totalImageUrls.append(images_url)
#         return totalImageUrls

# 根據給定的路徑，檔名，將指定的資料（這裡是一張圖片，是的。一張圖片）寫入到檔案中。需要注意的是每次都需要關閉file 

def writeToFile(path,name,data):
    file = open(path+name,'wb')
    file.write(data)
    file.close()
    print name+" has been Writed Succeed!"

# 下載圖片，並且呼叫剛才的  writeToFile(path,name,data): 函式。將圖片直接寫到對應的路徑下面
# 這裡藉助於一個random模組，為了產生圖片之間儘量不重複的檔名，以防止檔案的覆蓋或者出現其他的問題
def downloadImages(images_url,path,headers) :
    for i, item in enumerate(images_url):
        everypicture = getHtml(item,headers)
        # 此處下載之後的檔案使用了item來命名是為了避免圖片的覆蓋
        writeToFile(path, str(i+random.randint(1,100000000)) + ".jpg", everypicture)


# 提供單個url網址內圖片的下載
def singleImageDownload(outputPath,targeturl,headers) :
    originalurl = targeturl
    page = getHtml(originalurl,headers)
    images_url = getImageUrls(page)
    downloadImages(images_url,path,headers)




# 提供批量下載的函式，對未成功下載的提示未成功下載語句
def batchImageDownload(outputPath, originalurl, headers, start, end):
    for item in range(2000, 4000):
        try:
            originalurl = 'http://bizhi.souutu.com/mnbz/' + str(item) + '.html'
            page = getHtml(originalurl)
            images_url = getImageUrls(page)
            downloadImages(images_url,headers)
        except:
            print str(item) + str(' web site cannot be spidered! Sorry!')
            continue


# --------------------------------------------------------------------------------------------------
# 下面是我們的測試程式碼,僅僅拿單個url頁面做了個測試，親測好使


headers = {
    'referer':'http://bizhi.souutu.com/mnbz/3712.html',
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36'
}

path = "F:\\pachong\\bizhi\\"
url = 'http://bizhi.souutu.com/mnbz/3712.html'
singleImageDownload(path,url,headers)

後話

這裡並沒有使用類來進行封裝，沒有用BeautifulSoup的原因是我還沒學到

無奈.裝傻~ 
(￣▽￣)~* (￣▽￣)" ╮(╯▽╰)╭ ╮(￣▽￣)╭

但是咧，這在Python中是不妨礙滴，照樣爬嘛，(^__^) 嘻嘻……
我是新手，程式碼中可能有不恰當的地方，歡迎批評指正！

阿里巴巴Java程式設計師面試的11個題目，網友：居然一個都不會！

JAVA程式設計師是不是都以阿里、京東這些大的一線網際網路公司為目標？阿里巴巴java程式設計師

面試官突然問我MySQL儲存過程，我竟然連基礎都不會！（詳細）

**所有知識體系文章，[GitHub](https://github.com/Ziphtracks/JavaLearningmanual)已收錄，歡迎Star！再次感謝，願你早日進入大廠！** **GitHub地址：** [https://github.com/Ziphtracks/JavaLearning

Python爬蟲！單爬，批量爬，這都不是事！

昨天做了一個煎蛋網妹子圖的爬蟲，個人感覺效果不錯。但是每次都得重複的敲辣麼多的程式碼（相比於Java或者其他語言的爬蟲實現，Python的程式碼量可謂是相當的少了），就封裝了一下！可以實現對批量網址以及

Python爬蟲小實踐：尋找失蹤人口，爬取失蹤兒童信息並寫成csv文件，方便存入數據庫

python tor enc mini 執行 gem view 獲取但是前兩天有人私信我，讓我爬這個網站，http://bbs.baobeihuijia.com/forum-191-1.html上的失蹤兒童信息，準備根據失蹤兒童的失蹤時的地理位置來更好的尋找失蹤兒童，這

python 爬蟲（三）模擬post請求，爬取資料

import urllib.request import urllib.parse url =r"http://www.baidu.com" #將要傳送的資料合成一個字典 #字典的鍵值在網頁裡找 data = { "username":"1507", "password":"230

Python爬蟲為何可以這麼叼？爬取百度雲盤資源！並儲存到自己雲盤

點選它，再點選右邊的【Cookies】就可以看到請求頭裡的 cookie 情況。cookie分析除了上面說到的兩個 cookie ，其他的請求頭引數可以參照手動轉存時抓包的請求頭。這兩個 cookie 預留出來做引數的原因是 cookie 都是有生存週期的，過期了需要更新，不同的賬號登入也有不同的 cooki

python爬蟲十一：scrapy框架爬取天氣，存入資料庫

小白學習：轉：https://zhuanlan.zhihu.com/p/268854121.cmd下scrapy startproject 專案名2.我一般都是在pycharm中編寫程式碼，所以我會在idea中引入專案，這裡不知道如何在pycharm中下載scrapy模組的童

Python爬蟲+ pyqt5(從零開始到爬取教務處新聞，課程表，成績)

前言：剛開始以為Python爬蟲很高深，其實，當你模仿其他人的程式碼，敲了一遍之後，你8成就可以理解Python的基本爬蟲了。無論是學習什麼事情，剛開始就要準備好利器工具，那樣我們才能開始我們的旅程。工欲善其事，必先利其器麻！Python的安裝:點選開啟連結我下載的是

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

Python 爬蟲實例（7）—— 爬取新浪軍事新聞

secure host agen cat hand .com cati ica sts 我們打開新浪新聞，看到頁面如下，首先去爬取一級 url，圖片中藍色圓圈部分第二zh張圖片，顯示需要分頁，

python 爬蟲（一） requests+BeautifulSoup 爬取簡單網頁代碼示例

utf-8 bs4 rom 文章都是 Coding man header 文本以前搞偷偷摸摸的事，不對，是搞爬蟲都是用urllib，不過真的是很麻煩，下面就使用requests + BeautifulSoup 爬爬簡單的網頁。詳細介紹都在代碼中註釋了，大家可以參閱。

python爬蟲系列(3.7-使用 bs4 爬取獲取貴州農產品)

一、爬取資料步驟 1、爬取網站地址 2、實現程式碼 import requests from bs4 import BeautifulSoup class Food(object): def __init__(self): &nb

Python爬蟲系列之郵編區號爬取

Python爬蟲之<—>全國郵編區號爬取僅供交流探討歡迎提出改進程式碼部分 import re import requests import time import MySQLdb ''' @author:王磊 @time :201

Python爬蟲基礎：驗證碼的爬取和識別詳解

今天要給大家介紹的是驗證碼的爬取和識別，不過只涉及到最簡單的圖形驗證碼，也是現在比較常見的一種型別。執行平臺：Windows Python版本：Python3.6 IDE: Sublime Text 其他：Chrome瀏覽器簡述流程：步驟1：簡單介紹驗證碼步驟2：

python爬蟲學習筆記三：圖片爬取

圖片爬取的程式碼 r.content 檔案的二進位制格式 Python引入了with語句來自動幫我們呼叫close()方法： open(path, ‘-模式-‘,encoding=’UTF-8’) w：以寫方式開啟， a：以追加模式開啟 (從 EOF 開始, 必要時建

python 爬蟲之字型(@font-face)防爬

python 爬蟲字型(@font-face)防爬字型防爬就是該網站在原始碼上的字型不是正常字型編碼, 可能是自定義的一種字型, 然後通過對應關係在頁面上進行展示, 這就是所謂的字型防爬, 但是他們想要在頁面上進行展示的話還是需要匯入字型包的, 所以咱們只需要把字型包下載下來進行

Python爬蟲實習筆記 | Week4 專案資料爬取與反思

2018/11/05 1.所思所想：今天我把Python爬蟲實戰這本書Chapter6看完，很有感觸的一點是，書本中對爬蟲實現的模組化設計很給我靈感，讓我對專案中比較無語的函式拼接有了解決之道，內省還是比較興奮。此外，在吃飯問題上需要認真思考下，是否應注意合理的膳食，是否應對要吃的進行好好考究。下

Python爬蟲解析網頁的三種方法，lxml、BeautifulSoup、re案例！

常用的類庫為lxml，BeautifulSoup，re(正則) 學習Python中有不明白推薦加入交流群號：960410445 &nb

Python爬蟲——代理伺服器進行資訊的爬取

利用代理伺服器進行資訊的爬取以防止自己的IP的被伺服器封 def function1(url,IP):#url IP """代理伺服器進行資訊的爬取以防止自己的IP的被伺服器封""" proxy=urllib.request.ProxyHandler({"http":IP}

python 爬蟲如何通過scrapy框架簡單爬取網站資訊--以51job為例

Scrapy框架三大優點： Scrapy框架是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。 Scrapy

Python爬蟲！ 單爬，批量爬，這都不是事！

核心程式碼

後話

相關推薦

Python爬蟲！單爬，批量爬，這都不是事！