最新2017年版利用Python3系列基礎知識完成爬蟲指令碼帶完整註釋

阿新 • • 發佈：2018-12-31

引言

爬蟲已經有很多了，我在網上找了很多，但是都不能執行，於是敲了一份新鮮的，拿出來分享，應該可以直接執行，執行前請檢視python版本。

文章最後更新時間：2017年4月2日 22:13:45

簡介

程式設計IDE：Pycharm 2016.1.2

開發環境：Python 3.6.1

作業系統：Window 7

賞析

原始碼

程式碼註釋已經無比清晰，就不再過多贅述了。

# -*- coding:utf-8 -*-

#
# 爬蟲系列 - http://jandan.net/ooxx/
# 作者：陳魯勇
# 郵箱：[email protected]
# 撰寫時間：2017年4月2日 22:06:54
# Python版本：3.6.1
# CSDN：http://blog.csdn.net/csnd_ayo
#

import urllib.request
import os
import time

# 開啟URL，返回HTML資訊
def open_url(url):
    # 根據當前URL建立請求包
    req = urllib.request.Request(url)
    # 新增頭資訊，偽裝成瀏覽器訪問
    req.add_header('User-Agent',
                   'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36')
    # 發起請求
    response = urllib.request.urlopen(req)
    # 返回請求到的HTML資訊
    return response.read()

# 查詢URL中的下一頁頁碼
def get_page(url):
    # 請求網頁，並解碼
    html=open_url(url).decode('utf-8')
    # 在html頁面中找頁碼
    a=html.find('current-comment-page')+23
    b=html.find(']',a)
    # 返回頁碼
    return html[a:b]

# 查詢當前頁面所有圖片的URL
def find_imgs(url):
    # 請求網頁
    html=open_url(url).decode('utf-8')
    img_addrs=[]
    # 找圖片
    a = html.find('img src=')
    #不帶停，如果沒找到則退出迴圈
    while a != -1:
        # 以a的位置為起點，找以jpg結尾的圖片
        b = html.find('.jpg',a, a+255)
        # 如果找到就新增到圖片列表中
        if b != -1:
            img_addrs.append(html[a+9:b+4])
        # 否則偏移下標
        else:
            b=a+9
        # 繼續找
        a=html.find('img src=',b)
    return img_addrs

# 儲存圖片
def save_imgs(img_addrs):
    for each in img_addrs:
        print('download image:%s'%each)
        filename=each.split('/')[-1]
        with open(filename,'wb') as f:
            img=open_url("http:"+each)
            f.write(img)

# 下載圖片
# folder 資料夾字首名
# pages 爬多少頁的資源，預設只爬10頁
def download_mm(folder='woman',pages=10):
    folder+= str(time.time())
    # 建立資料夾
    os.mkdir(folder)
    # 將指令碼的工作環境移動到建立的資料夾下
    os.chdir(folder)

    # 本次指令碼要爬的網站
    url='http://jandan.net/ooxx/'
    # 獲得當前頁面的頁碼
    page_num=int(get_page(url))
    for i in range(pages):
        page_num -= i
        # 建立新的爬蟲頁
        page_url=url+'page-'+str(page_num-1)+'#comments'
        # 爬完當前頁面下所有圖片
        img_addrs=find_imgs(page_url)
        # 將爬到的頁面儲存起來
        save_imgs(img_addrs)

if __name__ == '__main__':
    download_mm()

電腦知識綜合電子書- 2017年版

電子書自己制作的電腦知識綜合電子書希望大家喜歡，電子書內容包含邊框音畫制作、組裝電腦教程等！~ http://pan.baidu.com/s/1gf5RPIF電腦知識綜合電子書- 2017年版

普通高中課程方案和語文等學科課程標準（2017年版）----分析及教育部官網網址

信息智能家居 eight ffffff 機器 add href 分享圖片能源我主要關註：高中信息技術、通用技術方面的課標。下面就把我的體會總結一下，便於後續教研。高中信息技術高中通用技術

Python3系列-基礎語法-1

1、第一個Python程式 #!/usr/bin/python3 print("Hello, World!");關於第一行程式碼：#!/usr/bin/python3的理解呼叫指令碼時使用：Python hello.py，忽略#!/usr/bin/python3，

400多位院士專家的智慧結晶！《中國製造2025》重點領域技術創新路線圖（2017年版）正式釋出！

1月26日，由國家制造強國建設戰略諮詢委員會（簡稱戰略諮詢委）主辦、中國電子資訊產業發展研究院承

自考（2017年版）《作業系統》——第二章思考與練習題參考答案（自做）

1.請簡述處理器的組成和工作原理。你認為哪些部分和作業系統密切相關，為什麼？答：處理器一般由運算器、控制器、一系列的暫存器以及快取記憶體構成。其中，運算器實現指令中的算術和邏輯運算，是計算機的核心。控制器負責控制長征執行的流程。暫存器是一種暫時儲存器件，用於

自考（2017年版）《作業系統》——第一章思考與練習題參考答案（自做）

說明：一切答案以課本描述優先 1.什麼是作業系統？請說明作業系統在計算機系統中的作用和地位。答：作業系統是計算機系統中的一個系統軟體，是一些程式模組的集合。這些程式模組能有效的組織和管理計算機系統中的硬體及軟體資源，合理地組織計算機流程，控制程式的執

Python3.6基礎知識函式引數【四】

Python函式函式函式的特徵函式的定義函式的引數位置引數預設引數關鍵字引數收集引數包裹位置引數包裹關鍵字引數

Python3.6基礎知識函式【四】

函式函式是一個特定功能的結構，屬於程式碼組的一種函式的特徵函式的定義必須使用def關鍵字函式的命名規則不允許使用中文，儘量使用英文可以包含數字，但是不能以數字開頭不可以使用特殊符號，_除外函式名嚴格區分大小寫函式名不要與關鍵字衝突函式名

Python3.6 基礎知識

Python中的字串str用單引號(' ')或雙引號(" ")括起來，同時使用反斜槓(\)轉義特殊字元。 >>> s = 'Yes,he doesn\'t' >>> print(s, type(s), len(s)) Yes,he doesn't 14 如果你不想讓反斜

Vue2+VueRouter2+Webpack+Axios構建專案實戰2017重製版（一）基礎知識概述

vue 是什麼，以及我們為什麼選擇 vue 在我們公司的實際拓展中，由於選擇框架時，angular 正在新舊交替，江山未穩，因此我們當時嘗試在兩個專案中引用不同的技術路線 react 和 vue 。實踐證明，這兩個都是非常優秀的框架。但是同時也證明，在前端初學者的面前，vue 的學習成本明顯比 re

DOM系列基礎知識

就會 .com 火狐 nodename 針對註意作用 ntb 文檔對象模型 DOM （Document Object Model）即文檔對象模型，針對 HTML 和 XML 文檔的 API （應用程序接口）。DOM 描繪了一個層次化的節點樹，運行開發人員添加、移除

python3.6基礎知識

Python中預設的編碼格式是 ASCII格式，在沒修改編碼格式時無法正確列印漢字，所以在讀取中文時會報錯。解決方法為只要在檔案開頭加入# -*-coding: UTF-8 -*-或者#coding=utf-8就行了注意：#coding=utf-8的=號兩邊不要空格。

Vue2+VueRouter2+Webpack+Axios 構建專案實戰2017重製版（一）基礎知識概述

前言 2016年，我寫了一系列的 VUE 入門教程，當時寫這一系列博文的時候，我也只是一個菜鳥，甚至在寫的過程中關閉了程式碼審查，否則通不過校驗。本來寫這一系列的博文只是為了給自己看的，但沒想到的是，這系列博文的點選量超過了2萬以上，搜尋引擎的排名也是非常理想，這讓

python3 函式(基礎知識二)

1. python 函式的引數傳遞 1.傳遞方式：位置傳參序列傳參關鍵字傳參字典關鍵字傳參 2. 位置傳參: 實際呼叫引數(實參)的對應關係與形式引數(形參)的對應關係是

Python基礎知識之：hello world，註釋，變量，數據類型

我們重要一個 yield code oba () turn 編程語言　　從接觸編程語言以來，在我腦海裏經常有三個問號：這是什麽？這個有什麽用？這個怎麽用？　　我覺得初學一個東西，把這三個問號都搞明白，那麽剩下的就是孰能生巧的過程了，在接下來的博客中，每個知

爬蟲基礎---HTTP協議理解、網頁的基礎知識、爬蟲的基本原理

以及 res form 一次發的 urn 網絡協議位置 nsf 一、HTTP協議的理解 URL和URI 在學習HTTP之前我們需要了解一下URL、URI(精確的說明某資源的位置以及如果去訪問它) URL：Universal Resource Locator 統一資源定位

Linux基礎知識：SHELL指令碼；find查詢、tar壓縮；sed檔案處理工具

Shell指令碼程式設計基礎程式程式：演算法+資料結構資料：是程式的核心資料結構：資料在計算機中的型別和組織方式演算法：處理資料的方式程式程式設計風格：過程式：以指令為中心，資料服務於指令物件式：以資料為中心，指令服務於資料shell程式：提供了程式設計能力，解釋執行高階程式語言：編譯：高階語言

2017年最新Python3.6網絡爬蟲實戰案例基礎+實戰+框架+分布式高清視頻教程

問題 color 令行如何使用網絡能力小白 lib line 課程簡介: 這是一套目前為止我覺得最適合小白學習的體系非常完整的Python爬蟲課程，使用的Python3.6的版本，用到anaconda來開發python程序，老師講解的很細致，課程體系設置的也

韓順平2017年最新php視訊,泰牛php程式設計師大牛班，基礎班視訊教程

【責任宣告】：本資源純屬個人業餘愛好分享學習，希望大家好好利用資源好好學習，找到稱心如意的高薪IT工作，本人以及csdn論壇不對此承擔任何責任，任何人不得對此資源進行自行商業用途，否則後果自負！如果你對此視訊有任何異議請給我留言，有必要會在24小時內刪除！切記！此資源僅供

最新2017年版利用Python3系列基礎知識完成爬蟲指令碼帶完整註釋

引言

簡介

賞析

原始碼

相關推薦