Python學習 —— 實現簡單爬蟲

阿新 • • 發佈：2018-01-06

發現 guid openssl 取圖 lib 列表了解菜鳥頁面數據

　　為了加快學習python3.x於是直接看了許多有實際操作的小項目，查了許多資料後寫了這個腳本，這個腳本主要是爬取百度圖片‘東方幻想鄉‘的圖片，但發現有幾個問題：

　　　　1.圖片會重復兩次。

　　　　2.圖片只有81張，只匹配了fm=27的圖片...

　　下面給出代碼：

from urllib import request
import re

class CrawlJPG:     #定義一個爬取圖片的類
    def __init__(self):     # 構造函數
        print(‘Link start!‘)

    def __GetHtml(self, html):
        post = request.urlopen(html)
        page = post.read()
        return page

    def __GetImg(self, html):
        page = self.__GetHtml(html)     # 獲取 html 頁面數據
        page = page.decode(‘utf-8‘)     # 將格式轉換為utf-8格式 TypeError: cannot use a string pattern on a bytes-like object
        recomp = re.compile(r‘https://\w{3}.\w{8}.\w{3}/\w{27}/\w{2}/u=[0-9]{9,10},[0-9]{9,10}&fm=\w{2}&gp=0.jpg‘)
        imgUrlList = recomp.findall(page)   # 和 html 頁面正則匹配
        return imgUrlList   # 返回匹配得到的 jpg 的 url 列表

    def run(self, html):
        imgUrlList = self.__GetImg(html)
        ImgName = 0
        fp = open(‘C:\\Users\\adimin\\Desktop\\CrawlImg\\imgUrl.txt‘, ‘w‘)
        for imgUrl in imgUrlList:
            request.urlretrieve(imgUrl, ‘C:\\Users\\adimin\\Desktop\\CrawlImg\\{}.jpg‘ .format(str(ImgName)))
            print(‘Downloads:‘ + imgUrl)
            fp.write(str(imgUrl))
            ImgName += 1
        fp.close()

    def __del__(self):      # 析構函數
        print("Download finished!")


def main():
    url = ‘https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B6%AB%B7%BD%BB%C3%CF%EB%CF%E7&fr=ala&ala=1&alatpl=adress&pos=0&hs=2&xthttps=111111‘
    GetImg = CrawlJPG()
    GetImg.run(url)


if __name__ == ‘__main__‘:
    main()

　　參考了許多博客和資料，主要有：

　　　　1.http://blog.csdn.net/clj198606061111/article/details/50816115

　　　　2.https://www.cnblogs.com/speeding/p/5097790.html

　　　　3.http://urllib3.readthedocs.io/en/latest/

　　　　4.https://pyopenssl.org/en/stable/

　　　　5.https://docs.python.org/3.6/library/urllib.html

　　　　6.https://segmentfault.com/q/1010000004442233/a-1020000004448440

　　　　7.http://urllib3.readthedocs.io/en/latest/user-guide.html

　　　　8.菜鳥教程-python3

　　還有一些記不得了...

　　然後，通過這次的學習學到了很多，基本熟悉了python3的基本語法，還了解了正則表達式的寫法等，於是用了面向對象的方式進行編程。

　　代碼中可以看到：一個爬取圖片的類，構造函數、析構函數等。

　　其實對於urllib3 package我還是有很多地方不明白。。。比如，我還寫了另一個版本的url請求，用了urllib3.PoolManager()，運行沒問題，但沒辦法下載圖片

from urllib import request
import urllib3
import certifi
import re

class CrawlJPG:     #定義一個爬取圖片的類
    def __init__(self):     # 構造函數
        print(‘Link start!‘)

    def __GetHtml(self, html):
        post = urllib3.PoolManager(　　# 初始化，為了解決一個證書問題 安裝了 pyOpenSSL 就有了certifi package,這樣寫就解決了InsecureRequestWarning的 
警告
            cert_reqs=‘CERT_REQUIRED‘,
            ca_certs=certifi.where()
        )
        post = post.urlopen(‘GET‘, html)　　# 請求打開網頁
        page = post.read()　　# 讀取頁面數據
        return page

    def __GetImg(self, html):
        page = self.__GetHtml(html)      # 獲取 html 頁面數據
        page = page.decode(‘utf-8‘)     # 將格式轉換為utf-8格式 TypeError: cannot use a string pattern on a bytes-like object
        recomp = re.compile(r‘https://\w{3}.\w{8}.\w{3}/\w{27}/\w{2}/u=[0-9]{9,10},[0-9]{9,10}&fm=\w{2}&gp=0.jpg‘)
        imgUrlList = recomp.findall(page)   # 和 html 頁面正則匹配
        return imgUrlList   # 返回匹配得到的 jpg 的 url 列表

    def run(self, html):
        imgUrlList = self.__GetImg(html)
        ImgName = 0
        fp = open(‘C:\\Users\\adimin\\Desktop\\CrawlImg\\imgUrl.txt‘, ‘w‘)
        for imgUrl in imgUrlList:
            request.urlretrieve(imgUrl, ‘C:\\Users\\adimin\\Desktop\\CrawlImg\\{}.jpg‘ .format(str(ImgName)))
            print(‘Downloads:‘ + imgUrl)
            fp.write(str(imgUrl))
            ImgName += 1
        fp.close()

    def __del__(self):      # 析構函數
        print("Download finished!")


def main():
    url = ‘https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B6%AB%B7%BD%BB%C3%CF%EB%CF%E7&fr=ala&ala=1&alatpl=adress&pos=0&hs=2&xthttps=111111‘
    GetImg = CrawlJPG()
    GetImg.run(url)


if __name__ == ‘__main__‘:
    main()

　　再好好研究一段時間吧。

　　對了上次說沒能用PyCharm來寫的問題我已經解決了。但對python的關鍵字不太熟，還是配合上sublimb Text比較好...

　　最後，這篇就總結到這了。

Python學習 —— 實現簡單爬蟲

發現 guid openssl 取圖 lib 列表了解菜鳥頁面數據　　為了加快學習python3.x於是直接看了許多有實際操作的小項目，查了許多資料後寫了這個腳本，這個腳本主要是爬取百度圖片‘東方幻想鄉‘的圖片，但發現有幾個問題：　　　　1.圖片會重復兩次。

python實現簡單爬蟲功能

我們目錄 size .com all 本地文件使用 url alt 　在我們日常上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片保存下載，或者用戶用來做桌面壁紙，或者用來做設計的素材。　　我們最常規的做法就是通過鼠標右鍵，選擇另存為。但有些圖片鼠標右

matlab學習 — 實現簡單的爬蟲

mage data- imwrite read dai div 小寫 ranking 解析　　這裏復雜的情況暫時不考慮。。測試網址為pixiv的每日排行榜 = = url = ‘https://www.pixiv.net/ranking.php?mode=daily

Python實現簡單爬蟲功能--批量下載百度貼吧裡的圖片

在上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片儲存下載，或者使用者用來做桌面桌布，或者用來做設計的素材。　　我們最常規的做法就是通過滑鼠右鍵，選擇另存為。但有些圖片滑鼠右鍵的時候並沒有另存為選項，還有辦法就通過就是通過截圖工具擷取下來，但這樣就降低圖片的清晰度

python學習之簡單python爬蟲

參考文章來源：基本算是第一次使用python寫程式碼，所以直接參考了已有的部落格的編寫過程。依然遇到了問題：問題一： urllib 和 urllib2的區別有哪些？用urllib2獲取到網頁內容後，不能對內容進行read()操作。但是使用urll

【python學習】——簡單購物系統實現（進化版）

實現功能有：輸入賬號，密碼。根據賬號密碼會判斷為買家還是賣家，或者是已經被凍結的賬號（密碼輸入三次錯誤賬號就將被凍結）。買家入口： 1.根據序號購買商品 2.每次購買完成，都會顯示本次購買的商品以及餘額 3.若餘額不足，會提示購買失敗 4.按q鍵可退出

WSWP（用python寫網路爬蟲）筆記一：實現簡單爬蟲

wswp中的程式碼是通過python2的語法來寫的，在學習的過程中個人比較喜歡python3，因此準備將wswp的示例程式碼用python3重寫一遍，以加深映像。開始嘗試構建爬蟲識別網站所用技術和網站所有者構建網站所使用的技術型別的識別和尋找

Python 新手實戰之機器學習實現簡單驗證碼識別(一)：用PIL簡單繪製驗證碼

驗證碼生成 from PIL import Image, ImageDraw, ImageFont import random, os def draw(): #隨機生成背景顏色 (RGB顏色範圍為0-255，越高越接近白色)，背景顏色不宜過深，

Python字典實現簡單的三級菜單

直轄市 test 什麽 bre python字典山東 oldboy als 實現 data = { "北京":{ "昌平":{"沙河":["oldboy","test"],"天通苑":["鏈接地產","我愛我家"]}, "朝陽":{"望京

Python學習-一個簡單的計時器

pos var ota mar split dcl turn data 代碼在實際開發中，往往想要計算一段代碼執行多長時間，以下我將該功能寫入到一個函數裏面，僅僅要在每一個函數前面調用該函數就可以，見以下代碼： #----------------

Python-Day4實現簡單的shell sed替換功能

color utf-8 ast style 實現 nes 寫入 readlines lov code： 1 f = open(‘yesterday‘,‘r‘,encoding=‘utf-8‘) 2 f2 = open(‘yesterday.bak‘,‘w‘,encod

Python django實現簡單的郵件系統發送郵件功能

conn ive smtplib send sub 方式 fix www. obj Python django實現簡單的郵件系統發送郵件功能本文實例講述了Python django實現簡單的郵件系統發送郵件功能。 django郵件系統 Djang

[python 學習筆記] 簡單刷投票功能

ets con ext erer wifi turn 發送 use gen 最近好久沒寫了，其實有道雲裏積累了好多,但是沒時間整理。實在是太多事情要做了好多投票都是不需要登錄的，這種刷起來很簡單。原理就是 X-Forwarded-For 。廢話不多說上代碼 impor

python學習-paramiko簡單使用

paramiko簡單使用 paramiko是基於python實現的ssh2遠程安全連接，支持認證及密鑰方式。可以實現遠程命令執行，文件傳輸、中間ssh代理等功能。安裝：pip install paramiko或 easy_install paramikoparamiko依賴第三方的Crypto，Ecds

Python tkinter 實現簡單登陸註冊基於B/S三層體系結構，實現用戶身份驗證

cte cursor 實現簡單結果 pass 分享圖片 not null for 技術 Python tkinter 實現簡單登陸註冊最終效果開始界面 ? 註冊登陸 ? 源碼 login.py # encoding=utf-8 f

python學習-ansible簡單使用1

color 計算平臺 exc rda 管理方式開源大數據 ctime lse 一、介紹Ansible 一種集成 IT 系統的配置管理、應用部署、執行特定任務的開源平臺，是 AnsibleWorks 公司名下的項目，該公司由 Cobbler 及 Func 的作者於 201

（java）selenium webdriver學習---實現簡單的翻頁，將頁面內容的標題和標題鏈接取出

prop imp current inter 並且常見問題 activity num div selenium webdriver學習---實現簡單的翻頁，將頁面內容的標題和標題鏈接取出；該情況適合能能循環page=1~n,並且每個網頁隨著循環可以打開的情況，註意一定

python bs4 + requests4 簡單爬蟲

sts lec logs .html 自信 app nco soup spa 參考鏈接： bs4和requests的使用：https://www.cnblogs.com/baojinjin/p/6819389.html 安裝pip：https://blog.csdn.net

Node實現簡單爬蟲

1、新建一個專案新建一個資料夾安裝依賴 cnpm i --save PACKAGE_NAME 寫應用邏輯 2、核心邏輯實現爬蟲需要用到三個依賴，分別是express、superagent、cheerio superagent是個http方面的庫，可以發

python+openCV實現簡單的圖片搜尋功能（一）

一、圖片搜尋引擎有三種不同的模式 1.Search by Meta-Data:元資料搜尋模式，這種和傳統的文字搜尋類似，給索引資料新增文字註釋，上傳待查詢的圖片的時候，需要附加圖片的文字描述，實際在後臺搜尋對應的文字描述，典型的有 https://www.flickr.com/

Python學習 —— 實現簡單爬蟲

相關推薦