爬蟲：輸入網頁之後爬取當前頁面的圖片和背景圖片,最後打包成exe

阿新 • • 發佈：2018-12-12

環境：py3.6

核心庫：selenium(考慮到通用性，js載入的網頁)、pyinstaller

顏色顯示：colors.py

colors.py

用於在命令列輸出文字時，帶有顏色，可有可無。

# -*- coding:utf-8 -*-#

# filename: prt_cmd_color.py

import ctypes, sys

STD_INPUT_HANDLE = -10
STD_OUTPUT_HANDLE = -11
STD_ERROR_HANDLE = -12

# 字型顏色定義 text colors
FOREGROUND_BLUE = 0x09  # blue.
FOREGROUND_GREEN = 0x0a  # 
 green.
FOREGROUND_RED = 0x0c  # red.
FOREGROUND_YELLOW = 0x0e  # yellow.

# 背景顏色定義 background colors
BACKGROUND_YELLOW = 0xe0  # yellow.

# get handle
std_out_handle = ctypes.windll.kernel32.GetStdHandle(STD_OUTPUT_HANDLE)


def set_cmd_text_color(color, handle=std_out_handle):
    Bool = ctypes.windll.kernel32.SetConsoleTextAttribute(handle, color)
     
return Bool


# reset white
def resetColor():
    set_cmd_text_color(FOREGROUND_RED | FOREGROUND_GREEN | FOREGROUND_BLUE)


# green
def printGreen(mess):
    set_cmd_text_color(FOREGROUND_GREEN)
    sys.stdout.write(mess)
    resetColor()


# red
def printRed(mess):
    set_cmd_text_color(FOREGROUND_RED)
    sys.stdout.write(mess)
    resetColor()


 
# yellow
def printYellow(mess):
    set_cmd_text_color(FOREGROUND_YELLOW)
    sys.stdout.write(mess + '\n')
    resetColor()


# white bkground and black text
def printYellowRed(mess):
    set_cmd_text_color(BACKGROUND_YELLOW | FOREGROUND_RED)
    sys.stdout.write(mess + '\n')
    resetColor()

if __name__ == '__main__':
    printGreen('printGreen:Gree Color Text')
    printRed('printRed:Red Color Text')
    printYellow('printYellow:Yellow Color Text')

spider.py

主要在於通用性的處理

# -*- coding: utf-8 -*-
## import some modules
import os
import time
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
from os import  path
import requests
import re
from urllib.parse import urlparse, urljoin
from colors import  *
d = path.dirname(__file__)
bar_length = 20
def output(List, percent, msg ,url):
    hashes = '#' * int(percent / len(List) * bar_length)
    spaces = ' ' * (bar_length - len(hashes))
    loadingStr = str(int(100 * percent / len(List)))+ u'%'
    length = len('100%')
    if len(loadingStr) < length:
        loadingStr += ' '*(length-len(loadingStr))
    sys.stdout.write("\rPercent: [%s %s]" % (hashes + spaces, loadingStr ))
    printYellow("         [%s] %s " % ( msg, url))
    sys.stdout.flush()
    time.sleep(2)

class Spider():
    '''spider class'''
    def __init__(self):
        self.url = 'https://www.cnblogs.com/cate/csharp/#p5'
        self.checkMsg = ''
        self.fileName = path.join(d, 'image/')
        self.fileDirName = ''
        self.chrome_options = Options()
        self.chrome_options.add_argument('--headless')
        self.chrome_options.add_argument('--disable-gpu')
        self.driver = webdriver.Chrome(chrome_options=self.chrome_options)
        self.topHostPostfix = (
        '.com', '.la', '.io', '.co', '.info', '.net', '.org', '.me', '.mobi',
        '.us', '.biz', '.xxx', '.ca', '.co.jp', '.com.cn', '.net.cn',
        '.org.cn', '.mx', '.tv', '.ws', '.ag', '.com.ag', '.net.ag',
        '.org.ag', '.am', '.asia', '.at', '.be', '.com.br', '.net.br',
        '.bz', '.com.bz', '.net.bz', '.cc', '.com.co', '.net.co',
        '.nom.co', '.de', '.es', '.com.es', '.nom.es', '.org.es',
        '.eu', '.fm', '.fr', '.gs', '.in', '.co.in', '.firm.in', '.gen.in',
        '.ind.in', '.net.in', '.org.in', '.it', '.jobs', '.jp', '.ms',
        '.com.mx', '.nl', '.nu', '.co.nz', '.net.nz', '.org.nz',
        '.se', '.tc', '.tk', '.tw', '.com.tw', '.idv.tw', '.org.tw',
        '.hk', '.co.uk', '.me.uk', '.org.uk', '.vg', ".com.hk")

    def inputUrl(self):
        '''input url'''
        self.url = input('please input your target: ')
        print('[*] url: %s' % self.url)

    def check(self):
        '''check url'''
        self.checkMsg = input('Are your sure to grab this site? [Y/N/Exit] :')
        if self.checkMsg == 'Y':
            self.middle = self.url.replace('http://', '')
            self.middle = self.middle.replace('https://', '')
            self.fileDirName = path.join(d, 'image/%s' % self.middle)
            self.makeFile()
            self.parse()
        elif self.checkMsg == 'N':
            self.inputUrl()
            self.check()
        elif self.checkMsg == 'Exit':
            sys.exit()
        else:
            print('please input one of [Y/N/Exit]!!')
            self.check()

    def makeFile(self):
        '''建立資料夾函式'''
        if os.path.exists(self.fileName):
            pass
        else:
            os.makedirs(self.fileName)

        if os.path.exists(self.fileDirName):
            pass
        else:
            os.makedirs(self.fileDirName)

    def getCssImage(self,url):
        '''獲取css中的image'''
        headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}
        try:
            response = requests.get(url, headers = headers, timeout=500).text
            bgCssList = re.findall("url\((.*?\))", response)
            bgCssSrc = []
            if len(bgCssList) > 0:
                for v in bgCssList:
                    v = v.replace('url(', '')
                    v = v.replace('\\', "")
                    v = v.replace(')', "")
                    print(v)
                    print('-----------------------------------')
                    bgCssSrc.append(v)
            return bgCssSrc
        except:
            print('connection timeout!!!')

    def getHostName(self, url):
        '''獲取url主域名'''
        regx = r'[^\.]+(' + '|'.join([h.replace('.', r'\.') for h in self.topHostPostfix]) + ')$'
        pattern = re.compile(regx, re.IGNORECASE)
        parts = urlparse(self.url)
        host = parts.netloc
        m = pattern.search(host)
        urlm = 'http://www.' + m.group() if m else host
        return urlm

    def joinUrl(self, url):
        '''圖片url處理'''
        # if url[:2] == '//':
        #     url = url.replace('//', '')
        #     url = 'http://' + url
        # elif url.startswith('/'):
        #     ## 需要處理
        #     regx = r'[^\.]+(' + '|'.join([h.replace('.', r'\.') for h in self.topHostPostfix]) + ')$'
        #     pattern = re.compile(regx, re.IGNORECASE)
        #     parts = urlparse(self.url)
        #     host = parts.netloc
        #     m = pattern.search(host)
        #     urlm = 'http://www.' + m.group() if m else host
        #     url = urlm + url
        # try:
        #     ## 處理字串   獲取 www   http   https
        #     if url[:2] == '//':
        #         url = url.replace('//', '')
        #         url = 'http://' + url
        #     elif url.startswith('/'):
        #         ## 需要處理
        #         regx = r'[^\.]+(' + '|'.join([h.replace('.', r'\.') for h in self.topHostPostfix]) + ')$'
        #         pattern = re.compile(regx, re.IGNORECASE)
        #         parts = urlparse(self.url)
        #         host = parts.netloc
        #         m = pattern.search(host)
        #         urlm = 'http://www/' + m.group() if m else host
        #         url = urlm + url
        #     else:
        #         try:
        #             url = url.split('www', 1)[1]
        #             url = u'http://www' + url
        #         except:
        #             try:
        #                 url = url.split('http', 1)[1]
        #                 url = u'http' + url
        #             except:
        #                 pass
        # except:
        #     pass
        ## ex1    '//example.png'
        ## ex2    'http://'
        if url.startswith('http'):
            return url
        else:
            return urljoin(self.url, url)

    def download(self, key, url):
        if key == 0:
            pass
        else:
            print('')
        url = self.joinUrl(url)
        try:
            imgType = os.path.split(url)[1]
            imgType = imgType.split('.',1)[1]
            imgType = imgType.split('?',1)[0]
        except:
            msg = u' Error '
            return msg
        fileName = int(time.time())
        path = self.fileDirName+ u'/'+str(fileName) + u'.' + imgType
        try:
            headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}
            try:
                response = requests.get(url, headers=headers, timeout=500).content
            except:
                msg = u' Error '
                return msg
            f = open(path, 'wb+')
            try:
                f.write(response.encode('utf-8'))
            except:
                f.write(response)
            f.close()
        except Exception as e:
            msg = u' Error '
            return msg
        return u'Success'

    def parse(self):
        '''parse html'''
        self.driver.get(self.url)
        time.sleep(3)
        html_content = self.driver.page_source
        bs = BeautifulSoup(html_content, "html.parser")
        ## 先獲取所有的圖片
        imgList = bs.find_all('img')
        srcList = []
        if len(imgList) > 0:
            for v in imgList:
                srcList.append(v['src'])
                print(v['src'])
                print('-----------------------------------')
            srcList = list(set(srcList))
        print('[*] Find %s image in page',len(srcList))
        ## 獲取當前頁面style裡面的背景圖
        bgStyleList = re.findall("url\((.*?\))", html_content)
        bgSrc = []
        if len(bgStyleList) > 0:
            for v in bgStyleList:
                v = v.replace('url(', '')
                v = v.replace('\\',"")
                v = v.replace(')', "")
                print(v)
                print('-----------------------------------')
                bgSrc.append(v)
        bgSrc = list(set(bgSrc))
        print('[*] Find %s image in Page style', len(bgSrc))
        ## 獲取所有的背景圖
        ## 獲取所有的css檔案
        cssList = re.findall('<link rel="stylesheet" href="(.*?)"',html_content)
        cssImageUrls = []
        if len(cssList) > 0:
            cssImageUrl = []
            for url in cssList:
                cssImageUrl += self.getCssImage(url)
            cssImageUrls = cssImageUrl
            cssImageUrls = list(set(cssImageUrls))
        print('[*] Find %s image in Page css', len(cssImageUrls))

        ## 開始獲取圖片https://www.cnblogs.com/shuangzikun/
        ## 開始下載標籤的圖片
        print('---------------------------------------------')


        if len(srcList) > 0:
            print('Start Load Image -- %s' % len(srcList))
            for percent,url in enumerate(srcList):
                percent += 1
                msg = self.download(percent, url)
                output(srcList, percent, msg ,url)


        if len(bgSrc) >0:
            print('\nStart Load Image In Style -- %s' % len(bgSrc))
            for percent, url in enumerate(bgSrc):
                percent += 1
                msg = self.download(percent, url)
                output(srcList, percent, msg, url)


        if len(cssImageUrls) > 0:
            print('\nStart Load Image In Css -- %s' % len(cssImageUrls))
            for percent, url in enumerate(cssImageUrls):
                percent += 1
                msg = self.download(percent, url)
                output(srcList, percent, msg, url)

        print('\nEnd----------------------------------Exit')



if __name__ == '__main__':
    print('''          ____  __  __  __      __       _______  _______
         /__  \\ \\_\\/_/ / /     / /____  / ___  / / ___  /
        / /_/ /  \\__/ / /___  / /__  / / /  / / / /  / /
       / ____/   / / / /___/ / /  / / / /__/ / / /  / /
      /_/       /_/ /_/___/ /_/  /_/  \\_____/ /_/  /_/ version 3.6''')
    descriptionL = ['T', 'h', 'i', 's', ' ', 'i', 's' , ' ', 'a', ' ', 's', 'p', 'i', 'd', 'e', 'r', ' ','p', 'r', 'o', 'c', 'e', 'd', 'u', 'r', 'e', ' ', '-', '-', '-',' IMGSPIDER', '\n']

    for j in range(len(descriptionL)):
        sys.stdout.write(descriptionL[j])
        sys.stdout.flush()
        time.sleep(0.1)
    urlL = ['[First Step]', ' input ', 'a', ' url ' , 'as ', 'your ', 'target ~ \n']

    for j in range(len(urlL)):
        sys.stdout.write(urlL[j])
        sys.stdout.flush()
        time.sleep(0.2)
    pathL = ['[Second Step]', ' check ', 'this ', 'url ~\n']

    for j in range(len(pathL)):
        sys.stdout.write(pathL[j])
        sys.stdout.flush()
        time.sleep(0.2)
    ## new spider
    MySpider = Spider()
    ## input url path
    # MySpider.inputUrl()
    # ## checkMsg
    MySpider.check()

執行效果

打包

使用到其它擴充套件

pyinstaller -f spider.py 打包成單一檔案。

由於要在其它電腦上使用，需要修改下谷歌驅動的位置，把谷歌驅動放在spider.exe的同目錄下。

        try:
            self.chrome_options.add_argument(r"user-data-dir = %s" % path.join('Chrome\Application'))
            self.driver = webdriver.Chrome(path.join(d,'chromedriver.exe'),chrome_options=self.chrome_options)
        except Exception as e:
            print(e)

點選spider.exe，初始化沒有報錯即ok了。

爬蟲：輸入網頁之後爬取當前頁面的圖片和背景圖片,最後打包成exe

環境：py3.6 核心庫：selenium(考慮到通用性，js載入的網頁)、pyinstaller 顏色顯示：colors.py colors.py 用於在命令列輸出文字時，帶有顏色，可有可無。 # -*- coding:utf-8 -*-# # filename: prt_cmd_color.py

Python3網路爬蟲：requests+mongodb+wordcloud 爬取豆瓣影評並生成詞雲

Python版本： python3.+ 執行環境： Mac OS IDE： pycharm 一前言二豆瓣網影評爬取網頁分析程式碼編寫三資料庫實裝四

Python3網路爬蟲：使用Beautiful Soup爬取小說

本文是http://blog.csdn.net/c406495762/article/details/71158264的學習筆記作者:Jack-Cui 博主連結:http://blog.csdn.net/c406495762 執行平臺： OSX Python版本： Pyth

python網路爬蟲：股票資料定向爬取

步驟說明步驟1：從東方財富網獲取股票列表步驟2：逐一獲取股票程式碼，並增加到百度股票的連結中，最後對這些連結進行逐個的訪問獲得股票的資訊步驟3：將結果儲存到檔案程式碼實現爬取當天一天的股票資料（上海，深圳交易所的） import reques

python爬蟲：使用selenium + ChromeDriver爬取途家網

說明本站（途家網https://www.tujia.com）通過常規抓頁面的方法不能獲取資料，可以使用selenium + ChromeDriver來獲取頁面資料。 0 指令碼執行順序與說明 0.1 先執行craw_url.py，獲得所有房子詳情頁的url

Python 爬蟲實現簡單例子（爬取某個頁面）

Python爬蟲最簡單實現 #!/usr/bin/env python #coding=utf-8import urllibimport urllib2def login(): url = 'https://www.oschina.net/action/user/

爬蟲練習之遞迴爬取入口頁面下所有連結(scrapy-redis分散式)

1. 實現scrapy-redis前的一些準備 pycharm中安裝scrapy和scrapy-redis模組 pycharm中開啟scrapy-redis原始碼所在資料夾同scrapy用法,修改四個檔案items, settings, pipelin

網頁內容爬取：如何提取正文內容 BEAUTIFULSOUP的輸出

總計排除 XML html pack prettify 樣式 start ack 創建一個新網站，一開始沒有內容，通常需要抓取其他人的網頁內容，一般的操作步驟如下：根據url下載網頁內容，針對每個網頁的html結構特征，利用正則表達式，或者其他的方式，做文本解析，提取出

爬蟲任務二：爬取(用到htmlunit和jsoup)通過百度搜索引擎關鍵字搜取到的新聞標題和url，並保存在本地文件中（主體借鑒了網上的資料）

標題 code rgs aps snap one reader url 預處理采用maven工程，免著到處找依賴jar包 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:

Python爬蟲初探 - selenium+beautifulsoup4+chromedriver爬取需要登錄的網頁信息

-- pro tag bug gui 結果 .com 工作 ges 目標之前的自動答復機器人需要從一個內部網頁上獲取的消息用於回復一些問題，但是沒有對應的查詢api，於是想到了用腳本模擬瀏覽器訪問網站爬取內容返回給用戶。詳細介紹了第一次探索python爬蟲的坑。準備工作

Java爬蟲學習《一、爬取網頁URL》

導包，如果是用的maven，新增依賴： <dependency> <groupId>commons-httpclient</groupId> <artifactId>commons

Python爬蟲基礎：驗證碼的爬取和識別詳解

今天要給大家介紹的是驗證碼的爬取和識別，不過只涉及到最簡單的圖形驗證碼，也是現在比較常見的一種型別。執行平臺：Windows Python版本：Python3.6 IDE: Sublime Text 其他：Chrome瀏覽器簡述流程：步驟1：簡單介紹驗證碼步驟2：

Python爬蟲教程：多執行緒爬取電子書

程式碼非常簡單，有咱們前面的教程做鋪墊，很少的程式碼就可以實現完整的功能了，最後把採集到的內容寫到 csv 檔案裡面，( csv 是啥，你百度一下就知道了) 這段程式碼是 IO密集操作我們採用 aiohttp 模

Python爬蟲系列之四：利用Python爬取PyODPS頁面並整合成PDF文件

文章架構開發場景在日常開發過程中，經常需要參考一些文件。對於線上文件，往往由於網速等原因，用起來總不是那麼（ma）順（fan）心。開發工具 Anaconda Python 2 實現方案基於 bs4 模組標籤解析爬取

爬蟲練習五：多進程爬取股市通股票數據

pen ... 3.6 job form append head odi date 在上網查閱一些python爬蟲文章時，看見有人分享了爬取股票的交易數據，不過實現得比較簡單。這裏就做個小練習，從百度股票批量爬取各股票的交易信息。文章出處為：Python 爬蟲實戰(2)：

爬蟲小白——利用pycharm爬取網頁內容

概述：這是一個利用pycharm在phthon環境下做的一個簡單爬蟲分享，主要通過對豆瓣音樂top250的歌名、作者（專輯）的爬取來分析爬蟲原理什麼是爬蟲？我們要學會爬蟲，首先要知道什麼是爬蟲。網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者

爬蟲專案：京東商品資料爬取

spider程式碼：# -*- coding: utf-8 -*- import scrapy from scrapy.http import Request from jingdong.items import JingdongItem import re import u

python爬蟲（爬取蜂鳥網高畫素圖片）_空網頁,錯誤處理

__author__ = 'AllenMinD' import requests,urllib,os from bs4 import BeautifulSoup ans = 1 #counting

爬蟲之Scrapy遞迴爬取網頁資訊

# -*- coding: utf-8 -*- import re import scrapy from zhipin.items import ZhipinItem class BossZhipinSpider(scrapy.Spider):

python爬蟲由淺入深1-從網頁中爬取檔案並儲存至本地

學過python語法的基礎，由此將由淺入深地進行以此python爬蟲的相關知識點的梳理從網頁中爬取檔案並儲存至本地 import requests import os url = "http://image.nationalgeographic.com.cn/2017

爬蟲：輸入網頁之後爬取當前頁面的圖片和背景圖片,最後打包成exe

相關推薦