Python3.4網頁爬蟲，提取圖片

阿新 • • 發佈：2019-01-01

網頁圖片爬蟲：

第一個爬蟲抓去bing主頁圖片，24張

第二個抓取貼吧圖片

第三個抓去圖蟲圖片

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# -*- author:miko-*-
# python3抓取bing主頁所有背景圖片
import urllib.request
import urllib,re,sys,os
def get_bing_backphoto():
    
    if (os.path.exists('img')== False):
        os.mkdir('img')
    for i in range(0,24):
        url = 'http://cn.bing.com/HPImageArchive.aspx?format=js&idx='+str(i)+'&n=1&nc=1361089515117&FORM=HYLH1'
        html = urllib.request.urlopen(url).read()
        if html == 'null':
            print( 'open & read bing error!')
            sys.exit(-1)
        html = html.decode('utf-8')
        #print (html)
        reg = re.compile('"url":"(.*?)","urlbase"',re.S)
        text = re.findall(reg,html)
        #http://s.cn.bing.net/az/hprichbg/rb/LongJi_ZH-CN8658435963_1366x768.jpg
        for imgurl in text :
            right = imgurl.rindex('/')
            name = imgurl.replace(imgurl[:right+1],'')
            savepath = 'img/'+ name
            print (imgurl)
            urllib.request.urlretrieve(imgurl, savepath)
            #print (name + ' save success!')
get_bing_backphoto()

#coding=utf-8
import urllib.request
import re
import urllib,re,sys,os
def getHtml(url):

    html = urllib.request.urlopen(url).read()
    if html == 'null':
            print( 'open & read bing error!')
            sys.exit(-1)
    html=html.decode('utf-8')
    return html

def getImg(html):
    if (os.path.exists('baidu')== False):
        os.mkdir('baidu')
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)  
    imglist = imgre.findall(html)  
    x = 0  
    for imgurl in imglist:  
        urllib.request.urlretrieve(imgurl,'baidu/%s.jpg' % x)  
        x = x + 1
        print(imgurl)
        #http://imgsrc.baidu.com/forum/pic/item/16391f30e924b89915f86eb06f061d950b7bf677.jpg
html = getHtml("http://tieba.baidu.com/p/2460150866")
getImg(html)
#print (getImg(html))

#-*- encoding: utf-8 -*-
'''
Created on 2015-7-30
@author: Miko
'''

import urllib.request
import urllib,re,sys,os,time
import uuid
#獲取二級頁面url
def findUrl2(html):
    re1 = r'http://tuchong.com/\d+/\d+/|http://\w+(?<!photos).tuchong.com/\d+/'
    url2list = re.findall(re1,html)
    url2lstfltr = list(set(url2list))
    url2lstfltr.sort(key=url2list.index)
    #print url2lstfltr
    return url2lstfltr
#獲取html文字
def getHtml(url):
    html = urllib.request.urlopen(url).read().decode('utf-8')#解碼為utf-8
    return html
#下載圖片到本地
def download(html_page , pageNo):   
    #定義資料夾的名字
    x = time.localtime(time.time())
    foldername = str(x.__getattribute__("tm_year"))+"-"+str(x.__getattribute__("tm_mon"))+"-"+str(x.__getattribute__("tm_mday"))
    re2=r'http://photos.tuchong.com/.+/f/.+\.jpg'
    imglist=re.findall(re2,html_page)
    print (imglist)
    download_img=None
    for imgurl in imglist:
        picpath = 'D:\\TuChong\\%s\\%s'  % (foldername,str(pageNo))
        filename = str(uuid.uuid1())
        if not os.path.exists(picpath):
            os.makedirs(picpath)               
        target = picpath+"\\%s.jpg" % filename
        print ("The photos location is:"+target)
        download_img = urllib.request.urlretrieve(imgurl, target)#將圖片下載到指定路徑中
        time.sleep(1)
        print(imgurl)
    return download_img

# def callback(blocknum, blocksize, totalsize):
#     '''回撥函式
#     @blocknum: 已經下載的資料塊
#     @blocksize: 資料塊的大小
#     @totalsize: 遠端檔案的大小
#     '''
#     print str(blocknum),str(blocksize),str(totalsize)
#     if blocknum * blocksize >= totalsize:
#         print '下載完成'
def quitit():
    print ("Bye!")
    exit(0)
   
if __name__ == '__main__':
    print ('''            *****************************************
            **    Welcome to Spider for TUCHONG    **
            **      Created on 2015-7-30           **
            **      @author: miko                  **
            *****************************************''')
    pageNo ='10' # raw_input("Input the page number you want to scratch (1-100),please input 'quit' if you want to quit>")
    while not pageNo.isdigit() or int(pageNo) > 100 :
        if pageNo == 'quit':quitit()
        print ("Param is invalid , please try again.")
        pageNo = raw_input("Input the page number you want to scratch >")

    #針對圖蟲人像模組來爬取
    html = getHtml("http://tuchong.com/tags/%E4%BA%BA%E5%83%8F/?page="+str(pageNo))
  

    detllst = findUrl2(html)
    for detail in detllst:
        html2 = getHtml(detail)
        download(html2,pageNo)
    print ("Finished.")

Python3.4網頁爬蟲，提取圖片

網頁圖片爬蟲：第一個爬蟲抓去bing主頁圖片，24張第二個抓取貼吧圖片第三個抓去圖蟲圖片 #!/usr/bin/env python # -*- coding:utf-8 -*- # -*- author:miko-*- # python3抓取bing主頁所有背景圖

Python3.4---實戰專案-自動下載圖片驗證碼，並儲存到專門資料夾，使用圖片驗證碼庫識別，然後打印出來

Python3.4—實戰專案-自動下載圖片驗證碼，並儲存到專門資料夾，使用圖片驗證碼庫識別，然後打印出來 1、環境部署參考文章《使用Python識別圖片驗證碼》內容，製造好圖片驗證碼識別庫msweb1.dat 1.1、對圖片驗證碼隨時下載的URL地址

安卓的webView嵌入網頁後，傳送圖片至網頁，網頁請求檔案操作

public class WebViewDemo extends FragmentActivity { private static final int FILE_SELECT_CODE = 0; private WebView webView;

C# 圖片識別技術（支援21種語言，提取圖片中的文字）

C# 圖片識別技術（支援21種語言，提取圖片中的文字）圖片識別的技術到幾天已經很成熟了，只是相關的資料很少，為了方便在此彙總一下（C#實現），方便需要的朋友查閱，也給自己做個記號。圖片識別的用途：很多人用它去破解網站的驗證碼，用於達到自動刷票或者是批量註冊的目的，但我覺得它最吸引我的

用python3從網頁中爬取圖片下載到本地

前提：使用的python是python3版本，2和3還是有很大的區別的。 1、先找一個有圖片的網頁（這裡找到的是新浪：http://photo.sina.com.cn）。右鍵，選擇最後一個檢查，就可以看到網頁的原始碼。然後是圖片的都是在標籤（）中。 urllib

如何在python3中將網頁爬蟲資料儲存到mysql資料庫

前兩篇文章都在說在py中用BeautfulSoup爬取本地網頁的事情，本來準備去真實網頁試一下的，但是老林說不如把你之前學的mysql資料庫溫習一下，順道學著把你現在爬到的網頁存取到mysql資料庫之中~ 由此本文的主題就出現了: 如何在python3中將網頁爬蟲資料儲存到mysql資

jqprint的網頁列印，部分圖片無法載入處理

本文轉自：http://www.cnblogs.com/sanqianjin/archive/2015/09/24/4836643.html 自己負責的模組需要有個試卷列印的功能，需要將網頁特定範圍內的內容打印出來，所以選擇了jquery.jqprint指令碼用起來

python3爬蟲爬取圖片，爬取新聞網站文章並儲存到資料庫

2017年9月16日零基礎入門Python，第二天就給自己找了一個任務，做網站文章的爬蟲小專案，因為實戰是學程式碼的最快方式。所以從今天起開始寫Python實戰入門系列教程，也建議大家學Python時一定要多寫多練。目標 1，學習Python爬蟲 2

從視頻中提取圖片，對圖片做人臉檢測並截取人臉區域

rep pan details 一個 ons sprintf imread href multipl 環境配置：VS2013+opencv2.4.10+libface.lib 參考博客：http://blog.csdn.net/augusdi/article/details

Python3網絡爬蟲(一)：利用urllib進行簡單的網頁抓取

robot 資源 urlopen 解碼支付寶編碼方式只需要服務器 net 一、預備知識 1.Python3.x基礎知識學習：可以在通過如下方式進行學習： (1)廖雪峰Python3教程(文檔)： URL：http://www.liaoxue

微信公眾平臺開發，模板消息，網頁授權，微信JS-SDK，二維碼生成（4）

支持 post 網頁信息行業使用步驟獲取公眾符號微信公眾平臺開發，模板消息，什麽是模板消息，模板消息接口指的是向用戶發送重要的服務通知，只能用於符合場景的要求中去，如信用卡刷卡通知，購物成功通知等等。不支持廣告營銷，打擾用戶的消息，模板消息類有固定的模板，每個

用Node.js寫爬蟲，擼羞羞的圖片

獲取 header pro 步驟 data 以及主體數據描述　　說到爬蟲，很多人都認為是很高大上的東西。哇塞，是不是可以爬妹紙圖啊，是不是可以爬小片片啊。答案就是對的。爬蟲可以完成這些東西的操作。但是，作為一個正直的程序員，我們要在法律允許範圍內用爬蟲來為

python學習筆記——爬蟲中提取網頁中的信息

個數傳輸自由 tro 不一定很多 set 字符串 2.4 1 數據類型網頁中的數據類型可分為結構化數據、半結構化數據、非結構化數據三種 1.1 結構化數據常見的是MySQL，表現為二維形式的數據 1.2 半結構化數據是結構化數據的一種形式，並不符合關系型數據

Python3 視頻教程，全網最全的視頻教程，爬蟲，從入門到實戰

python3 python基礎入門到分享視頻 pst https size 分布式爬蟲需要聯系我：QQ：1844912514 最新Python基礎班+就業班視頻教程鏈接: python分布式爬蟲打造搜索引擎鏈接: https://pan.baidu.com/

騰訊系這4個功能，讓微信QQ免費存儲文件圖片，不用虧了

你們好的騰訊qq blog 開始 mage 不用 text 現在前幾年的雲盤接二連三的倒閉事件，畢生難忘，一些雲盤平臺看似有龐然大物般的背景，實則，是沒有一則公告倒閉不了的！實在是怕了怕了！不能一棍子打死全部，至少，某度盤依然堅挺！但是，今天要講的是，騰訊系相當於小

Python爬蟲之提取Bing搜索的背景圖片並設置為Windows的電腦桌面

頁面心悅 exe 自動停止 .com req utf 需要 exec ??鑒於現階段國內的搜索引擎還用不上Google, 筆者會尋求Bing搜索來代替。在使用Bing的過程中，筆者發現Bing的背景圖片真乃良心之作，十分賞心悅目，因此，筆者的腦海中萌生了一個念頭：能否自己

[Python3網絡爬蟲開發實戰] 1.2.4-GeckoDriver的安裝

直接 pre wid selenium 都沒有 arm The file 驅動上一節中，我們了解了ChromeDriver的配置方法，配置完成之後便可以用Selenium驅動Chrome瀏覽器來做相應網頁的抓取。那麽對於Firefox來說，也可以使用同樣的方式完成Sel

python3 urllib爬蟲，你只需要看這一篇就夠了

寫在最前面：以下資料均脫敏 from urllib import request import requests import urllib if __name__ == "__main__": # 介面的url session_requests = requests.se

所謂的網頁爬蟲用java程式碼來實現，此程式碼適合在maven專案中使用中使用，因為，程式碼中的類所對應的依賴可以讓maven下載。

//獲得httpClient物件 CloseableHttpClient httpClient = HttpClients.createDefault(); //url公司域名隨便 String url = "https://www.baidu.co

[Python3填坑之旅]1、urllib模組網頁爬蟲訪問中文網址出錯

正在學習網頁爬蟲，用的Python3+urllib模組，當遇到連結裡有中文字元的時候總是報錯。之前以為是Python編碼的問題，不斷去嘗試不同的編碼去encode與decode，可以問題總是解決不了，沒有辦法繼續查閱資料，最後發現其實解決方法特別簡單。問題描述當我訪問帶有中文

Python3.4網頁爬蟲，提取圖片

相關推薦