python(2)-根據關鍵字進行圖片爬蟲

阿新 • • 發佈：2019-02-11

上一篇爬蟲的實現，是通過輸入網頁url爬取該網頁上的所有圖片，這一篇部落格，是根據輸入關鍵字進行圖片的爬蟲，可以自己設定下載的頁數和每頁的圖片數。

參考自：

好吧，我找不到原部落格了，抱歉。

先直接貼原始碼，然後比較關鍵的地方我寫在註釋裡了：

import requests
import os

#得到的結果根據urls返回
def getManyPages(keyword,pages):
    params=[]
    for i in range(30,30*pages+30,30):
        params.append({
                      'tn' 
: 'resultjson_com',
                      'ipn': 'rj',
                      'ct': 201326592,
                      'is': '',
                      'fp': 'result',
                      'queryWord': keyword,
                      'cl': 2,
                      'lm': -1,
                      'ie': 'utf-8' 
,
                      'oe': 'utf-8',
                      'adpicid': '',
                      'st': -1,
                      'z': '',
                      'ic': 0,
                      'word': keyword,
                      's': '',
                      'se': '',
                      'tab': '' 
,
                      'width': '',
                      'height': '',
                      'face': 0,
                      'istype': 2,
                      'qc': '',
                      'nc': 1,
                      'fr': '',
                      'pn': i,
                      'rn': 30,
                      'gsm': '1e',
                      '1488942260214': ''
                  })
     #所有圖片來源於下面的url，當然你也可以自己設定
    url = 'https://image.baidu.com/search/acjson'
    urls = []
    for i in params:
        urls.append(requests.get(url,params=i).json().get('data'))
    return urls


def getImg(dataList, localPath):

    if not os.path.exists(localPath):  # 新建資料夾
        os.mkdir(localPath)

    x = 0
    for list in dataList:
        for i in list:
            if i.get('thumbURL') != None:
                print('正在下載：%s' % i.get('thumbURL'))
                ir = requests.get(i.get('thumbURL'))
                open(localPath + '%d.jpg' % x, 'wb').write(ir.content)
                x += 1
            else:
                print('圖片連結不存在')


#程式入口
if __name__ == '__main__':
    #關鍵字陣列，根據數組裡的關鍵字爬圖片
    keyWord = ['C羅', 'messi', '桑切斯', '周杰倫','布達拉宮','西藏','長城','布拉格','重慶大學']
    for i in range(0,len(keyWord)):
        dataList = getManyPages(keyWord[i], 1)# 引數1:關鍵字，引數2:要下載的頁數
        #本地的儲存路徑
        localPath = '/Users/cheng/PycharmProjects/testPhotos/' + keyWord[i] + '/'
        #下載圖片並存儲在本地
        getImg(dataList, localPath)

python(2)-根據關鍵字進行圖片爬蟲

上一篇爬蟲的實現，是通過輸入網頁url爬取該網頁上的所有圖片，這一篇部落格，是根據輸入關鍵字進行圖片的爬蟲，可以自己設定下載的頁數和每頁的圖片數。參考自：好吧，我找不到原部落格了，抱歉。先直接貼原始碼，然後比較關鍵的地方我寫在註釋裡了： imp

python-實現一個貼吧圖片爬蟲

fix request arm agent x64 pan http python2 png 今天沒事回家寫了個貼吧圖片下載程序，工具用的是PyCharm，這個工具很實用，開始用的Eclipse，但是再使用類庫或者其它方便並不實用，所以最後下了個專業開發python程序的工

機器學習筆記（二）矩陣和線性代數例：用Python實現SVD分解進行圖片壓縮

線性代數基本只要是理工科，都是必修的一門課。當時學習的時候總是有一個疑惑，這個東西到底是幹嘛用的？為什麼數學家發明出這麼一套方法呢，感覺除了解方程沒發現有什麼大用啊！但隨著學習的深入，慢慢發現矩陣的應

python 2.7 用chardet解決爬蟲獲取網頁編碼的識別判斷和轉換問題

python3以前版本的最頭痛問題就是編碼的轉換，在爬取不同網頁的時候發現編碼有N多種，目前已爬取到的網頁編碼如下： gbk utf-8 UTF-8-SIG SHIFT_JIS GB2312 Big5 EUC-JP ascii CP932 EUC-KR

Python學習筆記- 廖雪峰教程【python 2】//為繼續學習爬蟲準備-02 [待完善]

裝飾器的作用： 1 簡化程式碼，避免每個函式編寫重複性程式碼：列印日誌@log，檢測效能 @performance，資料庫事務 @transaction，URL路由@post('/register') import time def performance(f):

一種根據關鍵字進行分類的文字分類演算法

這樣我們可以得出這個演算法的重點： 1.提取關鍵字如何自動提取關鍵字呢？我們知道IDF值在一定程度上可以表達一個詞的重要程度，像“我的”，“你的”這樣的關鍵字肯定無法判斷出文章的類別，他們的IDF值也是較低的。而“AK47”，“火箭炮”這樣的關鍵字可以

python中用Pillow庫進行圖片處理

span col int style 分享 import 彩色 17. 灰度 PIL：PIL.Image.open PIL即Python Imaging Library，也即為我們所稱的Pillow，是一個很流行的圖像庫，它比opencv更為輕巧，正因如此，它深受大

[python爬蟲小實戰2]根據使用者輸入關鍵詞爬取今日頭條圖集，並批量下載圖片

這算是比較貼近於實際生活的爬蟲了，根據使用者輸入的關鍵字批量下載今日頭條相關圖集圖片，，核心用到了urllib.request.urlretrieve()這個方法，然後百度了一下進度條怎麼玩，直接把程式碼加上去了，沒毛病，感覺程式碼有些複雜，其實理論上一層網頁可

python 2.7 圖片下載爬蟲

寫圖片爬蟲的一些心得 1.先到所要下載圖片的網址看看，頁面請求的網址是哪個(我用的是goolge瀏覽器) 2.點選所要下載的圖片，檢視其具體位置，（方便查詢img連結） 3.找好之後就可以寫程式碼了 4.主要難度是找到img=“”的具體位置,需要正則表達搜尋一下不會正則的或是beauti

python爬蟲學習--pixiv爬蟲(2)--國際排行榜的圖片爬取

之前用面向過程的形式寫了一下pixiv爬蟲的登入... 覺得還是面向物件好一些... 那就先把登入過程重寫一下... class Pixiv_Spider: def __init__(self): self.p_id = '' s

python批量下載色影無忌和蜂鳥的圖片爬蟲小應用

exce pen 應用 content 沒有 str1 .com pat tar 有些冗余信息。由於之前測試正則表達式。所以沒有把它們給移走。只是不影響使用。# -*- coding:utf-8 -*- import re,urllib,sys,os,time de

python實現簡單圖片爬蟲並保存

.com 貪婪模式 web頁面 logs urn 並不是 python 保存 light 先po代碼 #coding=utf-8 import urllib.request #3之前的版本直接用urllib即可，下同 #該模塊提供了web頁面讀取數據的接口，使得我們可以

利用python爬取點小圖片，滿足私欲(爬蟲)

.text write ret append jpg use download div pat import requestsimport reimport os,syslinks=[]titles=[] headers = { "User-Agent": "Mozi

接口自動化測試Python(2)_使用python對excel進行操作

pip安裝 print eight tps cell .com family logs 運行如何使用Python對excel進行簡單的操作一. 通過pip安裝xlwt， xlrd這兩個模塊 *pip install xlwt *pip insta

python學習--根據字典中的值的大小，對字典的項進行排序。

比較 value 函數返回值 randint for python common spa pri 首先生成一個隨機字典： from random import randintd={x:randint(60,99) for x in "abcdefg"} # {‘a‘:

利用Python進行圖片發送與接收的兩種方法---包含客戶端和服務器端代碼

list() tmp span 客戶端 time() failed pri ucc out 第一種方法 opencv、requests、flask 此方法比較耗費時間 600毫秒左右客戶端代碼 #coding:utf-8 import cv2 import json i

python 鬥圖圖片爬蟲

創建文件夾下載 exceptio 文件 div 內容 urn all pad 搗鼓了三小時，有一些小Bug，望大佬指導廢話不說，直接上代碼： #!/usr/bin/python3 # -*- coding:UTF-8 -*- import os,re,request

python關於字典巢狀字典，列表巢狀字典根據值進行排序

python 對於字典巢狀字典，列表巢狀字典排序例：列表巢狀自字典：d = [{"name": '張三', 's': 68}, {'name': '李四', 's': 97}] 對於列表巢狀字典可以使用python的sorted()方法，也可以使用list的sort()方法： sorted方法可接受

Python的學習筆記DAY7---關於爬蟲（2）之Scrapy初探

首先是安裝，python3+windows10 64位。安裝Scrapy，安裝，直接pip install Scrapy.....下載了半天報錯。。好像是沒有lxml這

初探：Python中使用request和BeautifulSoup庫進行網路爬蟲

說起網路爬蟲，Python中最底層的應該是urllib，但是語法結構有些繁瑣，需要使用正則。而使用request和BeautifulSoup庫進行網路爬蟲，發現這真的是web開發人員的福音。凡是懂一些前端知識的人來說，使用request和BeautifulSoup庫進行爬蟲，真的有一種開心而愉快

python(2)-根據關鍵字進行圖片爬蟲

相關推薦