同步爬取天虹商城圖片連結

阿新 • • 發佈：2018-11-09

import requests
import time
from bs4 import BeautifulSoup
import re

#判斷連結開啟是否正常
def get_url(url):
    response=requests.get(url)
    if response.status_code==200:
        print('%s' % url)
        print('success')
    else:
        print('%s' % url)
        print('fail')

#獲取當前主頁的最大頁數
def get_page_max():
    rep=requests.get('http://www.tianhong.cn/list-5835.html')
    page_soup=BeautifulSoup(rep.text,'html.parser')
    page_max=page_soup.find('div',class_='thPages').find_all('a')[-3].text

    return page_max

#獲取當前主頁廣告、logo連結
def get_main_html_pageurl(url):
    rep_pictureurl=[]
    rep=requests.get(url)
    rep_page=BeautifulSoup(rep.text,'html.parser')
    rep_page_url=rep_page.find('div',class_='topbanner').find('img').get('src')
    rep_pictureurl.append(rep_page_url)

    rep_logo=rep_page.find('div',class_='logo').find('img').get('src')
    rep_pictureurl.append('http://www.tianhong.cn'+rep_logo)

    return rep_pictureurl

#獲取當前頁的商品圖片連結
def get_main_pictureurl(url):
    rep_pictureurl=[]
    rep=requests.get(url)
    rep_page=BeautifulSoup(rep.text,'html.parser')
    rep_page_url=rep_page.find('ul',class_='spList').find_all('img')
    for line in rep_page_url:
        line=re.findall(r'.*src="(.*)" .*',str(line))[0]
        rep_pictureurl.append(line)

    return rep_pictureurl

#獲取當前頁面商品連結
def get_commodity_url(url):
    rep_url=[]
    rep=requests.get(url)
    page_soup=BeautifulSoup(rep.text,'html.parser')
    page_url=page_soup.find('ul',class_='spList').find_all('a')
    for line in page_url:
        line=re.findall(r'.*a href="(.*)" tag=.*',str(line))
        rep_url.extend(line)

    return  rep_url

#獲取商品詳情頁的圖片連結
def get_Details_url(url):
    rep_url=[]
    rep=requests.get(url)
    page_soup=BeautifulSoup(rep.text,'html.parser')

    page_url=page_soup.find('div',class_='m1l').find_all('a')
    for line in page_url:
        line1=re.findall('"(http.*?)"',str(line))
        line2=re.findall(r'\'(http.*?)\'',str(line))
        rep_url.extend(line1)
        rep_url.extend(line2)

    details_url=page_soup.find('div',class_='box').find_all('img')
    for lines in details_url:
        rep_url.append(lines.get('src'))

    return rep_url

#判斷當前頁的所有圖片是否可以正常開啟
def run_main():
    start=time.time()
    for i in range(1,int(get_page_max())+1):
        url='http://www.tianhong.cn/catalog/product_list.html?categoryId=5835&districtCode=100005&orderType=1&justDisplayInventory=0&justDisplayBySelfSupport=0&minSalePrice=0&maxSalePrice=0&pager.pageNumber='+str(i)
        get_url(url)
        for line in(get_main_html_pageurl(url)+get_main_pictureurl(url)):#主頁面圖片連結
            get_url(line)

        for lines in(get_commodity_url(url)):#商品連結
            lines='http://www.tianhong.cn'+lines
            get_url(lines)
            for j in(get_Details_url(lines)):#商品詳情圖片連結
                get_url(j)

        print('完成第',i,'頁')

    end=time.time()
    print(end-start)

if __name__=='__main__':
    run_main()

同步爬取天虹商城圖片連結

import requests import time from bs4 import BeautifulSoup import re #判斷連結開啟是否正常 def get_url(url): response=requests.get(url) if response.stat

爬取好看的妹子圖片喲~ -《狗嗨默示錄》-

http urlopen decode urn com all pil soft ont #!/usr/bin/env python# -*- coding:utf-8 -*-import urllib.requestimport re#獲取源碼def gethtml()

用scrapy爬取搜狗Lofter圖片

request index import rap .so 圖片 file loader clas 用scrapy爬取搜狗Lofter圖片 # -*- coding: utf-8 -*- import json import scrapy from scrapy.http

python3爬取豆瓣圖書Top250圖片

本部落格只爬取豆瓣圖書Top250的圖片，各位愛書的小夥伴趕緊學起來，爬完的效果圖如下：我這段程式碼的目錄結構如下：程式碼在此： # -*- coding:utf-8 -*- import requests from lxml import etree def spid

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

轉： https://blog.csdn.net/qq_32166627/article/details/60882964 前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片

scrapy爬取校花網圖片

xiaohua.py # -*- coding: utf-8 -*- import scrapy from pyquery import PyQuery from scrapy.http import Request from ..items import XiaohuarItem class

scrapy 爬取天貓商品資訊

spider # -*- coding: utf-8 -*- from urllib.parse import urlencode import requests import scrapy import re import json from ..items import TmallItem co

利用Python批量爬取XKCD動漫圖片，並批量儲存

import requests, os, bs4 url = 'https://xkcd.com' os.makedirs('xkcd',exist_ok = True) while not url.endswith('#'): # download the page

利用C#爬取煎蛋網圖片

本程式還有待優化，我只爬取了每個頁面的第一張圖片，你們可以自己更新優化程式碼以實現全站爬取的功能。主要用到的名稱空間有： using System; using System.Collections.Generic; using System.ComponentModel; usi

爬取網頁瀑布流圖片

import requestsfrom urllib import requesturl = "https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&a

Fiddler之掌上英雄聯盟APP爬取(爬取全部英雄的圖片)

1.安裝好Fiddler 2.手機APP抓包設定 3.安全證書的設定第二，第三步參考連結：https://blog.csdn.net/c406495762/article/details/76850

爬蟲：輸入網頁之後爬取當前頁面的圖片和背景圖片,最後打包成exe

環境：py3.6 核心庫：selenium(考慮到通用性，js載入的網頁)、pyinstaller 顏色顯示：colors.py colors.py 用於在命令列輸出文字時，帶有顏色，可有可無。 # -*- coding:utf-8 -*-# # filename: prt_cmd_color.py

java程式爬取網頁上的圖片

最近需要在網上找一寫圖片，所以寫了一個爬取圖片的程式，新手有寫的不足之處還請各位大佬指點一二。原始碼如下 package com.sysh.ssm.service; import org.apache.commons.lang3.StringEscapeUtils; i

Python批量爬取堆糖網圖片

import urllib.parse import requests #第三方請求庫 import json import jsonpath #處理json檔案的的提取庫 from bs4 import BeautifulSoup import os im

python爬取字幕組的圖片

首先通過對字幕組網頁原始碼進行分析圖片<img src="http://tu.jstucdn.com/ftp/2018/1113/1e9afeab694d5fb5061fcb618c28b138.jpg"> src=“balabala.jpg”

將csdn的文章爬取，並將圖片儲存到本地

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/11/13 10:20 # @Author : jia.zhao # @Desc : # @File : csdn_demo.py

python爬取網站上的圖片並儲存到本地

　　1.匯入需要的模組requests，BeautifulSoup，os（用於檔案讀寫）。　　2.建立一個類，並初始化。 class BeautifulPicture: def __init__(self): # 類的初始化操作 self.headers = {

python 爬取網頁中的圖片到本地

最近在學習python,順便寫一個爬取網頁中圖片的程式練練手。主要分為兩個過程：第一，從給定域名的網頁中爬取圖片的連結第二，讀取連結對應的圖片，儲存到本地第一個過程需要匯入utllib包，在

利用協程asyncio爬取搜狗美女圖片（二）——實戰

上節我們詳細的介紹了asyncio庫的應用（連結https://blog.csdn.net/MG1723054/article/details/81778460），本節我們將其應用到實戰之中。主要還是以分析ajax爬取搜狗美女圖片（連結https://blog.csdn.net/MG172305

同步爬取天虹商城圖片連結

相關推薦