python爬蟲beautifulsoup4系列3

阿新 • • 發佈：2018-05-12

AS 覆蓋打開 ima itl 電腦 etc write pen

前言

本篇手把手教大家如何爬取網站上的圖片，並保存到本地電腦

一、目標網站

1.隨便打開一個風景圖的網站：http://699pic.com/sousuo-218808-13-1.html

2.用firebug定位，打開firepath裏css定位目標圖片

3.從下圖可以看出，所有的圖片都是img標簽，class屬性都是lazy

技術分享圖片

二、用find_all找出所有的標簽

1.find_all(class_="lazy")獲取所有的圖片對象標簽

2.從標簽裏面提出jpg的url地址和title

 1 # coding:utf-8
 2 from bs4 import BeautifulSoup
 3 import requests
 4 import os
 5 r = requests.get("http://699pic.com/sousuo-218808-13-1.html")
 6 fengjing = r.content
 7 soup = BeautifulSoup(fengjing, "html.parser")
 8 # 找出所有的標簽
 9 images = soup.find_all(class_="lazy")
10 # print images # 返回list對象
11 
12 for i in images:
13     jpg_rl = i["data-original"]  # 獲取url地址
14     title = i["title"]           # 返回title名稱
15     print title
16     print jpg_rl
17     print ""

三、保存圖片

1.在當前腳本文件夾下創建一個jpg的子文件夾

2.導入os模塊，os.getcwd()這個方法可以獲取當前腳本的路徑

3.用open打開寫入本地電腦的文件路徑，命名為：os.getcwd()+"\\jpg\\"+title+‘.jpg‘（命名重復的話，會被覆蓋掉）

4.requests裏get打開圖片的url地址，content方法返回的是二進制流文件，可以直接寫到本地

技術分享圖片

四、參考代碼

 1 # coding:utf-8
 2 from bs4 import BeautifulSoup
 3 import requests
 4 import os
 5 r = requests.get("http://699pic.com/sousuo-218808-13-1.html")
 6 fengjing = r.content
 7 soup = BeautifulSoup(fengjing, "html.parser")
 8 # 找出所有的標簽
 9 images = soup.find_all(class_="lazy")
10 # print images # 返回list對象
11 
12 for i in images:
13     jpg_rl = i["data-original"]
14     title = i["title"]
15     print title
16     print jpg_rl
17     print ""
18     with open(os.getcwd()+"\\jpg\\"+title+‘.jpg‘, "wb") as f:
19         f.write(requests.get(jpg_rl).content)

python爬蟲beautifulsoup4系列3

python爬蟲beautifulsoup4系列3【轉載】

div 分享 () soup bs4 url地址並保存把手 tag 本篇轉自博客：上海-悠悠原文地址：http://www.cnblogs.com/yoyoketang/tag/beautifulsoup4/ 前言本篇手把手教大家如何爬取網站上的圖片，並保存到本地電

python爬蟲beautifulsoup4系列3

AS 覆蓋打開 ima itl 電腦 etc write pen 前言本篇手把手教大家如何爬取網站上的圖片，並保存到本地電腦一、目標網站 1.隨便打開一個風景圖的網站：http://699pic.com/sousuo-218808-13-1.html 2.用fir

Python爬蟲學習（3）

collect nbsp pri div time urlparse links ews 是否在慕課網學習並創建了一個簡單的爬蟲包，爬取百度百科相關詞條信息程序中會用到第三方解析包（BeautifulSoup4），Windows環境下安裝命令：pip install B

Python爬蟲開發系列之一》開發IDE安裝

開發 size 環境配置技術 keyword -s www 版本是不是中國有句古話說：工欲善其事，必先利其器！在我最開始學 Python 的時候，因為沒有去探索好用的工具，吃了很多苦頭。磕磕絆絆走過來之後才知道，好的工具給效率帶來的提升不是從 1 到 1.1 倍速

Python爬蟲-速度（3）

Python爬蟲-速度（3）文章目錄 Python爬蟲-速度（3）前言普通爬蟲多程序提速多執行緒提速非同步協程提速最後 018.11.11 Python爬蟲-速度（1

Python爬蟲--BeautifulSoup4教程、練習

練習1 #coding=utf-8 from bs4 import BeautifulSoup html=""" <html><head><title>The Dormouse's story</title&g

python爬蟲學習系列

Python爬蟲(1):基本原理 Python爬蟲(2):Requests的基本用法 Python爬蟲(3):Requests的高階用法 Python爬蟲(4):Beautiful Soup的常用方法 Python爬蟲(5):豆瓣讀書練手爬蟲 Py

Python爬蟲入門教程 3-100 美空網資料爬取

簡介從今天開始，我們嘗試用2篇部落格的內容量，搞定一個網站叫做“美空網”網址為：http://www.moko.cc/，這個網站我分析了一下，我們要爬取的圖片在下面這個網址 http://www.moko.cc/post/1302075.html 然後在去分析一下，我需要找到一個圖片列表

Python爬蟲入門教程 3-100 美空網數據爬取

個數 exception 意思消費時間模塊 intel insert -o switch 簡介從今天開始，我們嘗試用2篇博客的內容量，搞定一個網站叫做“美空網”網址為：http://www.moko.cc/，這個網站我分析了一下，我們要爬取的圖片在下面這個網址

Python爬蟲學習系列教程-----------爬蟲系列你值的收藏

靜覓 » Python爬蟲學習系列教程：http://cuiqingcai.com/1052.html 大家好哈，我呢最近在學習Python爬蟲，感覺非常有意思，真的讓生活可以方便很多。學習過程中我把一些學習的筆記總結下來，還記錄了一些自己實際寫的一些小爬蟲，在這裡跟大

Python爬蟲專案實戰3 | 圖片文字識別（以驗證碼識別為例）

1.專案背景我在實習過程中，當我抓取環保平臺相關資料時，常常發現有圖片的情況，比如以下這種圖片，所以抓取這種圖片中的資訊是我進行圖片文字識別的動力： 2.專案思路因為在某一網站中有大量這種想要抓取的圖片，所以我的思路是， 1.先抓取這些圖片的名稱和URL； 2.然後再根

Python 爬蟲學習系列教程----目錄

http://cuiqingcai.com/1052.html 大家好哈，我呢最近在學習Python爬蟲，感覺非常有意思，真的讓生活可以方便很多。學習過程中我把一些學習的筆記總結下來，還記錄了一些自己實際寫的一些小爬蟲，在這裡跟大家一同分享，希望對Python爬蟲感興趣的童鞋有幫助，如果有機會期待與大家的交

《Python爬蟲學習系列教程》學習筆記

python爬蟲學習筆記3：bs4及BeautifulSoup庫學習

Beuatiful Soup bs類對應一個HTML/xml文件的全部內容 from bs4 import BeautifulSoup import bs4 soup=BeautifulSoup('<p>data</p>','ht

Python爬蟲教程第3節-正則表示式

正則表示式（Regular Expression)對於正則表示式，我們要搞懂公式怎麼寫、寫出來表示什麼。即弄懂它怎麼產生、又怎麼去用。what:正則表示式是操作字串的一種邏輯公式，是一種邏輯表示式，是對一類有規律字串的抽象。where:正則表示式主要用於字串匹配，即將與正則表

Python爬蟲系統化學習(3)

一般來說當我們爬取網頁的整個原始碼後,是需要對網頁進行解析的。正常的解析方法有三種 ①:正則匹配解析 ②：BeatuifulSoup解析 ③:lxml解析正則匹配解析：在之前的學習中,我們學習過爬蟲的基本用法，比如/s,/d,/w,*,+,?等用法，但是在對爬取到的網頁進行解析的時候，僅僅會這些基礎的

python爬蟲系列(3.4-使用xpath和lxml爬取伯樂線上)

一、爬取的程式碼 1、網站地址 2、具體實現程式碼 import requests from lxml import etree class JobBole(object): def __init__(self): &

python爬蟲系列(3.2-lxml庫的使用)

一、基本介紹 1、lxml 是一個HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 資料。 2、lxml和正則一樣，也是用 C 實現的，是一款高效能的 Python HTML/XML 解析器，我們可

python爬蟲系列(3.1-xpath語法的介紹)

一、關於xpath的認識 xpath（XML Path Language）是一門在XML和HTML文件中查詢資訊的語言，可用來在XML和HTML文件中對元素和屬性進行遍歷。二、xpath的基本語法 1、選擇節點 2、謂語謂語是用來找出某個特定的

python爬蟲系列(2.3-requests庫模擬使用者登入)

一、模擬登入拉鉤網 import re import requests class LoginLaGou(object): """ 模擬登入拉鉤網 """

python爬蟲beautifulsoup4系列3

相關推薦