python爬蟲--利用xpath爬取圖片（虛擬機器ubuntu16.04）

阿新 • • 發佈：2019-02-04

此篇爬蟲的背景是：虛擬機器剛裝好的ubuntu 16.04，系統環境還需配置，爬蟲的程式是之前幾個月前在windows上寫的，今天放到虛擬機器上跑一跑！（安裝了VMware Tools就可以把宿主機上的檔案拉進虛擬機器中！）

xpath爬取用到了urllib2與lxml庫，ubuntu16.04自帶python2.7.11，包含了urllib2庫，但lxml還需安裝！

上程式：

# -*- coding:utf-8 -*-
import urllib2
from lxml import etree

def loadPage(url):
    headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:54.0) Gecko/20100101 Firefox/54.0","Referer":"http://www.mmonly.cc/mmtp/xgmn/175265_4.html"}
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request)
    html = response.read()
    #print html

    content = etree.HTML(html)
    link_list = content.xpath('//div[@class="thumb"]/img/@src')
    for link in link_list:
        writeImage(link)

def writeImage(link):
    request = urllib2.Request(link)
    image = urllib2.urlopen(request).read()
    filename = link[-10:]
    with open(filename,'wb') as f:
        f.write(image)
    print "download successful" + filename


if __name__ == "__main__":
    url = "http://www.xiaoliaobaike.cn/qutu"
    p = input("please input a tegert: ")
    fullurl = url + "?p=" + str(p)
    loadPage(fullurl)
~

執行結果為：

檢視檔案：

開啟對應的資料夾即可檢視圖片

python爬蟲--利用xpath爬取圖片（虛擬機器ubuntu16.04）

此篇爬蟲的背景是：虛擬機器剛裝好的ubuntu 16.04，系統環境還需配置，爬蟲的程式是之前幾個月前在windows上寫的，今天放到虛擬機器上跑一跑！（安裝了VMware Tools就可以把宿主機上的檔案拉進虛擬機器中！） xpath爬取用到了urllib2與lxml庫，

[Python/爬蟲]利用xpath爬取豆瓣電影top250

今天學習了一下xpath 感覺功能非常的強大，但是如果不太懂前端的小夥伴們可能比較吃力，建議看一下html的一些語法結構，程式碼如下： #!/usr/bin/env python import r

爬蟲]利用xpath爬取豆瓣電影top250（轉）

今天學習了一下xpath 感覺功能非常的強大，但是如果不太懂前端的小夥伴們可能比較吃力，建議看一下html的一些語法結構，程式碼如下： #!/usr/bin/env python import re import requests import lxml.html url

python爬蟲: 指定關鍵字爬取圖片

Introduction 設定關鍵字，從百度圖片上爬取海量圖片。 Code # coding:utf-8 import os import re import urllib import shutil import requests import i

利用python爬蟲技術動態爬取地理空間資料雲中的元資料（selenium）

python爬取地理空間資料雲selenium動態點選爬取的網址秀一下：爬取的資訊是什麼呢？這個資訊的爬取涉及到右邊按鈕的點選，這屬於動態爬取的範疇，需要用到selenium 好了，那麼開始寫程式碼吧首先匯入selenium from seleni

資料視覺化三步走（一）：資料採集與儲存，利用python爬蟲框架scrapy爬取網路資料並存儲

前言最近在研究python爬蟲，突然想寫部落格了，那就寫點東西吧。給自己定個小目標，做一個完整的簡單的資料視覺化的小專案，把整個相關技術鏈串聯起來，目的就是為了能夠對這塊有個系統的認識，具體設計思路如下： 1. 利用python爬蟲框架scr

python爬蟲--re結合xpath爬取圖片

背景：虛擬機器ubuntu16.04利用xpath與爬取www.uumnt.cc/圖片當然，我們要爬取的是動物板塊！程式分析，將動物板塊一頁一頁分析拿取出來，然後拿去各種動物頁面的連結，然後對連結分析拿取圖片（每個連結拿取4張圖）效果為：原始碼如下： 1 # -*- cod

python爬蟲小試例項--爬取網頁圖片並下載

一、python安裝在python的官網下載python版本，需要下載對應版本（在計算機-屬性中檢視自己是32位作業系統還是64位作業系統），我是64位的，就下載64位對應的安裝包了（如下圖：Windows x86-64 executable installer）。官網下載地

python 爬蟲實戰專案--爬取京東商品資訊（價格、優惠、排名、好評率等）

利用splash爬取京東商品資訊一、環境window7python3.5pycharmscrapyscrapy-splashMySQL二、簡介為了體驗scrapy-spla

[python爬蟲] Selenium定向爬取海量精美圖片及搜尋引擎雜談

我自認為這是自己寫過部落格中一篇比較優秀的文章，同時也是在深夜凌晨2點滿懷著激情和愉悅之心完成的。首先通過這篇文章，你能學到以下幾點： 1.可以瞭解Python簡單爬取圖片的一些思路和方法 2.學習Selenium自動、測試分析

python爬蟲系列之爬取百度文庫（一）

一、什麼是selenium 在爬取百度文庫的過程中，我們需要使用到一個工具selenium（瀏覽器自動測試框架），selenium是一個用於web應用程式測試的工具，它可以測試直接執行在瀏覽器中，就像我們平時用瀏覽器上網一樣，支援IE(7，8，9，10，11),firefo

[原創]python爬蟲之BeautifulSoup,爬取網頁上所有圖片標題並存儲到本地文件

%20 分享圖片本地 col cbc quest 執行 python div from bs4 import BeautifulSoup import requests import re import os r = requests.get("https:/

python 爬蟲之requests爬取頁面圖片的url，並將圖片下載到本地

大家好我叫hardy 需求：爬取某個頁面，並把該頁面的圖片下載到本地思考：　　img標籤一個有多少種類型的src值？三種：1、以http開頭的網路連結。2、以“/”開頭絕對路徑。3、以“./”開頭相對路徑。當然還有其他型

xpath爬蟲例項，爬取圖片網站百度盤地址和提取碼

某套圖網站，套圖以封面形式展現在頁面，需要依次點選套圖，點選廣告盤連結，最後到達百度網盤展示頁面。這一過程通過爬蟲來實現，收集百度網盤地址和提取碼，採用xpath爬蟲技術 1、首先分析圖片列表頁，該頁按照更新先後順序暫時套圖封面，檢視HTML結構。每一組“li”對應一組套圖。屬

python 爬蟲實戰4 爬取淘寶MM照片

寫真換行符 rip 多行 get sts tool -o true 本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片把每一個MM的寫真圖片按照文件夾保存到本地熟悉文件保存的過程 1.URL的格式在這裏我們用到的URL是 http:/

python爬蟲--打開爬取頁面

PE brush OS htm tab quest replace %s class def requests_view(response): import webbrowser requests_url = response.url base_u

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書信息

Python 編程語言 Python爬蟲先來看看頁面長啥樣的:https://book.douban.com/top250 我們將要爬取哪些信息：書名、鏈接、評分、一句話評價……1. 爬取單個信息我們先來嘗試爬取書名，利用之前的套路，還是先復制書名的xpath：得到第一本書《追風箏的人》的書名xpath如下：

教你分分鐘學會用python爬蟲框架Scrapy爬取你想要的內容

python 爬蟲 Scrapy python爬蟲教你分分鐘學會用python爬蟲框架Scrapy爬取心目中的女神 python爬蟲學習課程，下載地址：https://pan.baidu.com/s/1v6ik6YKhmqrqTCICmuceug 課程代碼原件：課程視頻：教你分分鐘學會用py

python3爬蟲-快速入門-爬取圖片和標題

瀏覽器 ebr tle path requests itl edi 大致應用直接上代碼，先來個爬取豆瓣圖片的，大致思路就是發送請求-得到響應數據-儲存數據，原理的話可以先看看這個 https://www.cnblogs.com/sss4/p/7809821.html

python 爬蟲 requests+BeautifulSoup 爬取巨潮資訊公司概況代碼實例

pan 字符 selenium 5.0 target 自我 color list tails 第一次寫一個算是比較完整的爬蟲，自我感覺極差啊，代碼low，效率差，也沒有保存到本地文件或者數據庫，強行使用了一波多線程導致數據順序發生了變化。。。貼在這裏，引以為戒吧。 #

python爬蟲--利用xpath爬取圖片（虛擬機器ubuntu16.04）

相關推薦