python尤果網圖片爬蟲(簡單)__selenium+phantomJS+urllib2

阿新 • • 發佈：2018-12-13

1.首先給python安裝selenium庫,然後下載phantomJS並配置環境變數(網上搜索一堆)

2.直接放python程式碼: youguo_image_spider.py

#!/usr/bin/env python
#_*_coding:utf-8_*_

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from lxml import etree
import urllib2

class youguoSpider():
    def __init__(self):
        self.url = "https://www.ugirls.com/"
        self.driver = webdriver.PhantomJS()

    def start(self):
        self.login_getIndexPage()

    def login_getIndexPage(self):
        #開啟尤果網首頁
        self.driver.get(self.url)
        #截圖檢視是否成功
        # driver.save_screenshot("index.png")

        #模擬點選"登入"按鈕,跳出登入彈窗
        self.driver.find_element_by_id("btnshowlogin").click()
        # driver.save_screenshot("butLogin.png")

        #在登入彈窗填充賬戶密碼
        self.driver.find_element_by_id("txtAccount").send_keys(u"XXXXXXXXXX")#賬號
        self.driver.find_element_by_id("txtPass").send_keys(u"XXXXXXXX")#密碼
        # driver.save_screenshot("account.png")
        #點選登入按鈕
        self.driver.find_element_by_id("btnLogin").click()
        print "登入成功"
        # driver.save_screenshot("login.png")
        # print driver.page_source
        self.driver.find_element_by_id("1").click()
        html = self.driver.page_source
        print html
        self.get_personUrlList(html)

    def get_personUrlList(self,html):
        ehtml = etree.HTML(html)
        urllist =  ehtml.xpath('//div[@class="magazine_list_wrap"]/div/a/img[@class="magazine_img"]/@src')
        self.download(urllist)
        print urllist

    def download(self,urllist):
        print "開始下載圖片:"
        flg = 1
        for personurl in urllist:
            print personurl
            response = urllib2.urlopen(personurl)
            with open(str(flg)+"_"+personurl[-48:-16]+".jpg","wb") as f:
                f.write(response.read())
            flg = int(flg) + 1
        print "下載結束!"

def main():
    ygs = youguoSpider()
    ygs.start()

if __name__ == "__main__":
    main()

3.有問題下方留言討論

python尤果網圖片爬蟲(簡單)__selenium+phantomJS+urllib2

1.首先給python安裝selenium庫,然後下載phantomJS並配置環境變數(網上搜索一堆) 2.直接放python程式碼: youguo_image_spider.py #!/usr/bin/env python #_*_coding:utf-8_*_ fr

網絡爬蟲簡單介紹（python）

我們大型搜索 () 介紹面積截取困難狀況一、簡介爬蟲就是利用代碼大量的將網頁前端代碼下載下來使用的一種程序，一般來說常見的目的為下： 1、商業分析使用：很多大數據公司都會從利用爬蟲來進行數據分析與處理，比如說要了解廣州當地二手房的均價走勢就可以到房屋中介的網

零基礎自學Python 3開發網絡爬蟲(二): 用到的數據結構簡介以及爬蟲Ver1.0 alpha

ket org doc link rtu 出隊網站 pytho 支持上一回, 我學會了用偽代碼寫出爬蟲的主要框架; 用Python的urllib.request庫抓取指定url的頁面; 用Python的urllib.parse庫對普通字符串轉符合url的字符串.

大數據實戰課程第一季Python基礎和網絡爬蟲數據分析

網頁爬蟲大數據實戰課程第一季Python基礎和網絡爬蟲數據分析網盤地址：https://pan.baidu.com/s/1qYdWERU 密碼: yegz課程共10章，66小節本課程面向從未接觸過Python的學員，從最基礎的語法開始講起，逐步進入到目前各種流行的應用。整個課程分為基礎和實戰兩個單元。基礎部分

Python基礎和網絡爬蟲數據分析

Python Python基礎和網絡爬蟲數據分析分享下載地址——https://pan.baidu.com/s/1c17R2NY密碼: mgbd 內容簡介本課程面向從未接觸過Python的學員，從最基礎的語法開始講起，逐步進入到目前各種流行的應用。整個課程分為基礎和實戰兩

python多執行緒圖片爬蟲

學習python後寫的第一個程式：抓妹子圖。。。環境：linux python2.7 預設放在/home/fantasy/pics/ 目錄下思路： 1.進入http://girl-atlas.com/後（咳咳，看一下快回來）發現頁面右側每個妹子都有一個標籤，就從這裡下

python實現簡單圖片爬蟲並保存

.com 貪婪模式 web頁面 logs urn 並不是 python 保存 light 先po代碼 #coding=utf-8 import urllib.request #3之前的版本直接用urllib即可，下同 #該模塊提供了web頁面讀取數據的接口，使得我們可以

5行python代碼實現簡單的網絡爬蟲

結果 auto itl max nbsp gitbook 代碼實現 roc 分享圖片 1、python代碼如下圖，我們從http://gitbook.cn/這網站中爬取數據。2、運行上圖代碼之前要下載安裝好chardet和requests安裝包，可以在我的博客裏免費下載這兩

最簡單的網絡圖片的爬取 --Pyhon網絡爬蟲與信息獲取

文件 spa lose man spl roo () pen image 1、本次要爬取的圖片url http://www.nxl123.cn/static/imgs/php.jpg 2、代碼部分 import requestsimport osurl = "ht

python爬蟲-簡單使用xpath下載圖片

首先 1.為方便以下進行谷歌瀏覽器裡要安裝xpath指令碼 2.下載一個lmxl 命令：pip install lxml 3. 以下三張圖是一個，當時爬的《糗事百科》裡的圖片　　值的注意

Python爬蟲入門教程 6-100 蜂鳥網圖片爬取之一

enter 第一步 {} status .... 一個網站分析 except rep 1. 簡介國慶假日結束了，新的工作又開始了，今天我們繼續爬取一個網站，這個網站為 http://image.fengniao.com/ ，蜂鳥一個攝影大牛聚集的地方，本教程請用來學習，

Python爬蟲入門教程 8-100 蜂鳥網圖片爬取之三

asyncio esp 分享圖片 0.10 結果 .text win int lang 啰嗦兩句前幾天的教程內容量都比較大，今天寫一個相對簡單的，爬取的還是蜂鳥，依舊采用aiohttp 希望你喜歡爬取頁面https://tu.fengniao.com/15/ 本篇教程還

Python簡單圖片爬蟲

# -*- coding=utf-8 -*- import requests as req from bs4 import BeautifulSoup from PIL import Image from io import BytesIO import

python爬蟲簡單的抓頁面圖片並儲存到本地

1、首先注意編碼，設定為utf-8 #coding=utf-8 或者 #-*-conding:UTF-8 -*- 先抓取頁面資訊 #coding=utf-8 import urll

Python資料爬蟲學習筆記（11）爬取千圖網圖片資料

需求：在千圖網http://www.58pic.com中的某一板塊中，將一定頁數的高清圖片素材爬取到一個指定的資料夾中。分析：以數碼電器板塊為例 1.檢視該板塊的每一頁的URL：注意到第一頁是“0-1.html”，第二頁是“0-2.html”，由

python爬蟲之反爬蟲情況下的煎蛋網圖片爬取初步探索

本次爬蟲網址：http://jandan.net/ooxx 前言：前段時間一直在折騰基於qqbot的QQ機器人，昨天用itchat在微信上也寫了一個機器人，相比webqq，微信的web端功能比較豐富，圖片、檔案等都可以傳輸。今天閒來無事準備給寫個爬蟲豐富微信機器

Python網絡爬蟲之圖片懶加載技術、selenium和PhantomJS

min input 函數實現 odin 形式 nsh 分享圖片 nts www. 本文概要: 圖片懶加載 selenium phantomJs 谷歌無頭瀏覽器一、圖片懶加載什麽是圖片懶加載？案例分析：抓取站長素材http://sc.china

Python爬蟲入門【8】：蜂鳥網圖片爬取之三

蜂鳥網圖片--囉嗦兩句前面的教程內容量都比較大，今天寫一個相對簡單的，爬取的還是蜂鳥，依舊採用aiohttp 希望你喜歡爬取頁

Python爬蟲入門教程【7】：蜂鳥網圖片爬取之二

蜂鳥網圖片--簡介今天玩點新鮮的，使用一個新庫 aiohttp ，利用它提高咱爬蟲的爬取速度。安裝模組常規套路 pip ins

python網絡爬蟲

所有網站源碼 href 段子正則 chat ade www write 獲取http://www.qiushibaike.com/textnew/的所有段子，並且按照頁碼保存到本地一共35頁。二話不說上代碼，正則表達式有待研究。網站源碼片段： <a href="/

python尤果網圖片爬蟲(簡單)__selenium+phantomJS+urllib2

1.首先給python安裝selenium庫,然後下載phantomJS並配置環境變數(網上搜索一堆)

2.直接放python程式碼: youguo_image_spider.py

3.有問題下方留言討論

相關推薦