selenium獲取動態網站資料

阿新 • • 發佈：2018-11-21

一、安裝

pip install selenium

二、下載瀏覽器驅動

谷歌瀏覽器驅動下載地址：http://npm.taobao.org/mirrors/chromedriver/
火狐瀏覽器驅動下載地址：http://npm.taobao.org/mirrors/geckodriver/
檢視谷歌瀏覽器版本：幫助 --> 關於 Google Chrome
在這裡插入圖片描述

三、爬取今日頭條資料

進入到今日頭條主頁，點選科技，到對應的頁面爬取標題和url，但是這個頁面需要將滾輪滑倒底部，才能載入下面的內容，所有需要執行js程式碼

#!/usr/bin/env python
#-*- coding:utf-8 -*-

from selenium import webdriver 
from bs4 import BeautifulSoup
import time,xlwt

#1、模擬瀏覽器找到訪問位置
driver = webdriver.Chrome()   #例項化一個初始瀏覽器
url = "https://www.toutiao.com"
driver.get(url=url)          #以get方式傳送一個url
driver.implicitly_wait(10)   #隱形等待，確保節點都完全加載出來
driver.find_element_by_link_text('科技').click()   #獲取a標籤超連結文字
driver.implicitly_wait(10)

#2、獲取原始碼，標識滾動條位置的程式碼
for i in range(3):
    js = 'var q = document.documentElement.scrollTop=' + str(i*3000)
    driver.execute_script(js)   #執行js程式碼
    time.sleep(2)

html_doc = driver.page_source  #獲取網頁原始碼

#3、解析內容
data = []
soup = BeautifulSoup(html_doc,'html.parser')
res = soup.select('.wcommonFeed ul li .rbox-inner .title-box a')
for i in range(len(res)):
    if 'http' not in res[i]['href']:
        data.append([res[i].text, url + res[i]['href']])
    else:
        data.append([res[i].text, res[i]['href']])


#4、將資料寫入到excel中
newTable = 'test2018.xls'
book =  xlwt.Workbook(encoding='utf-8')   #建立excle表格
boot_sheet = book.add_sheet('今日頭條')    #新增工作薄

headData = ['標題','url地址']
#寫入標題
for colnum in range(2):   # 2為幾列
    boot_sheet.write(0,colnum,headData[colnum])

#寫入內容
index = 1
for content in range(len(data)):
    for colnum in range(2):
        boot_sheet.write(index,colnum,data[content][colnum])
    index += 1
book.save(newTable)

driver.quit()   #退出

效果圖：
在這裡插入圖片描述

二、實現新浪部落格的動態登陸

輸入使用者名稱和密碼後爬取對應的頁面內容

#!/usr/bin/env python
#-*- coding:utf-8 -*-

from selenium import webdriver
import time

browser = webdriver.Chrome()   #例項化一個初始瀏覽器
browser.get('http://login.sina.com.cn')   # 訪問網站

elem_user = browser.find_element_by_name('username')  # 定位到使用者名稱元素
elem_user.send_keys('username')  # 賬號使用者名稱
elem_pwd = browser.find_element_by_name("password")
elem_pwd.send_keys('password')  # 賬號密碼
elem_sub = browser.find_element_by_xpath("//input[@class='W_btn_a btn_34px']")  # 定位到提交元素
elem_sub.click()  # 點選登陸
time.sleep(10)  # 等待10s

current_url = browser.current_url  # 當前頁面的url
print(current_url)

# 跳轉到要爬取的頁面
browser.get('http://k.sina.com.cn/article_5807684875_m15a2a3d0b00100i7hw.html?cre=mysinapc&mod=f&loc=11&r=15&doct=0&rfunc=47')  
time.sleep(10)
html = browser.page_source  # 獲得當前頁面的html字串
print(html)

browser.quit()

詳情請參考官網地址：https://selenium-python.readthedocs.io

selenium獲取動態網站資料

一、安裝 pip install selenium 二、下載瀏覽器驅動谷歌瀏覽器驅動下載地址：http://npm.taobao.org/mirrors/chromedriver/ 火狐瀏覽器驅動下載地址：http://npm.taobao.org/mirrors/gec

python下利用Selenium獲取動態頁面資料

利用python爬取網站資料非常便捷，效率非常高，但是常用的一般都是使用BeautifSoup、requests搭配組合抓取靜態頁面，即網頁上顯示的資料都可以在html原始碼中找到，而不是網站通過js或者ajax非同步載入的，這種型別的網站資料爬取起來較簡單。但

python selenium 獲取動態網頁資料

# -*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup from selenium import webdriver import time import json import sys reload(sys) sy

python獲取動態網站上面的動態加載的數據（selenium+Firefox）

bs4 cep tom 源碼 exc () utf firefox target 最近突然想到以前爬取百度學術上的參考文獻，大家可以看一下以前我的寫的博客：http://www.cnblogs.com/ybf-yyj/p/7351493.html，但是如果利用這個方法，太痛

Selenium 獲取動態js的網頁

microsoft scrip 基於 highlight print script into mic ram Selenium基於webkit實現爬蟲功能 http://www.cnblogs.com/luxiaojun/p/6144748.html https://www

Selenium獲取51job招聘資料

在這裡，Selenium結合lxml來獲取51job招聘網站西安地區自動化測試招聘的公司名稱，薪資範圍，職位要求和招聘的Title，具體實現的思路是訪問為： www.51job.com後，在搜尋輸入框輸入搜尋的關鍵字“自動化測試”，點選搜尋按鈕獲取第一頁（列

爬取動態網站資料（soup的css方式處理資料）

import requests from bs4 import BeautifulSoup url = 'https://knewone.com/discover?page=' def get_in

使用selenium爬取網站動態資料

處理頁面動態載入的爬取 selenium selenium是python的一個第三方庫，可以實現讓瀏覽器完成自動化的操作，比如說點選按鈕拖動滾輪等環境搭建：安裝:pip install selenium 獲取瀏覽器的驅動程式：下載地址http://chromedrive

Python爬蟲scrapy框架爬取動態網站——scrapy與selenium結合爬取資料

scrapy框架只能爬取靜態網站。如需爬取動態網站，需要結合著selenium進行js的渲染，才能獲取到動態載入的資料。如何通過selenium請求url，而不再通過下載器Downloader去請求這個url?方法：在request物件通過中介軟體的時候，在中介軟體內部開始

Python selenium爬蟲抓取船舶網站資料（動態頁面）

很早之前就開始學習爬蟲了，一直想學習爬取動態頁面，正巧工作中需要用到一個船舶資訊的網站，每次都是手動查詢太麻煩了，昨天下午研究了一下午，總算搞透徹了，基本步驟如下： 1、啟動瀏覽器 2、開啟網頁 3、模擬輸入，模擬點選 4、稍等一會（很重要） 5、獲取

selenium登錄網站獲取cookies請求其他數據

login 可能 show add 直接 bsp sites ajax class 1.selenium登錄網站 1）selenium訪問起始網址後一定要等待登錄框完全渲染出現，無頁面的瀏覽器可以打印出page_source出來看是否登錄框已出現 2）登錄框已出現的情況下，

scrapy結合selenium爬取淘寶等動態網站

ice 網站 -i war 原因 def exe imp span 1.首先創建爬蟲項目 2.進入爬蟲 class TaobaoSpider(scrapy.Spider): name = ‘taobao‘ allowed_domains = [‘taobao.c

IOS獲取伺服器JSON資料並動態顯示到UITableView列表

Hi,本篇文章主要講解如何利用服務端，獲取json資料並且動態顯示到UITableView之中；分別思路邏輯有以下: 1.建立該需要專案檔案，如：PurchaseView.h(樣式),PurchaseController.h(邏輯); 2.使用的AFNetworking，請求服務

highcharts click事件獲取資料傳給datagrid ，動態載入資料

點選highcharts的柱子會觸發click事件，並將資料傳給後臺獲取到相應部門下的所有員工資訊顯示在datagrid 如下：新增在charts的初始化裡 [java] view plain copy

Python3+Selenium爬取動態網頁資料

背景：有時候想獲取網頁的資訊，然後下載裡面的圖片資料等等遇到的問題：有時一些網頁是動態的，一些內容是通過js非同步拉取，甚至拉取時間是懶載入的，例如滾動到元素位置的時候才載入解決方案：這個時候就需要Selenium神器了 Selenium 是什麼？一句話

Java：java爬蟲獲取動態網頁的資料

說明：只是分享一種解決方案，程式碼以及部分截圖不方便貼出，請諒解！前段時間一直在研究爬蟲，抓取網路上的特定的資料，如果只是靜態網頁就是再簡單不過了，直接使用Jsoup ： Document doc = Jsoup.connect(url).timeout(2000).

綜合使用python爬蟲技術，selenium模組動態抓取“視覺中國”網站上的圖片的url

一、匯入模組 import time from selenium import webdriver from lxml import etree 本文章純粹用來練手，於是我使用了etree,其實光使用find_elements…的方法也可以二、開始幹活 1.

bootstrapTable動態渲染資料獲取

在其動態渲染表格之前獲取有後臺傳遞的資料時，可採用如下程式碼： var $table = $("#theTable"); $table.bootstrapTable({ url: "url", dataT

Python丨如果是動態網站可以採用selenium的三種等待方式進行解讀

如果網站採用了動態html技術，那麼頁面上的部分元素出現時間便不能確定，這個時候就可以設定一個等待時間，強制要求在時間內出現，否則報錯，那麼我可以用等待。說到等待，又有三種等法，且聽小編一一道來： Python學習資料或者需要程式碼、視訊加Python學習群：9

[Python爬蟲] 爬蟲例項:獲取政府網站公示資料並儲存到MongoDB資料庫

前言在上一篇文章 https://blog.csdn.net/xHibiki/article/details/84134554 中,我們介紹了Mongo資料庫以及管理工具Studio3T和admin

selenium獲取動態網站資料

一、安裝

二、下載瀏覽器驅動

三、爬取今日頭條資料

二、實現新浪部落格的動態登陸

相關推薦