Selenium3+python3自動化（二十七）--爬頁面原始碼（page_source）

阿新 • • 發佈：2020-09-01

前言

有時候通過元素的屬性查詢頁面上的某個元素，可能不大好找，這時候可以從原始碼中爬出想要的資訊。selenium的page_source方法可以獲取頁面原始碼。

爬頁面原始碼的作用：如，爬出頁面上所有的url地址，可以批量請求頁面url地址，看是否存在404等異常等

一、page_source

1.selenium的page_source方法可以直接返回頁面原始碼

二、re非貪婪模式

1.這裡需匯入re模組

2.用re的正則匹配：非貪婪模式

3.findall方法返回的是一個list集合

4.匹配出來之後發現有一些不是url連結，可以篩選下

findall在字串中找到正則表示式所匹配的所有子串，並返回一個列表，如果沒有找到匹配的，則返回空列表。

語法格式為：re.findall(pattern, string, flags=0)

參考程式碼：

driver=webdriver.Chrome()
driver.get("https://www.cnblogs.com/canglongdao")
#print(type(driver.page_source))
rs=driver.page_source.encode("utf-8")
print(type(rs),type(str(rs)))
aurl=re.findall('href="(.+?)"',str(rs))
print(aurl)

執行結果：

<class 'bytes'> <class 'str'>
['//common.cnblogs.com/favicon.ico?v=20200522', '/css/blog-common.min.css?v=7Pwqzj5EBy4dBv4DJNI181rFKP8_OF0hT7jO3o8jAa0', '/skins/book/bundle-book-2.min.css', '/skins/book/bundle-book-mobile.min.css?v=XFoR99E4sMNWcYA_LxWBPY7uXp4-8NCPb1RnsUN1Mwo', 'https://www.cnblogs.com/canglongdao/rss', 'https://www.cnblogs.com/canglongdao/rsd.xml', 'https://www.cnblogs.com/canglongdao/wlwmanifest.xml', 'https://www.cnblogs.com/canglongdao/', 'https://www.cnblogs.com/canglongdao/archive/2020/09/01.html', 'https://www.cnblogs.com/canglongdao/p/13595372.html', 'https://www.cnblogs.com/canglongdao/p/13595372.html', 'https://i.cnblogs.com/EditPosts.aspx?postid=13595372', 'https://www.cnblogs.com/canglongdao/p/13594914.html', 'https://www.cnblogs.com/canglongdao/p/13594914.html', 'https://i.cnblogs.com/EditPosts.aspx?postid=13594914', 'https://www.cnblogs.com/canglongdao/p/13594459.html', 'https://www.cnblogs.com/canglongdao/p/13594459.html', 'https://i.cnblogs.com/EditPosts.aspx?postid=13594459', 'https://www.cnblogs.com/canglongdao/p/13590722.html', 'https://www.cnblogs.com/canglongdao/p/13590722.html', 'https://i.cnblogs.com/EditPosts.aspx?postid=13590722', 'https://www.cnblogs.com/canglongdao/archive/2020/08/31.html', 'https://www.cnblogs.com/canglongdao/p/13590348.html', 'https://www.cnblogs.com/canglongdao/p/13590348.html', 'https://i.cnblogs.com/EditPosts.aspx?postid=13590348', 'https://www.cnblogs.com/canglongdao/p/13589720.html', 'https://www.cnblogs.com/canglongdao/p/13589720.html', 'https://i.cnblogs.com/EditPosts.aspx?postid=13589720', 'https://www.cnblogs.com/canglongdao/p/13587969.html', 'https://www.cnblogs.com/canglongdao/p/13587969.html', 'https://i.cnblogs.com/EditPosts.aspx?postid=13587969', 'https://www.cnblogs.com/canglongdao/archive/2020/08/30.html', 'https://www.cnblogs.com/canglongdao/p/13587061.html', 'https://www.cnblogs.com/canglongdao/p/13587061.html', 'https://i.cnblogs.com/EditPosts.aspx?postid=13587061', 'https://www.cnblogs.com/canglongdao/p/13586938.html', 'https://www.cnblogs.com/canglongdao/p/13586938.html', 'https://i.cnblogs.com/EditPosts.aspx?postid=13586938', 'https://www.cnblogs.com/canglongdao/p/13585477.html', 'https://www.cnblogs.com/canglongdao/p/13585477.html', 'https://i.cnblogs.com/EditPosts.aspx?postid=13585477', 'https://www.cnblogs.com/canglongdao/default.html?page=2', 'https://www.cnblogs.com/', 'javascript:void(0);', 'javascript:void(0);', 'https://www.cnblogs.com/canglongdao/archive/2020/09/01.html', 'https://www.cnblogs.com/', 'https://www.cnblogs.com/canglongdao/', 'https://i.cnblogs.com/EditPosts.aspx?opt=1', 'https://msg.cnblogs.com/send/%E6%98%9F%E7%A9%BA6', 'javascript:void(0)', 'https://www.cnblogs.com/canglongdao/rss/', 'https://i.cnblogs.com/', 'https://home.cnblogs.com/u/canglongdao/', 'https://home.cnblogs.com/u/canglongdao/', 'https://home.cnblogs.com/u/canglongdao/followers/', 'https://home.cnblogs.com/u/canglongdao/followees/', 'javascript:void(0)', 'https://www.cnblogs.com/canglongdao/p/', 'https://www.cnblogs.com/canglongdao/MyComments.html', 'https://www.cnblogs.com/canglongdao/OtherPosts.html', 'https://www.cnblogs.com/canglongdao/RecentComments.html', 'https://www.cnblogs.com/canglongdao/tag/', 'https://www.cnblogs.com/canglongdao/category/1593317.html', 'https://www.cnblogs.com/canglongdao/category/1694849.html', 'https://www.cnblogs.com/canglongdao/category/1633461.html', 'https://www.cnblogs.com/canglongdao/category/1616592.html', 'https://www.cnblogs.com/canglongdao/category/1609028.html', 'https://www.cnblogs.com/canglongdao/category/1633189.html', 'https://www.cnblogs.com/canglongdao/category/1750002.html', 'https://www.cnblogs.com/canglongdao/category/1566249.html', 'https://www.cnblogs.com/canglongdao/category/1606140.html', 'https://www.cnblogs.com/canglongdao/category/1629226.html', 'https://www.cnblogs.com/canglongdao/category/1588735.html', 'https://www.cnblogs.com/canglongdao/category/1815562.html', 'https://www.cnblogs.com/canglongdao/category/1588084.html', 'https://www.cnblogs.com/canglongdao/category/1589277.html', 'https://www.cnblogs.com/canglongdao/category/1834572.html', 'https://www.cnblogs.com/canglongdao/category/1611757.html', 'https://www.cnblogs.com/canglongdao/category/1589392.html', 'https://www.cnblogs.com/canglongdao/category/1627263.html', 'https://www.cnblogs.com/canglongdao/category/1619655.html', 'https://www.cnblogs.com/canglongdao/category/1657195.html', 'https://www.cnblogs.com/canglongdao/category/1612257.html', 'https://www.cnblogs.com/canglongdao/category/1769926.html', 'https://www.cnblogs.com/canglongdao/category/1635972.html', 'https://www.cnblogs.com/canglongdao/category/1630667.html', 'https://www.cnblogs.com/canglongdao/archive/2020/09.html', 'https://www.cnblogs.com/canglongdao/archive/2020/08.html', 'https://www.cnblogs.com/canglongdao/archive/2020/07.html', 'https://www.cnblogs.com/canglongdao/archive/2020/06.html', 'https://www.cnblogs.com/canglongdao/archive/2020/05.html', 'https://www.cnblogs.com/canglongdao/archive/2020/04.html', 'https://www.cnblogs.com/canglongdao/archive/2020/03.html', 'https://www.cnblogs.com/canglongdao/archive/2020/02.html', 'https://www.cnblogs.com/canglongdao/archive/2020/01.html', 'https://www.cnblogs.com/canglongdao/archive/2019/12.html', 'https://www.cnblogs.com/canglongdao/archive/2019/11.html', 'https://www.cnblogs.com/canglongdao/archive/2019/10.html', 'https://www.cnblogs.com/canglongdao/p/13380505.html', 'https://www.cnblogs.com/canglongdao/p/12636403.html', 'https://www.cnblogs.com/canglongdao/p/11973931.html', 'https://www.cnblogs.com/canglongdao/p/12013291.html', 'https://www.cnblogs.com/canglongdao/p/12722846.html', 'https://www.cnblogs.com/canglongdao/p/12606952.html', 'https://www.cnblogs.com/canglongdao/p/12019714.html', 'https://www.cnblogs.com/canglongdao/p/12436272.html', 'https://www.cnblogs.com/canglongdao/p/12726642.html', 'https://www.cnblogs.com/canglongdao/p/11973931.html', 'https://www.cnblogs.com/canglongdao/p/12013291.html', 'https://www.cnblogs.com/canglongdao/p/13380505.html', 'https://www.cnblogs.com/canglongdao/p/12636403.html', 'https://www.cnblogs.com/canglongdao/p/12067902.html', 'https://www.cnblogs.com/canglongdao/p/13380505.html', 'https://www.cnblogs.com/canglongdao/p/12636403.html', 'https://www.cnblogs.com/canglongdao/p/12601894.html', 'https://www.cnblogs.com/canglongdao/p/13414829.html']

　三、篩選url地址出來

1.加個if語句判斷，'http'在url裡面說明是正常的url地址了

2.把所有的url地址放到一個集合，就是我們想要的結果

參考程式碼：

# coding:utf-8
from selenium import webdriver
import re
driver=webdriver.Chrome()
driver.get("https://www.cnblogs.com/canglongdao")
#print(type(driver.page_source))
rs=driver.page_source.encode("utf-8")
# print(type(rs),type(str(rs)))
aurl=re.findall('href="(.+?)"',str(rs))
print(aurl)
url=[]
for i in aurl:
    if 'http' in i:
        url.append(i)
#最終的url集合
print(len(url),url)

執行結果：

Selenium3+python3自動化（二十七）--爬頁面原始碼（page_source）

前言有時候通過元素的屬性查詢頁面上的某個元素，可能不大好找，這時候可以從原始碼中爬出想要的資訊。selenium的page_source方法可以獲取頁面原始碼。

Java 從入門到進階之路（二十七）

在之前的文章我們介紹了一下 Java 中的集合框架中的Collection，本章我們來看一下 Java 集合框架中的 Map。

《第一行程式碼》閱讀筆記（二十七）——多媒體播放Demo

因為音訊和視訊播放十分相似，所以這裡筆者自己製作了一個簡單的Demo。讓我們一起來看下吧。

大資料實戰（三十四）：電商數倉（二十七）之使用者行為資料倉庫（十三）使用者留存主題

1需求目標 1.1使用者留存概念 1.2需求描述使用者留存分析 2 DWS層 2.1DWS層（每日留存使用者明細表）

VMware vSphere 5.1 群集深入解析（二十七）- 群集架構的擴充套件

VMwarevSphere5.1ClusteringDeepdiveHA.DRS.StorageDRS.StretchedClustersDuncanEpping&FrankDennemanTranslateByTim2009/翻譯：Tim2009目錄版權關於作者知識點前言第一部分vSphere高可用性第一章介紹

Flink基礎（二十七）：FLINK SQL(三)查詢語句（三）操作符（二）

5 OrderBy & Limit 操作符描述 Order By批處理流處理注意：流處理結果需主要根據時間屬性按照升序進行排序。支援使用其他排序屬性。

Pytest 學習（二十七）- Jenkins+Allure+Pytest的持續整合

一、配置 allure 環境變數 1、下載 allure是一個命令列工具，可以去 github 下載最新版：https://github.com/allure-framework/allure2/releases

ES基礎（二十七）自動補全與基於上下文的提示

課程demo DELETE articles PUT articles { \"mappings\": { \"properties\": { \"title_completion\":{ \"type\": \"completion\"

走進C++11（二十七）處理未來發生的事情 std::future

技術標籤：C++11c++ 這一節可能是C++11最難說明白的一節。其實future有兩個兄弟，一個是std::future, 一個是它大哥std::shared_future。他們的區別就是std::future只支援移動語義，它所引用的共享狀態不與另

Python爬蟲基礎講解（二十七）：scrapy 框架—ltem和scrapy.Request

Python爬蟲、資料分析、網站開發等案例教程視訊免費線上觀看 https://space.bilibili.com/523606542

（二十七）運輸層--TCP的擁塞控制方法

TCP的擁塞控制方法 TCP進行擁塞控制的演算法有四種，即慢開始、擁塞避免、快重傳、快恢復。為了專注討論擁塞控制，假定：

Spring Boot 入門系列（二十七）使用Spring Data JPA 自定義查詢如此簡單，完全不需要寫SQL！

前面講了Spring Boot 整合Spring Boot JPA，實現JPA 的增、刪、改、查的功能。JPA使用非常簡單，只需繼承JpaRepository ，無需任何資料訪問層和sql語句即可實現完整的資料操作方法。JPA除了這些功能和優勢之外，還有

jmeter（二十七）分散式壓測注意事項

之前的部落格：jemter（二十三）：分散式測試簡略的介紹了利用jmeter做分散式測試的方法，當時只是介紹了背景和原因，以及基本的配置操作，有同學說寫得不夠詳細。

linux原始碼解讀（二十七）：協程原理和背景（一）

　　1、協程原理闡述（1）為了提升資料處理的效率，使用者的應用程式通常採用多執行緒的形式，典型的就是生產者-消費者模型：生產者往共享記憶體塊寫資料，消費者從共享記憶體塊讀資料後處理！這種經典的模型具體落

面試連環炮系列（二十七）：如何保證快取與資料庫的資料一致性

1. 如何保證快取與資料庫的資料一致性？要保持資料強一致性，只能將讀請求和寫請求序列化，在同一個記憶體佇列裡執行。但是序列化會導致系統的吞吐量大幅度降低，多用幾倍的機器去支撐線上的請求。

[碧藍航線]遊戲中艦娘網名（二十七）

龐培 PompeyTheGreat 網名“偉大的龐培”，艦名Pompeo Magno，即龐培.馬格諾。戰後改名聖喬治（San Giorgio）。

《Redis設計與實現》讀書筆記（二十七） ——Redis哨兵（sentinel）主伺服器下線判斷與故障轉移

併發程式設計學習筆記（二十六、ConcurrentHashMap，Java8 HashMap簡述）

目錄：學習準備類核心屬性、內部類、建構函式介紹雜湊衝突（雜湊碰撞） put()方法原始碼分析

二十七、miniscrapy,scrapy原始碼初解

基本使用 from twisted.web.client import getPage, defer from twisted.internet import reactor # 基本使用

Selenium3+python3自動化（十二）--iframe

前言 163郵箱登入的時候，發現不管怎麼定位都無法定位到，到底是什麼原因呢？本篇詳細介紹iframe相關的切換

Selenium3+python3自動化（二十七）--爬頁面原始碼（page_source）

findall在字串中找到正則表示式所匹配的所有子串，並返回一個列表，如果沒有找到匹配的，則返回空列表。

相關推薦