爬蟲入門之爬取網頁ppt成品及製作思路隨筆

阿新 • • 發佈：2022-03-22

python爬蟲入門實現爬取ppt隨筆

先上原始碼！

from selenium import webdriver
import requests
from selenium.webdriver.common.by import By
import os,fitz,pprint
username = ''
password = ''
fpath = 'D:/ppt/高數ppt'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
baseurl = input('輸入連結：')
driver = webdriver.Firefox()
driver.implicitly_wait(10)
driver.get(baseurl)
un = driver.find_element(By.CSS_SELECTOR,'#phone')
pwd = driver.find_element(By.CSS_SELECTOR,'#pwd')
lgin = driver.find_element(By.CSS_SELECTOR,'#loginBtn')
un.send_keys(username)
pwd.send_keys(password)
lgin.click()
def eachurl(locurl):
	driver.execute_script('window.open("'+locurl+'")')
	handles = driver.window_handles
	driver.switch_to.window(handles[-1])
	fname = driver.find_element(By.CSS_SELECTOR, '#mainid h1').text + '.pdf'
	driver.switch_to.frame('iframe')
	try:
		frame = driver.find_element(By.TAG_NAME, 'iframe')
		driver.switch_to.frame(frame)
	except:
		pass
	try:
		driver.switch_to.frame('panView')
	except:
		pass
	elems = driver.find_elements(By.CSS_SELECTOR, 'img[src*="http"]')
	urls = []
	for elem in elems:
		urls.append(elem.get_attribute('src'))
	pprint.pprint(urls)
	if len(urls)==0:
		return
	os.makedirs(fpath, exist_ok=1)
	os.chdir(fpath)
	doc = fitz.open()
	for i in range(len(urls)):
		r = requests.get(urls[i], headers=headers)
		with open(str('tmp') + '.png', 'wb') as f:
			f.write(r.content)
		imgdoc = fitz.open(f)
		pdfbytes = imgdoc.convert_to_pdf()
		pdf_name = str(i) + '.pdf'
		imgpdf = fitz.open(pdf_name, pdfbytes)
		doc.insert_pdf(imgpdf)
	doc.save(fname)
	os.remove(str('tmp') + '.png')
	doc.close()
	driver.close()
	urls.clear()
locelems = driver.find_elements(By.CSS_SELECTOR,'.leveltwo .clearfix a')
def operateurls(locelems):
	for locelem in locelems:
		newurl = locelem.get_attribute('href')
		print(newurl)
		eachurl(newurl)
		handles = driver.window_handles
		driver.switch_to.window(handles[0])
operateurls(locelems)
eachurl(baseurl)
driver.quit()

使用方法及成品展示

我們先要設定原始碼裡的username和password，注意是超星課堂的，一般username是手機號

然後設定你要儲存ppt的路徑，原始碼裡是d盤ppt裡的高數ppt，可以自己改

我們只要將有章節列表的頁面的網址完全複製下來，然後執行我們的python程式，按照提示貼上剛剛複製的連結就可以啦

背景：

高數老師竟然不提前發ppt在qq群裡！然而不預習聽高數真的是一種煎熬，所以經過百般搜尋，在我們學校的資源平臺上找到了高數ppt的資源。BUT！

如圖所示，這個ppt被放在一個iframe框架裡，並且沒有下載的入口，而我並不想每次看ppt都要開啟網頁！於是我用瀏覽器自帶的開發工具檢查頁面原始碼，發現他放的都是ppt內容的png格式檔案！

不過經過萬能的bing搜尋，發現python有fitz庫，可以將png圖片轉化為pdf格式，這太方便啦！

所以理論上我們可以通過簡單的爬蟲來實現爬ppt這個功能，理論可行，實踐開始！

爬取單個頁面實現思路

匯入如下模組：

from selenium import webdriver#自動化操縱瀏覽器 
from selenium.webdriver.common.by import By#路徑選擇器會用到
import requests#用於下載圖片
import os#用於設定檔案存放路徑
import fitz#將png轉化為pdf
import pprint#為了打印出來漂亮，輸出哪些url被下載了

我們先得設定一下headers，避免網站把我們當作自動化機器人

headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}

我們現在建立一個webdriver物件，我這裡用的是火狐

#例項化出來webdriver物件
driver = webdriver.Firefox()
#設定最大等待時間，就是要是瀏覽器沒反應最多10s就停止了
driver.implicitly_wait(10)
#進入url
driver.get(baseurl)

我們首先需要用webdriver進入該節ppt的網頁檢視連結，但是我們用自動化方式操作瀏覽器時先要進行登入，介面如下：

我們用find_element方法找到輸入口和登入按鈕，並且將設定好的使用者名稱和密碼用send_keys方法輸進去，並且用click模擬點選登入按鈕


un = driver.find_element(By.CSS_SELECTOR,'#phone')
pwd = driver.find_element(By.CSS_SELECTOR,'#pwd')
lgin = driver.find_element(By.CSS_SELECTOR,'#loginBtn')

un.send_keys(username)
pwd.send_keys(password)
lgin.click()

現在我們就進入了有該節ppt的網站了

由於ppt在iframe框架中，且經過檢查有的不止一層，最多兩層，所以用try-except結構來進入ppt所在的最裡層

driver.switch_to.frame('iframe')
	try:
		frame = driver.find_element(By.TAG_NAME, 'iframe')
		driver.switch_to.frame(frame)
	except:
		pass
	try:
		driver.switch_to.frame('panView')
	except:
		pass

再找到存放png的所有網址存起來，並將含有連結的標籤存起來，再用get_attribute方法獲取src裡的連結放進url中

elems = driver.find_elements(By.CSS_SELECTOR, 'img[src*="http"]')
urls = []
	for elem in elems:
		urls.append(elem.get_attribute('src'))

用fitz庫轉換png並且把轉換的同一節pdf連一塊，檔案取名從網頁的標題裡可以找到

fname = driver.find_element(By.CSS_SELECTOR, '#mainid h1').text + '.pdf'
#fpath是儲存pdf的路徑是自己設定的
os.makedirs(fpath, exist_ok=1)
	os.chdir(fpath)
	doc = fitz.open()
	for i in range(len(urls)):
        #用request方法獲取url，再用二進位制的方式將url裡的圖片內容寫入臨時檔案
		r = requests.get(urls[i], headers=headers)
		with open(str('tmp') + '.png', 'wb') as f:
			f.write(r.content)
		imgdoc = fitz.open(f)
		#轉成pdf
		pdfbytes = imgdoc.convert_to_pdf()
		pdf_name = str(i) + '.pdf'
		imgpdf = fitz.open(pdf_name, pdfbytes)
        #插入pdf
		doc.insert_pdf(imgpdf)
	doc.save(fname)
    #將進行中轉的臨時檔案刪除
	os.remove(str('tmp') + '.png')
	doc.close()
    #再關閉當前頁面
    driver。close()

爬取多個頁面思路

我們發現高數的ppt在一個資源列表裡，

經過檢查瀏覽器元素，找到了列表的元素裡的href連結

於是我們就可以將單個頁面的思路進行擴充，即每次爬完列表中的一個連結，用seenium中操作視窗的手柄window_handles的switch_to.window()返回上一個視窗，繼續進入列表的下一個連結，呼叫爬取單個頁面的函式eachurl()爬取下一節課的ppt

#找到該頁面列表中所有的url，再通過爬取單個頁面的方式處理每個列表中的url
locelems = driver.find_elements(By.CSS_SELECTOR,'.leveltwo .clearfix a')
def operateurls(locelems):
	for locelem in locelems:
		newurl = locelem.get_attribute('href')
		print(newurl)
		eachurl(newurl)
		handles = driver.window_handles
		driver.switch_to.window(handles[0])

爬蟲入門之爬取網頁ppt成品及製作思路隨筆

python爬蟲入門實現爬取ppt隨筆先上原始碼！ from selenium import webdriver import requests

爬蟲： cheerio爬取網頁中的所有圖片

技術標籤：爬蟲 climbThePage.js // （下載網頁中的圖片） // 用於傳送http請求 const https = require(\'https\')

python爬蟲實戰之爬取任意百度圖片（升級版）

技術標籤：python的學習之旅python百度爬蟲 python爬蟲實戰之爬取任意百度圖片（升級版）

如何用python爬蟲代理ip爬取網頁資料？

在網路行銷時代，許多模式已不能適應網際網路新時代，常常無法達到行銷效果，要想更好地運作網路行銷，需要藉助許多行銷工具，做好每一步。與網路問答推廣一樣，代理IP的支援也是不可或缺的。必須在營銷過程中尋找

爬蟲入門經典(二十二) | 破解base64加密之爬取安居客

大家好，我是不溫卜火，是一名計算機學院大資料專業大三的學生，暱稱來源於成語—不溫不火，本意是希望自己性情溫和。作為一名網際網路行業的小白，博主寫部落格一方面是為了記錄自己的學習過程，另一方面

python爬蟲利器之requests庫的用法(超全面的爬取網頁案例)

requests庫利用pip安裝: pip install requests 基本請求 req = requests.get(\"https://www.baidu.com/\")

Python爬蟲之爬取淘女郎照片示例詳解

本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片

另類Python爬蟲，利用pandas庫的read_html()方法爬取網頁表格型資料

文章目錄一、簡介二、原理三、爬取實戰例項1 例項2 一、簡介很多人學習python，不知道從何學起。很多人學習python，掌握了基本語法過後，不知道在哪裡尋找案例上手。很多已經做案例的人，卻不知道

爬蟲爬取網頁圖片（分頁）

爬蟲爬取網頁圖片（分頁）不分頁原始碼： import requests import re url = \'https://www.qiushibaike.com/imgrank/\'

python爬蟲爬取網頁資料並解析資料

1.網路爬蟲的基本概念網路爬蟲（又稱網路蜘蛛，機器人），就是模擬客戶端傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。

python3爬蟲爬取網頁圖片簡單示例

2019獨角獸企業重金招聘Python工程師標準>>> 本人也是剛剛開始學習python的爬蟲技術，然後本來想在網上找點教程來看看，誰知道一搜索，大部分的都是用python2來寫的，新手嘛，一般都喜歡裝新版

Python爬蟲實戰案例之爬取喜馬拉雅音訊資料詳解

前言喜馬拉雅是專業的音訊分享平臺，彙集了有聲小說,有聲讀物,有聲書,FM電臺,兒童睡前故事,相聲小品,鬼故事等數億條音訊，我最喜歡聽民間故事和德雲社相聲集，你呢？

Python爬蟲進階之爬取某視訊並下載的實現

這幾天在家閒得無聊，意外的挖掘到了一個資源網站（你懂得），但是網速慢廣告多下載不了種種原因讓我突然萌生了爬蟲的想法。

typescript 學習筆記 - 簡單網頁爬蟲1：爬取整個網頁的內容

1. 新建資料夾。 crowller 2. 在資料夾下，進行 npm init -y ,進行初始化，出現package.json檔案。

Python爬蟲進階之爬取某視訊並下載，沒有廣告的視訊看起來不爽嗎？

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python 爬蟲批量爬取網頁圖片儲存到本地的實現程式碼

其實和爬取普通資料本質一樣，不過我們直接爬取資料會直接返回，爬取圖片需要處理成二進位制資料儲存成圖片格式（.jpg,.png等）的資料文字。

python自動化辦公之爬取HTML圖片寫入PPT實戰

此文轉載自：https://blog.csdn.net/zxxxlh123/article/details/112387503#commentBox python自動化辦公之批量圖片匯入PPT

python爬蟲實現爬取網頁主頁資訊（html程式碼）

技術標籤：pythonweb python爬蟲實現爬取網頁主頁資訊（html程式碼） 1.爬取網站原始碼

入門01-爬取拉勾網頁面的連結

爬蟲的步驟： 1）使用python獲得url的原始碼（向伺服器傳送請求） 2）獲得response的響應物件，獲得響應的原始碼 3）解析原始碼（正則表示式），獲得需要抓取的資料 4）儲存爬取的資源（可寫入到檔案中，也可以寫入

Python爬蟲實戰入門六：提高爬蟲效率—併發爬取智聯招聘（轉載）

之前文章中所介紹的爬蟲都是對單個URL進行解析和爬取，url數量少不費時，但是如果我們需要爬取的網頁url有成千上萬或者更多，那怎麼辦？使用for迴圈對所有的url進行遍歷訪問？嗯，想法很好，但是如果url過多，爬取

爬蟲入門之爬取網頁ppt成品及製作思路隨筆

python爬蟲入門實現爬取ppt隨筆

先上原始碼！

使用方法及成品展示

背景：

爬取單個頁面實現思路

爬取多個頁面思路

相關推薦