【Python爬蟲】一個簡單的網路爬蟲

阿新 • • 發佈：2020-07-14

網頁結構的相似性

爬蟲的目的，是從網站中自動化的批量提取資料。

首先嚐試完成以下操作:

從以下連結中提取電影的標題和標題後的年份:

標題 CSS 選擇器：年份 CSS 選擇器：

從以下連結中提取每隻股票的實時價格（最大那個數字）:

股票價格 CSS 選擇器

連結相似的網頁通常具有相似的外觀。

外觀相似的網頁通常具有相似的網頁結構。

這兩個相似性是爬蟲能夠從一系列網站中自動化提取資料的重要基礎。

程式碼：

from requests_html import HTMLSession
session = HTMLSession()
links = ['https://movie.douban.com/subject/1292052/', 'https://movie.douban.com/subject/1962665/', ' 
https://movie.douban.com/subject/26752088/']

for link in links:
    r = session.get(link)
    title = r.html.find('#content > h1 > span:nth-child(1)', first=True)
    year = r.html.find('#content > h1 > span.year', first=True)
    print(title.text, year.text)

也許你用了上面的股票價格連結作為爬取物件，你會驚訝的發現程式執行出錯了。

事實上，很多網站使用 Javascript 程式碼來生成網頁內容，你的爬蟲需要正確解析 Javascript 才能獲得你所看到的頁面。

requests_html 庫提供了一個簡單的方法來處理應對情況，你只需要在r = session.get(link)後，增加一行r.html.render()，重新執行程式碼即可。

（初次執行時需要下載一些輔助工具，請耐心等待，如果下載進度條遲遲未能出現，重新執行程式。）

from requests_html import HTMLSession
session = HTMLSession()
links = ['http://stock.finance.sina.com.cn/usstock/quotes/aapl.html', 'http://stock.finance.sina.com.cn/usstock/quotes/bidu.html', 'http://stock.finance.sina.com.cn/usstock/quotes/msft.html']

for link in links:
    r = session.get(link)
    r.html.render()
    title = r.html.find('#content > h1 > span:nth-child(1)', first=True)
    year = r.html.find('#content > h1 > span.year', first=True)
    print(title.text, year.text)

【Python爬蟲】一個簡單的網路爬蟲

網頁結構的相似性爬蟲的目的，是從網站中自動化的批量提取資料。首先嚐試完成以下操作:

基於C#的簡單網路爬蟲例項

以下程式碼用來爬取近30年來地震資料，實際執行時間為4.5小時（博主電腦配置較低）

【Python程式設計】如何用Python寫一個可安裝檔案使行動硬碟不休眠

當我們外接行動硬碟時，有些行動硬碟或者硬碟盒是自帶休眠功能的，但是單我們需要經常去呼叫硬碟時，每五分鐘的休眠週期是我們無法忍受的，而且硬碟的頻繁啟動不僅導致讀取寫入時間比較慢，而且還會導致硬碟出現壞道

java實現一個簡單的爬蟲小程式

前言前些天無意間在百度搜索了一下以前寫過的部落格我啥時候在這麼多不知名的網站上發表部落格了？？？點進去一看，內容一模一樣，作者卻不是我...

寫一個簡單node爬蟲,將苑一峰 es6 教程網爬取轉為pdf 檔案

準備工作，很簡單，只需要安裝好node 環境就可以了，另外安裝一個谷歌開發的一個爬蟲框架，puppeteer,這個模組很強大，可以模擬瀏覽器做很多事情，大家可以去官網去學習一下，不多說，直接上程式碼

程式設計（Python）實驗十五網路爬蟲基礎 (1)

技術標籤：Python程式設計實驗（SWUST）python正則表示式爬蟲實驗目的 1、網路爬蟲的基本原理與規範。 2、掌握使用 Requests 庫獲取靜態網頁資訊。 3、掌握使用 BeautifulSoup4 庫解析網頁資訊。 4、掌握正則表

python scrapy Django weui基於網路爬蟲的新聞採集和訂閱系統的設計與實現

下載地址：https://download.csdn.net/download/qq_31293575/19407912 專案介紹 python scrapy Django weui基於網路爬蟲的新聞採集和訂閱系統的設計與實現

node.js做一個簡單的爬蟲案例教程

準備工作首先，你需要下載 node，這個應該沒啥問題吧原文要求下載 webstrom，我電腦上本來就有，但其實不用下載，完全在命令列裡面操作就行

爬蟲與Python：（一）網路爬蟲概念篇——7.Session和Cookie

什麼是Session和Cookie? Session和Cookie是使用者保持HTTP連線狀態的技術。在網頁或APP等應用中基本都會使用到。在寫爬蟲的時候，也經常會涉及需要攜帶Cookie應對一般的反爬，接下來會對Session和Cookie的基本原理做

【Python 字串】-判斷一個字串是否包含某個指定的字串

\"\"\"check whether some letters lies in one word\"\"\" word = \"paramount\" letters = \'para\' if letters in word.lower():

Java 寫的簡單網路爬蟲

覺得好玩，昨天就研究了一下java爬蟲。在網上搜索了一些樣例研究了一下。仿造寫了一個簡單的爬蟲，可以自動爬取某本小說的章節（需要自定義正則表示式），利用多執行緒+鎖可以爬的更快，也可以同時爬多本書。

【Python雜貨鋪】速學python基礎

“人生苦短，我學python”是程式設計屆的名言。用python寫小指令碼的便捷性，讓很多其他語言的學習者把python當作輔助語言。擁有了某一個語言的功底，再來學習另外一種語言應該是十分快速的。程式設計理念都十分相似

【python + NATAPP】實現內網穿透的簡易資料傳輸

1. 服務端接收兩張影象的地址,返回這兩張影象的相似度 import os, shutil, requests import cv2

【Python學習】python paramiko CryptographyDeprecationWarning

import paramiko client = paramiko.SSHClient() client.connect(serverIp, port=serverPort, username=serverUser)

【Python篇】工廠模式

工廠方法模式前言在《設計模式》一書中工廠模式提到了：工廠方法模式（Factory Method）

【python--字典】字典的增刪改查

# （1）字典的增 # 通過鍵值對直接增加 # 有鍵值則覆蓋，如果沒有鍵值則新增 dic = {\'ni\':1,\'woazia\':2}

【python--集合】增刪改交集差集並集反交集子集和超集

# dic = {} print(type(dic)) se = {} print(type(se)) se = set() print(type(se)) # # # 建立空集合 se = set()

【HTTP圖解】2-簡單的HTTP協議

目錄HTTP協議用於客戶端和伺服器端之間的通訊通過請求和響應的交換達成通訊HTTP是不儲存狀態的協議請求URI定位資源告知伺服器意圖的http方法GET：獲取資源POST：傳輸實體主體PUT：傳輸檔案HEAD：獲得報文首部DELETE：

使用Tcl語言配置一個簡單網路環境

1. Tcl指令碼檔案circle.tcl程式碼註釋 #設定模擬需要的一些屬性 set val(chan) Channel/WirelessChannel

【python入門】必需掌握的80個經典操作（附原始碼解析）

1.Python Hello World 例項 # -*- coding: UTF-8 -*- # Filename : helloworld.py # author by : www.runoob.com

【Python爬蟲】一個簡單的網路爬蟲

網頁結構的相似性

相關推薦