Python 50行爬蟲抓取並處理圖靈書目過程詳解

阿新 • • 發佈：2020-01-09

前言

使用 requests進行爬取、BeautifulSoup進行資料提取。

主要分成兩步：第一步是解析圖書列表頁，並解析出裡面的圖書詳情頁連結。第二步是解析圖書詳情頁，提取出感興趣的內容，本例中根據不同的資料情況，採用了不同的提取方法，總的感覺就是BeautifulSoup用起來很方便

以下是幾個典型HTML內容提取的Python程式碼片段

1、提取詳情頁連結

列表頁中的詳情頁連結片段

<h4 class="name">
 <a href="/book/1921" rel="external nofollow" title="深度學習入門：基於Python的理論與實現">
  深度學習入門：基於Python的理論與實現
 </a>
</h4>

提取詳情頁連結的Python程式碼

# bs是BeautifulSoup的instance
bs.select('.name')
for 詳情連結資訊 in bs.select('.name'):
 # 提取出連結
 print(詳情連結資訊.a.get('href'))

2、提取詳情頁中的圖書名稱

詳情頁中圖書名稱HTML程式碼

<h2>
   深度學習入門：基於Python的理論與實現
</h2>

提取圖書名稱的Python程式碼

# 因為提取出來的文字前後還帶了很多空格，所以要用strip去掉 
bs.h2.get_text().strip()

3、提取電子書價格資訊

詳情頁中電子書價格HTML程式碼

<dt>電子書</dt>
 <dd>
   <span class="price">￥29.99</span>
 </dd>

提取電子書價格的Python程式碼

# 因為不是每本書都有電子書，所以要判斷一下
有電子書 = bs.find("dt",text="電子書")
if 有電子書:
 價格=有電子書.next_sibling.next_sibling.find("span",{"class": "price"}).get_text().strip()[1:]
 print(float(價格))

完整程式碼

# ituring.py，python3版本，預設只抓兩頁，可以通過啟動引數控制要抓的列表頁範圍
import sys
import requests
import time
from bs4 import BeautifulSoup

def 輸出圖書列表中的詳情連結(bs):
 # 找到頁面中所有的 <h4 class="name"><a href="/book/..." rel="external nofollow" >...</a></h4>
 for 詳情連結資訊 in bs.select('.name'):
  # 提取出連結
  yield 詳情連結資訊.a.get('href')

def 獲取圖書詳情(連結):
 詳情頁 = requests.get('http://www.ituring.com.cn%s' %連結)
 if 詳情頁.ok:
  bs = BeautifulSoup(詳情頁.content,features="html.parser")

  圖書 = {}

  圖書['title'] = bs.h2.get_text().strip()
  圖書['status'] = bs.find("strong",text="出版狀態").next_sibling

  有定價 = bs.find("strong",text="定　　價")
  if 有定價:
   圖書['price'] = 有定價.next_sibling

   有電子書 = bs.find("dt",text="電子書")
   if 有電子書:
    圖書['ePrice'] = float(有電子書.next_sibling.next_sibling.find("span",{"class": "price"}).get_text().strip()[1:])

  有出版日期 = bs.find("strong",text="出版日期")
  if 有出版日期:
   圖書['date'] = 有出版日期.next_sibling

  圖書['tags'] = []
  for tag in bs.select('.post-tag'):
   圖書['tags'].append(tag.string)

  return 圖書

 else:
  print('❌ 詳情頁 http://www.ituring.com.cn%s' %連結)

def 解析圖書列表頁(起始頁,終止頁):
 for 頁序號 in range(起始頁 - 1,終止頁): 
  # 逐一訪問圖書列表頁面
  列表頁 = requests.get('http://www.ituring.com.cn/book?tab=book&sort=new&page=%s' %頁序號)

  if 列表頁.ok:
   # 建立 BeautifulSoup 的 instance
   bs = BeautifulSoup(列表頁.content,features="html.parser")

   # 提取 列表頁中的 詳情頁連結，並逐一分析
   for 詳情頁面連結 in 輸出圖書列表中的詳情連結(bs):
    圖書資訊 = 獲取圖書詳情(詳情頁面連結)
    # 得到的圖書資訊，按照自己的需求去處理吧
    print(圖書資訊)
    # 抓完一本書休息一下
    time.sleep(0.1)

   print('✅ 第%s頁獲取完畢\n\t' %(頁序號 + 1))
  else:
   print('❌ 第%s頁獲取出錯\n\t' %(頁序號 + 1))

if __name__ == '__main__':
 # 預設圖書列表起始頁 和 終止頁
 起始圖書列表頁碼 = 1
 終止圖書列表頁碼 = 2 # ⚠️ 改改內碼表可以實現自動獲得最後一頁 

 # 獲取輸入引數; ⚠️此處未對輸入引數的型別做檢測
 if(len(sys.argv)==2):
  # 只有一個引數時，輸入的是終止頁碼，起始頁碼預設為 0
  終止圖書列表頁碼 = int(sys.argv[1])
 if(len(sys.argv)==3):
  # 有兩個引數時， 第一個引數是起始頁碼，第二個引數是終止頁碼
  起始圖書列表頁碼 = int(sys.argv[1])
  終止圖書列表頁碼 = int(sys.argv[2])

 解析圖書列表頁(起始圖書列表頁碼,終止圖書列表頁碼)

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

Python 50行爬蟲抓取並處理圖靈書目過程詳解

前言使用 requests進行爬取、BeautifulSoup進行資料提取。主要分成兩步：第一步是解析圖書列表頁，並解析出裡面的圖書詳情頁連結。第二步是解析圖書詳情頁，提取出感興趣的內容，本例中根據不同的資料情況，採用

C# winform 配合python實現網路爬蟲抓取網路簽名例項

在B站網上學習視訊，看到一些關於python的網路爬蟲方面的gui軟體開發，實現提交請求，然後返回圖片的簽名，個人感他的介面設計沒有像C#，winform那樣方便設計。

springmvc處理模型資料ModelAndView過程詳解

這篇文章主要介紹了springmvc處理模型資料ModelAndView過程詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

基於javascript處理二進位制圖片流過程詳解

今天學習怎麼生成二維碼，我習慣所有請求都用ajax完成但是今天發現jquery的ajax不支援二進位制，只能搞純文字

Python爬蟲實戰，Scrapy實戰，抓取並分析天氣資料

前言利用Python“簡單地”抓取並分析一下天氣資料。補充一下之前資料視覺化的空白。

Python爬蟲抓取指定網頁圖片程式碼例項

想要爬取指定網頁中的圖片主要需要以下三個步驟：（1）指定網站連結，抓取該網站的原始碼（如果使用google瀏覽器就是按下滑鼠右鍵 -> Inspect-> Elements 中的 html 內容）

爬蟲抓取部落格園前10頁標題帶有Python關鍵字（不區分大小寫）的文章

寫一個簡易的爬蟲程式，抓取部落格園網站首頁前10頁中所有文章標題帶有Python關鍵字（不區分大小寫）的文章，並把文章連結和文章標題存入硬碟，要求如下：

Python爬蟲抓取論壇關鍵字過程解析

前言：之前學習了用python爬蟲的基本知識，現在計劃用爬蟲去做一些實際的資料統計功能。由於前段時間演員的誕生帶火了幾個年輕的實力派演員，想用爬蟲程式搜尋某論壇中對於某些演員的討論熱度，並按照日期統計每天的

python爬蟲抓取某易雲音樂歌詞，從此不在下載

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲抓取純靜態網站及其資源（基礎篇）

遇到的需求前段時間需要快速做個靜態展示頁面，要求是響應式和較美觀。由於時間較短，自己動手寫的話也有點麻煩，所以就打算上網找現成的。

Python爬蟲抓取純靜態網站及其資源（開發篇）

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

如何使用Python網路爬蟲抓取網站圖片

本文介紹兩種爬取方式： 1.正則表示式 2.bs4解析Html 以下為正則表示式爬蟲，面向物件封裝後的程式碼如下：

Python之多執行緒爬蟲抓取網頁圖片

目標嗯，我們知道搜尋或瀏覽網站時會有很多精美、漂亮的圖片。我們下載的時候，得滑鼠一個個下載，而且還翻頁。

python爬蟲爬取筆趣網小說網站過程圖解

首先：文章用到的解析庫介紹 BeautifulSoup： Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。

Python3簡單爬蟲抓取網頁圖片程式碼例項

現在網上有很多python2寫的爬蟲抓取網頁圖片的例項，但不適用新手（新手都使用python3環境，不相容python2），

Python爬蟲爬取部落格實現視覺化過程解析

原始碼： from pyecharts import Bar import re import requests num=0 b=[] for i in range(1,11): link=\'https://www.cnblogs.com/echoDetected/default.html?page=\'+str(i)

Python 整行讀取文字方法並去掉readlines換行\n操作

我就廢話不多說了，大家還是直接看程式碼吧~ import os path=\"dir/dir\"# 目錄 files=os.listdir(path) # 讀取該下的所有文字

PHP爬蟲抓取網路圖片

技術標籤：LaravelPHP爬蟲php <?php namespace App\\Console\\Commands; use Goutte\\Client; use Illuminate\\Console\\Command;

python利用pyshark模組抓包並提取欄位之探測區域網各個裝置的資訊

技術標籤：pythonwiresharkpython 環境：python3.5，pycharm,wireshark 利用pyshark讀取報文中的相應欄位主要是要知道Capture物件各個屬性個方法都著哪些資訊，然後再一層一層讀取出來。其中apply_on_packets()

蟻坊軟體非法抓取並使用微博資料，二審被判不正當競爭

近日，北京微夢創科網路技術有限公司（以下簡稱 “微博”）訴湖南蟻坊軟體股份有限公司（以下簡稱 “蟻坊軟體”）不正當競爭案由北京智慧財產權法院作出二審判決，判決駁回蟻坊軟體的上訴，維持一審判決，即蟻坊軟體

Python 50行爬蟲抓取並處理圖靈書目過程詳解

相關推薦